首页 > 动态 > > 正文
2021-07-01 08:50:50

互联网资讯:AWS宣布其文档阅读服务Textract全面上市

导读 互联网是高科技的产物,是历史发展、社会进步、人类智慧的结晶;是人类迄今所拥有的容量最大、内容最广、传递速度最快的信息中心。全球每天
互联网是高科技的产物,是历史发展、社会进步、人类智慧的结晶;是人类迄今所拥有的容量最大、内容最广、传递速度最快的信息中心。全球每天有四亿人使用互联网,上网人数占世界人口的百分之6.互联网为我们了解时事、学习知识、与人沟通、休闲娱乐等提供了便捷的条件,接下来这篇文章给大家说说互联网科技的一角。

Amazon Web Services Inc.的Textract服务现已开始提供,该服务使用机器学习从包括表格和表格的文档中提取文本和数据。

Textract是 在11月的AWS re:Invent会议期间首次宣布的,它是专为不熟悉该主题的人们使用的几种新机器学习服务之一。

亚马逊认为这项服务是对传统光学字符识别软件的一项重大改进,该软件以前是企业用来从文档中提取基于文本的数据的工具。传统OCR的问题在于它无法识别表单和表格上常见的布局。结果,尝试从那些类型的源中提取数据时,OCR软件通常不准确。

亚马逊表示,Textract更像是一种“ OCR ++服务”,因为它可以识别带有文档的表,并了解数据放在行和列中。

AWS机器学习副总裁Swami Sivasubramanian在一份声明中说:“ Amazon Textract的强大功能是,它几乎可以从任何文档中准确地提取文本和结构化数据,而无需任何机器学习经验。” “随后,开发人员可以使用我们的数据库和分析服务(例如Amazon Elasticsearch Service,Amazon DynamoDB和Amazon Athena)分析和查询提取的文本和数据,并与Amazon Comprehend,Amazon Comprehend Medical,Amazon Translate和Amazon等其他机器学习服务集成SageMaker可以帮助客户从提取的文本和数据中获得更深层的含义。”

Textract支持多种图像格式,包括常规的JPEG和PNG照片文件,扫描和PDF文档。

Moor Insights&Strategy的分析师Patrick Moorhead激动地表示,亚马逊宣布Textract现在可以普遍使用:

Moorhead告诉SiliconANGLE:“我相信Textract将为仍然依赖打印文档的医疗保健等行业改变游戏规则。” “与OCR不同,Textract在位置上识别文本,因此它是准确且有用的。”

自从去年以有限的预览版本提供Textract以来,许多客户一直在使用它,其中包括The Globe and Mail Inc.,PricewaterhouseCoopers,UiPath Inc.和Alfresco Software Inc.。

目前,Textract在四个AWS地区中可用,分别是美国东部(俄亥俄州),美国东部(弗吉尼亚北部),美国西部(俄勒冈)和欧盟(爱尔兰)。该公司表示,该服务将在今年晚些时候扩展到更多地区。