趣文网,分享全网好句子、好文章!

自然语言处理服务Amazon Comprehend现支持Word和PDF文件格式

时间:2023-11-13 04:31:01

相关推荐

自然语言处理服务Amazon Comprehend现支持Word和PDF文件格式

AWS更新自然语言处理服务Amazon Comprehend,开始支持Word和PDF文件,让用户可以从这些类型的文件截取资料。Amazon Comprehend能够分析不同语言的文本,并且识别这些文本的内容,诸如人名、地点、品牌和产品等,同时还能理解文本中的关键句子和情绪,或对大量文件的内容,依照主题加以分类。

无论是开设银行账户、申请保险或是房屋借款等程序,皆大量使用纸质文件,而这些文件动辄超过百页,对于企业来说,手动处理这些文件是一件繁琐的工作,不只需要人工,而且速度缓慢容易出错,而借由使用Amazon Comprehend,可以大幅加速文件的创建和管理,并且降低出错几率。

Amazon Comprehend新的解决方案,可处理PDF、Word和原始文本等文件格式,或是笔记和列表等布局,并进行内容截取和分析,AWS提到,这次推出的解决方案,结合自然语言处理和光学字符识别技术,能够减少企业文件的预处理和后处理工作量,用户不再需要将文件转换成原始文本,就能够使用自定义命名实体识别(NER)功能。

过去Amazon Comprehend只能处理纯文本文件,这需要用户先将文件整理成机器可读的文本,但用户现在能够利用Amazon Comprehend以相同的API,直接从PDF和Word中的文本或是列表等不同文件布局,截取特定词语。

新的Amazon Comprehend自定义实体识别模型,综合分析结构上下文和自然语言上下文,从文件中的任何位置,截取自定义词语实体。AWS提到,用户对于每一种实体类型,只要提供250个文件和100个注解,即可训练模型并且开始使用该功能,而为了要扫描PDF并截取空间位置,Amazon Comprehend会调用Amazon Textract服务,来执行必要的处理。

这项新功能有助于企业处理保险、抵押、金融等业务中的文件处理工作流程,通常这些文件布局复杂,用户也不需要页面上的每一个人信息料点,因此截取特定信息存在困难,而Amazon Comprehend这项新功能,可以使用机器学习,使用单个模型和API调用,快速截取自定义的词语,像是处理汽车或健康保险文件中的索赔金额,甚至是在抵押贷款中,截取申请人姓名、共同签署人或是其他财务文件信息等。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
显示评论内容(2)
  1. 麦小走2024-01-24 21:20麦小走[河北省网友]203.18.153.136
    Amazon真的是不断改进和扩展它的服务,让我们的工作更轻松高效。
    顶0踩0
  2. 涂春红2023-12-19 12:55涂春红[江苏省网友]202.0.101.138
    这是大好消息!更加灵活的文本格式支持可以让我们更方便地应用自然语言处理技术。
    顶7踩0
相关阅读
不转word文档的话 pdf文件可以直接被编辑吗?

不转word文档的话 pdf文件可以直接被编辑吗?

所以,要修改pdf文件时,我就会先把它转为word文档

2023-12-18

文字长图如何制作?别担心!这里有将word转换成长图的方法!

文字长图如何制作?别担心!这里有将word转换成长图的方法!

操作步骤:进入迅捷PDF转换器在线平台,在导航栏中找到文档转换图片转换,然后点击word转长图工具

2011-03-31

cad多张图片如何批量打印成pdf文件?

cad多张图片如何批量打印成pdf文件?

cad多张图片如何批量打印成pdf文件?cad是计算机辅助设计Computer Aided Design的英文缩写。是目前国内最流行的辅助制图系统。在效果图应用中,cad的作

2009-02-19

如何将PDF文件中的繁体字转成简体字?

如何将PDF文件中的繁体字转成简体字?

具体操作主要分为三步,一起来看看吧

2018-05-04