[发明专利]文档信息的抽取方法、装置和电子设备在审
申请号: | 202010464581.X | 申请日: | 2020-05-27 |
公开(公告)号: | CN111680491A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 龙坤 | 申请(专利权)人: | 北京字节跳动科技有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/295;G06F40/30;G06F40/109;G06F40/106;G06K9/00 |
代理公司: | 泰和泰律师事务所 51219 | 代理人: | 祝海燕 |
地址: | 100086 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 信息 抽取 方法 装置 电子设备 | ||
本公开实施例公开了文档信息的抽取方法、装置和电子设备。该方法的一具体实施方式包括:对目标文档进行分割,得到至少一个子文本框;对于每一个所述子文本框,基于该子文本框内的至少一个第一内容的语义信息,对所述至少一个第一内容进行第一排序,得到经过第一排序后的该子文本框;将经过第一排序后的所述至少一个子文本框按照预设规则进行第二排序,得到经过第二排序后的第一子文本框序列;按照所述第一子文本框序列中至少一个所述子文本框的次序,依次读取各子文本框对应的文本内容。实现了对现有技术中提取电子文档内容出现的文本内容顺序错乱的问题进行修正,对错乱的文本重新排序,排序后的文本内容与人的阅读顺序更加贴近。可以提高对文档分析结果的准确率。
技术领域
本公开涉及计算机领域,尤其涉及一种文档信息的抽取方法、装置和电子设备。
背景技术
PDF(Portable Document Format,便携式文档格式),是一种与应用程序、操作系统、硬件无关的文件格式,可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,集成度和安全可靠性都较高。
随着数据分析技术的发展,人们越来越依赖于使用计算机对数据进行分析。对于文档而言,用户希望可以使用计算机自动读取并分析文档中的信息内容,并对信息信息内容进行分析处理。
发明内容
提供该公开内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该公开内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开实施例提供了一种文档信息的抽取方法、装置和电子设备。
第一方面,本公开实施例提供了一种文档信息的抽取方法,该方法包括:对目标文档进行分割,得到至少一个子文本框;对于每一个所述子文本框,基于该子文本框内的至少一个第一内容的语义信息,对所述至少一个第一内容进行第一排序,得到经过第一排序后的该子文本框;将经过第一排序后的所述至少一个子文本框按照预设规则进行第二排序,得到经过第二排序后的第一子文本框序列;按照所述第一子文本框序列中至少一个所述子文本框的次序,依次读取各子文本框对应的文本内容。
第二方面,本公开实施例提供了一种文档信息的抽取装置,包括:分割单元,用于对目标文档进行分割,得到至少一个子文本框;第一排序单元,用于对于每一个子文本框,基于该子文本框内的至少一个第一内容的语义信息,对所述至少一个第一内容进行第一排序,得到经过第一排序后的该子文本框;第二排序单元,用于将经过第一排序后的所述至少一个子文本框按照预设规则进行第二排序,得到经过第二排序后的第一子文本框序列;文本信息提取单元,用于按照所述第一子文本框序列中至少一个所述子文本框的次序,依次读取各子文本框对应的文本内容。
第三方面,本公开实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的文档信息的抽取方法。
第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的文档信息的抽取方法的步骤。
本公开实施例提供的文档信息的抽取方法、装置和电子设备,通过对目标文档进行分割,得到至少一个子文本框;对于每一个所述子文本框,基于该子文本框内的至少一个第一内容的语义信息,对所述至少一个第一内容进行第一排序,得到经过第一排序后的该子文本框;将经过第一排序后的所述至少一个子文本框按照预设规则进行第二排序,得到经过第二排序后的第一子文本框序列;按照所述第一子文本框序列中至少一个所述子文本框的次序,依次读取各子文本框对应的文本内容。实现了对现有技术中提取电子文档内容出现的文本内容顺序错乱的问题进行修正,对错乱的文本重新排序,排序后的文本内容与人的阅读顺序更加贴近。可以提高对文档分析结果的准确率。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动科技有限公司,未经北京字节跳动科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010464581.X/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置