[发明专利]结构化文本的生成方法、检索方法及装置有效
申请号: | 201711086041.7 | 申请日: | 2017-11-07 |
公开(公告)号: | CN108108342B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 虞文明;葛洋;陈峻峰 | 申请(专利权)人: | 汉王科技股份有限公司 |
主分类号: | G06F40/18 | 分类号: | G06F40/18;G06F40/279;G06F40/205 |
代理公司: | 北京博雅睿泉专利代理事务所(特殊普通合伙) 11442 | 代理人: | 余西西;马佑平 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 文本 生成 方法 检索 装置 | ||
本发明公开了一种结构化文本的生成方法、检索方法及装置。该生成方法包括:基于预设的文本数据结构对目标图像进行识别,获取对应的目标结构化数据;根据目标结构化数据,生成符合预设的文本格式的结构化文本。根据本发明,可以在数据交换过程中,对不同的文本格式或者数据平台,都能根据对应的结构化数据,有效还原文本版式,尤其适用于数据交换频繁、涉及大量数据分析的大数据应用场景。
技术领域
本发明涉及图像处理技术领域,更具体地,涉及一种结构化文本的生成方法、检索方法及装置。
背景技术
光学字符识别(Optical Character Recognition,OCR)技术是指对图像中包含的字符图像进行处理,将字符图像转换为字符计算机内码,从而得到可编辑的文字编码字符流的信息处理技术。
目前OCR技术广泛应用于数字图书、文档管理等领域,然而,现有技术中,采用OCR技术识别字符图像转换得到的识别文本,普遍是市面上通用的文本编辑软件支持编辑的非结构化文本,例如Microsoft Office、WPS等等文本编辑软件可支持编辑的word文本、Windows操作系统自带的txt文本等。
发明人发现,非结构化文本包含的非结构化数据没有固定的数据结构,在基于非结构化文本进行数据交换时,会因为交换过程中涉及的非结构化文本之间的文本格式差异、涉及的数据平台支持的数据结构差异等原因,导致数据交换后的数据无法有效还原原始文本版式,而且,在进行文本检索时,若检索范围涵盖了非结构化文本,则只能基于检索词对文本进行全篇检索,从而导致文本检索效率低下。
尤其针对目前互联网中数据交换的数据量规模呈指数级爆发,以及数据交换频繁、涉及大量数据分析的大数据应用场景,非结构化数据带来的数据交换时,无法有效还原原始文本版式,以及数据检索效率低的问题尤为突出。
有鉴于此,有必要针对上述现有技术中存在的问题至少之一进行改进。
发明内容
本发明的一个目的是提供用于生成结构化文本的方法。
根据本发明的第一方面,提供了一种结构化文本的生成方法,包括:
基于预设的文本数据结构对目标图像进行识别,获取对应的目标结构化数据,
其中,所述预设的文本数据结构用于支持以结构化信息描述文本版式;
根据所述目标结构化数据,生成符合预设的文本格式的结构化文本。
可选地,所述方法还包括生成文本数据结构作为预设的文本数据结构,用以根据预设的文本数据结构描述对目标图像的识别结果。
可选地,
所述预设的文本数据结构至少包括识别出的文本单元的数目、每个文本单元对应的结构化信息,其中,所述结构化信息包含相应的文本单元的类型、单元位置信息、文字内容以及每个文字的文字位置信息。
可选地,
所述文本单元的类型至少包括文本块;
当所述文本单元是文本块时,所述文本单元的数目包括所述文本块的数目,每个所述文本块的单元位置信息至少包括对应的所述文本块的块序号以及文本行信息。
可选地,
所述文本单元类型至少包括表格;
当所述文本单元是表格时,所述文本单元的数目包括所述表格的数目,每个所述表格的单元位置信息至少包括对应的所述表格的块序号、表格行数目、表格列数目以及单元格信息;其中,所述单元格信息包括对应的单元格所在的表格位置信息、单元格跨行数目、单元格跨行列数目、单元格包含的文本行信息。
可选地,所述文字位置信息包括与文字对应的符号图像相对于所述目标图像的左上角顶点作为原点得到的坐标位置信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汉王科技股份有限公司,未经汉王科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711086041.7/2.html,转载请声明来源钻瓜专利网。