[发明专利]结构化文本的生成方法、检索方法及装置有效

申请号：	201711086041.7	申请日：	2017-11-07
公开（公告）号：	CN108108342B	公开（公告）日：	2021-09-03
发明（设计）人：	虞文明;葛洋;陈峻峰	申请（专利权）人：	汉王科技股份有限公司
主分类号：	G06F40/18	分类号：	G06F40/18;G06F40/279;G06F40/205
代理公司：	北京博雅睿泉专利代理事务所(特殊普通合伙) 11442	代理人：	余西西;马佑平
地址：	100193 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	结构文本生成方法检索装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种结构化文本的生成方法、检索方法及装置。该生成方法包括：基于预设的文本数据结构对目标图像进行识别，获取对应的目标结构化数据；根据目标结构化数据，生成符合预设的文本格式的结构化文本。根据本发明，可以在数据交换过程中，对不同的文本格式或者数据平台，都能根据对应的结构化数据，有效还原文本版式，尤其适用于数据交换频繁、涉及大量数据分析的大数据应用场景。

技术领域

本发明涉及图像处理技术领域，更具体地，涉及一种结构化文本的生成方法、检索方法及装置。

背景技术

光学字符识别(Optical Character Recognition，OCR)技术是指对图像中包含的字符图像进行处理，将字符图像转换为字符计算机内码，从而得到可编辑的文字编码字符流的信息处理技术。

目前OCR技术广泛应用于数字图书、文档管理等领域，然而，现有技术中，采用OCR技术识别字符图像转换得到的识别文本，普遍是市面上通用的文本编辑软件支持编辑的非结构化文本，例如Microsoft Office、WPS等等文本编辑软件可支持编辑的word文本、Windows操作系统自带的txt文本等。

发明人发现，非结构化文本包含的非结构化数据没有固定的数据结构，在基于非结构化文本进行数据交换时，会因为交换过程中涉及的非结构化文本之间的文本格式差异、涉及的数据平台支持的数据结构差异等原因，导致数据交换后的数据无法有效还原原始文本版式，而且，在进行文本检索时，若检索范围涵盖了非结构化文本，则只能基于检索词对文本进行全篇检索，从而导致文本检索效率低下。

尤其针对目前互联网中数据交换的数据量规模呈指数级爆发，以及数据交换频繁、涉及大量数据分析的大数据应用场景，非结构化数据带来的数据交换时，无法有效还原原始文本版式，以及数据检索效率低的问题尤为突出。

有鉴于此，有必要针对上述现有技术中存在的问题至少之一进行改进。

发明内容

本发明的一个目的是提供用于生成结构化文本的方法。

根据本发明的第一方面，提供了一种结构化文本的生成方法，包括：

基于预设的文本数据结构对目标图像进行识别，获取对应的目标结构化数据，

其中，所述预设的文本数据结构用于支持以结构化信息描述文本版式；

根据所述目标结构化数据，生成符合预设的文本格式的结构化文本。

可选地，所述方法还包括生成文本数据结构作为预设的文本数据结构，用以根据预设的文本数据结构描述对目标图像的识别结果。

可选地，

所述预设的文本数据结构至少包括识别出的文本单元的数目、每个文本单元对应的结构化信息，其中，所述结构化信息包含相应的文本单元的类型、单元位置信息、文字内容以及每个文字的文字位置信息。

可选地，