[发明专利]结构化文本的生成方法、检索方法及装置有效
申请号: | 201711086041.7 | 申请日: | 2017-11-07 |
公开(公告)号: | CN108108342B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 虞文明;葛洋;陈峻峰 | 申请(专利权)人: | 汉王科技股份有限公司 |
主分类号: | G06F40/18 | 分类号: | G06F40/18;G06F40/279;G06F40/205 |
代理公司: | 北京博雅睿泉专利代理事务所(特殊普通合伙) 11442 | 代理人: | 余西西;马佑平 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 文本 生成 方法 检索 装置 | ||
1.一种结构化文本的生成方法,其特征在于,所述方法包括:
基于预设的文本数据结构,对目标图像进行识别,获得对应的目标结构化数据,其中,所述预设的文本数据结构用于支持以结构化信息描述文本版式,所述文本版式是指文本内容的排版样式;
根据所述目标结构化数据,生成符合预设的文本格式的结构化文本。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括生成文本数据结构作为预设的文本数据结构,用以根据预设的文本数据结构描述对目标图像的识别结果。
3.根据权利要求1或2所述的方法,其特征在于,
所述预设的文本数据结构至少包括识别出的文本单元的数目、每个文本单元对应的结构化信息,其中,所述结构化信息包含相应的文本单元的类型、单元位置信息、文字内容以及每个文字的文字位置信息。
4.根据权利要求3所述的方法,其特征在于,
所述文本单元的类型至少包括文本块;
当所述文本单元是文本块时,所述文本单元的数目包括所述文本块的数目,每个所述文本块的单元位置信息至少包括对应的所述文本块的块序号以及文本行信息。
5.根据权利要求3所述的方法,其特征在于,
所述文本单元类型至少包括表格;
当所述文本单元是表格时,所述文本单元的数目包括所述表格的数目,每个所述表格的单元位置信息至少包括对应的所述表格的块序号、表格行数目、表格列数目以及单元格信息;
其中,所述单元格信息包括对应的单元格所在的表格位置信息、单元格跨行数目、单元格跨行列数目、单元格包含的文本行信息。
6.根据权利要求3所述的方法,其特征在于,
所述文字位置信息包括与文字对应的符号图像相对于所述目标图像的左上角顶点作为原点得到的坐标位置信息。
7.一种文本检索方法,其特征在于,
接收文本检索请求,并基于所述文本检索请求获取用于文本检索的检索关键信息,其中,所述检索关键信息至少包括描述文本版式的结构化信息,所述文本版式是指文本内容的排版样式;
采用获得的所述检索关键信息,在若干结构化文本中进行检索,获得与所述文本检索请求对应的文本内容,生成对应的检索结果。
8.根据权利要求7所述的方法,其特征在于,
所述检索关键信息包括文本单元的结构化信息的至少部分,所述结构化信息包括文本单元的类型、单元位置信息、文字内容以及每个文字的文字位置信息;
和/或,
所述结构化文本包括对应的目标结构化数据的符合预设的文本格式的文本,所述目标结构化数据符合预设的文本数据结构,所述文本数据结构至少包括对应文本的文本单元的数目、每个所述文本单元的所述结构化信息。
9.一种结构化文本的生成装置,其特征在于,包括:
数据识别单元,基于预设的文本数据结构对目标图像进行识别,获取对应的目标结构化数据;其中,所述预设的文本数据结构用于支持以结构化信息描述文本版式,所述文本版式是指文本内容的排版样式;
文本生成单元,用于根据所述目标结构化数据,生成符合预设的文本格式的结构化文本。
10.一种结构化文本的检索装置,其特征在于,包括:
信息获取单元,用于接收文本检索请求,并基于所述文本检索请求获取用于文本检索的检索关键信息,其中,所述检索关键信息至少包括描述文本版式的结构化信息,所述文本版式是指文本内容的排版样式;
检索执行单元,用于采用获得的所述检索关键信息,在若干结构化文本中进行检索,获得与所述文本检索请求对应的文本内容,生成对应的检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汉王科技股份有限公司,未经汉王科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711086041.7/1.html,转载请声明来源钻瓜专利网。