[发明专利]文字块排序方法、装置、存储介质及电子设备有效
申请号: | 201911129195.9 | 申请日: | 2019-11-18 |
公开(公告)号: | CN111027304B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 韩志刚;宋洋;于广伟 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F40/189 | 分类号: | G06F40/189 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 曾尧 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字 排序 方法 装置 存储 介质 电子设备 | ||
1.一种文字块排序方法,其特征在于,包括:
获取目标文字块序列,所述目标文字块序列包括多个文字块,所述多个文字块在所述目标文字块序列中,是以文字块在文档中的第一方向的位置大小进行的排序,所述第一方向为纵向或者横向;
针对所述目标文字块序列中的相邻文字块对,根据所述相邻文字块对中各文字块在所述第一方向上的位置大小,确定所述目标文字块序列的分界文字块,所述分界文字块是与相邻文字块对中的另一文字块在所述文档的所述第一方向上不存在相同坐标范围的文字块;
根据所述分界文字块,将所述目标文字块序列划分为多个子序列;
若所述多个子序列中存在包括多个文字块的目标子序列,则根据文字块在所述文档中的第二方向的位置大小,对该目标子序列中的各文字块进行排序,所述第二方向是纵向和横向中的与所述第一方向不同的方向;
将每一所述目标子序列作为新的所述目标文字块序列,并将所述目标子序列的所述第二方向作为新的所述目标文字块序列的第一方向,以重复执行上述针对目标文字块序列进行的确定分界文字块以及划分子序列,以及针对包括多个文字块的目标子序列中的各文字块进行排序的步骤,直到所述目标文字块序列被划分为所有单个文字块作为的子序列时,得到所述目标文字块序列的文字块排序结果;
所述针对所述目标文字块序列中的相邻文字块对,根据所述相邻文字块对中各文字块在所述第一方向上的位置大小,确定所述目标文字块序列的分界文字块,包括:
对于任意所述相邻文字块对中的第一文字块和第二文字块,判断该第一文字块在所述第一方向上的最小坐标是否小于该第二文字块在所述第一方向上的最大坐标,以及判断该第二文字块在所述第一方向上的最小坐标是否小于所述第一文字块在所述第一方向上的最大坐标;
若该第一文字块在所述第一方向上的最小坐标大于该第二文字块在所述第一方向上的最大坐标,或者,该第二文字块在所述第一方向上的最小坐标大于所述第一文字块在所述第一方向上的最大坐标,则将所述第一文字块或者所述第二文字块作为所述分界文字块。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文字块序列,包括:
获取所述文档中各文字块的位置信息,所述位置信息包括第一坐标信息和第二坐标信息,所述第一坐标信息包括文字块距离坐标原点的最近点的横坐标和纵坐标,所述第二坐标信息是文字块距离所述坐标原点的最远点的横坐标和纵坐标;
根据文字块在所述第一坐标信息中的纵坐标与在所述第二坐标信息中的纵坐标之和的大小,对所述文档中的各文字块进行预排序,得到初始文字块序列,并将所述初始文字块序列作为所述目标文字块序列;或者,
根据文字块在所述第一坐标信息中的横坐标与在所述第二坐标信息中的横坐标之和的大小,对所述文档中的各文字块进行预排序,得到初始文字块序列,并将所述初始文字块序列作为所述目标文字块序列。
3.根据权利要求2所述的方法,其特征在于,所述获取目标文字块序列,包括:
获取所述文档中各文字块的位置信息,所述位置信息包括第一坐标信息和第二坐标信息,所述第一坐标信息包括文字块距离坐标原点的最近点的横坐标和纵坐标,所述第二坐标信息是文字块距离所述坐标原点的最远点的横坐标和纵坐标;
根据文字块在所述第一坐标信息中的纵坐标与在所述第二坐标信息中的纵坐标之和的大小,对所述文档中的各文字块进行预排序,得到初始文字块序列,并将所述初始文字块序列作为所述目标文字块序列;
所述方法还包括:若所述初始文字块序列不存在所述分界文字块,则根据文字块在所述第一坐标信息中的横坐标与在所述第二坐标信息中的横坐标之和的大小,对所述文档中的各文字块进行预排序,得到新的目标文字块序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911129195.9/1.html,转载请声明来源钻瓜专利网。