[发明专利]文字块排序方法、装置、存储介质及电子设备有效

专利信息
申请号: 201911129195.9 申请日: 2019-11-18
公开(公告)号: CN111027304B 公开(公告)日: 2023-04-14
发明(设计)人: 韩志刚;宋洋;于广伟 申请(专利权)人: 东软集团股份有限公司
主分类号: G06F40/189 分类号: G06F40/189
代理公司: 北京英创嘉友知识产权代理事务所(普通合伙) 11447 代理人: 曾尧
地址: 110179 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文字 排序 方法 装置 存储 介质 电子设备
【说明书】:

本公开涉及一种文字块排序方法、装置、存储介质及电子设备。该方法包括:获取目标文字块序列;针对目标文字块序列中的相邻文字块对,根据相邻文字块对中各文字块在第一方向上的位置大小,确定目标文字块序列的分界文字块;根据分界文字块,将目标文字块序列划分为多个子序列;若多个子序列中存在包括多个文字块的目标子序列,则根据文字块在文档中的第二方向的位置大小,对该目标子序列中的各文字块进行排序;若多个子序列中不存在包括多个文字块的子序列,即所述目标文字块序列被划分为所有单个文字块作为的子序列时,得到所述目标文字块序列的文字块排序结果。采用本公开的技术方法,与传统方法相比,可以降低对文字块进行排序时的复杂度。

技术领域

本公开涉及文字比较领域,具体地,涉及一种文字块排序方法、装置、存储介质及电子设备。

背景技术

在日常工作中,文字比较功能经常被使用到,例如,论文查重时比较两个文档之间的差异性,又例如比较两个计算机程序代码的差异性。

在对两个文档的内容进行比较时,通常将文档按照行或者句进行划分,得到多个文字块,再以文字块为单位进行文字比较。而该方式实现的前提条件是需要对文字块进行排序。目前,常使用图算法对文字块进行排序,首先,把每个文字块看成顶点,顶点之间的关系看成边,借助距离作为权值生成图,再结合深度遍历算法或者其他特定的算法对文字块进行排序,但是这些算法在实现时具有较高的复杂度,会占用较多的内存资源,并且耗费时间。

发明内容

本公开的目的是提供一种文字块排序方法、装置、存储介质及电子设备,以减少对文档中的文字块进行排序时的资源耗费。

为了实现上述目的,根据本公开实施例的第一方面,提供一种文字块排序方法,包括:

获取目标文字块序列,所述目标文字块序列包括多个文字块,所述多个文字块在所述目标文字块序列中,是以文字块在文档中的第一方向的位置大小进行的排序,所述第一方向为纵向或者横向;

针对所述目标文字块序列中的相邻文字块对,根据所述相邻文字块对中各文字块在所述第一方向上的位置大小,确定所述目标文字块序列的分界文字块,所述分界文字块是与相邻文字块对中的另一文字块在所述文档的所述第一方向上不存在相同坐标范围的文字块;

根据所述分界文字块,将所述目标文字块序列划分为多个子序列;

若所述多个子序列中存在包括多个文字块的目标子序列,则根据文字块在所述文档中的第二方向的位置大小,对该目标子序列中的各文字块进行排序,所述第二方向是纵向和横向中的与所述第一方向不同的方向;

将每一所述目标子序列作为新的所述目标文字块序列,并将所述目标子序列的所述第二方向作为新的所述目标文字块序列的第一方向,以重复执行上述针对目标文字块序列进行的确定分界文字块以及划分子序列,以及针对包括多个文字块的目标子序列中的各文字块进行排序的步骤,直到所述目标文字块序列被划分为所有单个文字块作为的子序列时,得到所述目标文字块序列的文字块排序结果。

可选地,所述获取目标文字块序列,包括:

获取所述文档中各文字块的位置信息,所述位置信息包括第一坐标信息和第二坐标信息,所述第一坐标信息包括文字块距离坐标原点的最近点的横坐标和纵坐标,所述第二坐标信息是文字块距离所述坐标原点的最远点的横坐标和纵坐标;

根据文字块在所述第一坐标信息中的纵坐标与在所述第二坐标信息中的纵坐标之和的大小,对所述文档中的各文字块进行预排序,得到初始文字块序列,并将所述初始文字块序列作为所述目标文字块序列;或者,

根据文字块在所述第一坐标信息中的横坐标与在所述第二坐标信息中的横坐标之和的大小,对所述文档中的各文字块进行预排序,得到初始文字块序列,并将所述初始文字块序列作为所述目标文字块序列。

可选地,所述获取目标文字块序列,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911129195.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top