[发明专利]一种文本比对方法、装置、计算机设备及可读存储介质在审
申请号: | 202011292846.9 | 申请日: | 2020-11-18 |
公开(公告)号: | CN112395851A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 郭叶;武光鼎;曹琴 | 申请(专利权)人: | 北京北大英华科技有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/284;G06K9/62;G06Q50/18 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 许曼;贾磊 |
地址: | 100080 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 方法 装置 计算机 设备 可读 存储 介质 | ||
本发明提供了一种文本比对方法、装置、计算机设备及可读存储介质,所述方法包括:从第一文本中获取若干第一子文本以及从第二文本中获取若干第二子文本;根据所述第一子文本以及第二子文本获取若干相似度值;所述相似度值为一个第一子文本与一个第二子文本之间相似的程度;根据所述相似度值获取相似文本对,所述相似文本对包含第一子文本以及与该第一子文本相似度值最大的第二子文本;获取所述相似文本对中的第一子文本与第二子文本的至少一个区别特征。通过上述方法,整个过程无需人工参与,减少人工比对文本的出错率,并大大提升了文本的比对效率,所以具有较高的实用价值。
技术领域
本发明涉及数据比对技术领域,具体涉及一种文本比对方法、装置、计算机设备及可读存储介质。
背景技术
在法律领域,对于一个新的法律法规的颁布前,往往会存在草案以及相应的一个或者多个草案修改稿。对于法律从业者来说,了解草案到草案修改稿的变更情况,能够给其带来很大的便利。
目前对于法律专业人员为实现法律文书的比对,一种较为普遍的方式是采用人工进行比对,人工进行法律文书的比对,分为以下四步。第一步,需要人工整理两篇法律文书,人工分别拆分每篇法律文书到法条级别;第二步,需要人工整理出两篇法律文书的相似法条对;第三步,需要人工找出相似法条的异同,或者采用比对工具比对每个相似发条对的异同;第四步,人工设计展示输出方式,输出比对结果。上述方案需要专业人员投入大量的时间和精力进行人工处理,来适配现有技术,仍然存在耗时、易出错的问题,且对比对人员的专业背景有较高的要求,该比对方法存在较大的改进空间。
为了解决上述人工比对耗时且易出错的问题,现有技术中通过一些文本处理软件来优化上述人工处理方式。市面上常见的文本处理软件,如Word、Adobe软件中具有比对功能,但是诸如Word、Adobe等软件中包含的文档比对功能出于通用性的考虑都是逐字逐段进行比对,并没有考虑相对固定结构文书比对存在的固定结构或逻辑单元比对的需求,这就需要比对人员做大量的前置工作,如法律文书的法条整理、相似法条对梳理等,这样才能契合Word、Adobe等软件包含的文档比对功能,不能完全满足法律文书比对的实际需求,仍然需要专业人员投入大量的时间和精力进行人工处理,来适配现有技术,所以常见的软件比对功能,基本都难以满足法规、合同等结构化文书的实际比对需求。
发明内容
鉴于上述现有的结构化文书存在比对方法耗时长且离不开人工操作的问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本比对方法、装置、计算机设备及可读存储介质。
依据本发明的一个方面,提供一种文本比对方法,用于比较第一文本与第二文本,所述方法包括:
从第一文本中获取若干第一子文本以及从第二文本中获取若干第二子文本;
根据所述第一子文本以及第二子文本获取若干相似度值;所述相似度值为一个第一子文本与一个第二子文本之间相似的程度;
根据所述相似度值获取相似文本对,所述相似文本对包含第一子文本以及与该第一子文本相似度值最大的第二子文本;
获取所述相似文本对中的第一子文本与第二子文本的至少一个区别特征。
优选的,根据所述第一子文本以及第二子文本获取若干相似度值具体包括:
分别获取所述第一子文本的第一字向量以及第二子文本的第二字向量;
其中,所述第一字向量包含第一子文本中每个字符单元的出现次数,所述第二字向量包含第二子文本中每个字符单元的出现次数,一个字符单元至少包含一个字符;
根据所述第一字向量以及第二字向量获取第一子文本与第二子文本的相似度值。
优选的,根据所述相似度值获取相似文本对具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京北大英华科技有限公司,未经北京北大英华科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011292846.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于深度学习的网络舆情演化仿真方法及系统
- 下一篇:一种悬窗用平衡自重结构