[发明专利]一种金融行业基于文档结构自动寻找局部差异点的方法和装置在审
申请号: | 202110440862.6 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113128195A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 高翔;杨慧宇;章逸骋;王亚楠;陈运文;纪达麒 | 申请(专利权)人: | 达而观信息科技(上海)有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/205 |
代理公司: | 上海智力专利商标事务所(普通合伙) 31105 | 代理人: | 周涛 |
地址: | 201203 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 金融 行业 基于 文档 结构 自动 寻找 局部 差异 方法 装置 | ||
1.一种金融行业基于文档结构自动寻找局部差异点的方法,其特征在于,针对两个文档,所述方法包括:
分别解析两个文档的结构,获取两组的正文段落;
将两组正文段落进行相似度匹配得到多个段落对;
对于每个段落对中的两个段落进行比较,获取两个文档中第一文档相对于第二文档的差异点。
2.根据权利要求1所述的金融行业基于文档结构自动寻找局部差异点的方法,其特征在于,所述方法还包括:将差异点按照第一文档的段落自然顺序排列。
3.根据权利要求2所述的金融行业基于文档结构自动寻找局部差异点的方法,其特征在于,所述获取两组的正文段落包括:
除去文档中的图像和表格;
统计不同字号文字字数占文档中所有文字字数的比例,取所占比例最大的字号文字作为正文段落文字使用字号。
4.根据权利要求3所述的金融行业基于文档结构自动寻找局部差异点的方法,其特征在于,所述将两组正文段落进行匹配得到多个段落对包括:
将两个文档的正文段落按照长度降序排序;
将两个文档的不同段落交叉组合组成段落对。
5.根据权利要求4所述的金融行业基于文档结构自动寻找局部差异点的方法,其特征在于,所述将序号相同的段落组成段落对之后,还要计算段落对中两个段落的相似度,剔除相似度小于设定阈值的段落对。
6.根据权利要求5所述的金融行业基于文档结构自动寻找局部差异点的方法,其特征在于,所述对于每个段落对中的两个段落进行比较包括:
使用最长公共子串算法比较两个段落。
7.一种金融行业基于文档结构自动寻找局部差异点的装置,其特征在于,所述装置包括存储单元、处理器,所述存储单元存储有计算机程序,所述处理器执行所述计算机程序后实现权利要求1-6中任一所述的金融行业基于文档结构自动寻找局部差异点的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110440862.6/1.html,转载请声明来源钻瓜专利网。