[发明专利]一种文档间差异内容的追踪方法、装置及电子设备在审

专利信息
申请号: 202210233372.3 申请日: 2022-03-10
公开(公告)号: CN114595675A 公开(公告)日: 2022-06-07
发明(设计)人: 安飞飞;李昱;张圳;李斌;谷利峰;王全礼 申请(专利权)人: 中国建设银行股份有限公司
主分类号: G06F40/194 分类号: G06F40/194;G06K9/62
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 李琴
地址: 100033 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文档 差异 内容 追踪 方法 装置 电子设备
【权利要求书】:

1.一种文档间差异内容的追踪方法,其特征在于,所述方法包括:

根据文档发布时间将至少两个文档排序,得到文档集;其中,所述文档为包含预设内容的文档;

通过神经网络模型,确定所述文档集中每个文档中的要素,得到要素集;其中,所述神经网络模型用于对文档中的字符进行至少两个维度的特征识别、拟合,并基于拟合所得到的拟合特征确定所述拟合特征对应的要素;

基于所述要素集中的要素与文档的对应关系,得到要素关系图;其中,所述要素关系图指示任一类要素在不同文档中的存在情况。

2.如权利要求1所述的方法,其特征在于,所述通过神经网络模型,确定所述文档集中每个文档中的要素,得到要素集之前,包括:

在所述神经网络模型中,针对样本文档中任一维度的字符特征进行识别;

基于识别出的所述任一维度的字符特征,将不同维度的所述字符特征进行拟合,得到拟合特征,并确定所述拟合特征对应的字符,以及所述字符对应的要素,直到所确定的所述要素为所述字符所对应的预设要素的准确率大于设定阈值;

基于要素图谱中的要素类别,将所述样本文档中所述要素归类,确定所述要素所属于的所述要素类别;直到所确定的所述要素类别为所述要素所属于的预设要素类别的准确率大于分类阈值。

3.如权利要求2所述的方法,其特征在于,所述在所述神经网络模型中,针对所述文档中任一维度的字符特征进行识别,包括:

在所述神经网络模型中,将样本文档集中每个所述样本文档内第一长度的语段转化为相应的文档向量;其中,所述文档向量是基于所述语段中字符任一维度的字符特征提取的;

基于预设规则识别所述文档向量中的元素,确定任一维度的字符特征;其中,所述预设规则包括不同元素间不同的组合方式所表示的含义,以及所述含义与所述字符特征的对应关系。

4.如权利要求1~3任一项所述的方法,其特征在于,所述通过神经网络模型,确定所述文档集中每个文档中的要素,得到要素集之前,包括:

针对所述每个文档中第二长度的语段,添加文档标识符;其中,所述语段由至少一个字符组成,所述文档标识符唯一标识所述语段对应的文档;

则所述基于所述要素集中的要素与文档的对应关系,得到要素关系图,包括:

在所述要素集中,提取每一类要素中每个要素所包括的所述文档标识符;

基于所述文档标识符与文档的对应关系,建立所述要素集中的要素与文档的对应关系,则得到要素关系图。

5.如权利要求4所述的方法,其特征在于,所述基于所述要素集中的要素与文档的对应关系,得到要素关系图,包括:

基于所述存在情况,确定所述要素关系图中所述至少两个文档之间的差异特征;其中,所述差异特征由至少一个要素组成;

在所述至少两个文档中的第一文档对所述差异特征进行标注,得到对应于每个文档的关键信息;其中,所述关键信息包括所述要素是否为新增要素、所述差异特征的重要性、所述差异特征与对应法规内容的关联性、所述差异特征的语义理解输出。

6.如权利要求5所述的方法,其特征在于,所述得到文档集之后,还包括:

在所述文档集中分别确定所述相邻两个文档中的子序列;其中,所述子序列指示所述相邻两个文档中,按照设置顺序排列字符的语句;

通过动态规划确定所述相邻的两个文档中的最长子序列;

在所述相邻两个文档中,对比任意两个最长子序列,确定满足相似度要求的两个目标最长子序列;其中,最长子序列指示与设定子序列顺序一致的最长的子序列;

确定所述两个目标最长子序列中有差异的内容,将所述有差异的内容标记为所述差异内容;

基于所述差异内容,针对所述要素关系图中,所述任一类要素的存在情况进行调整。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210233372.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top