[发明专利]一种基于语义分析的文档关联审核方法有效
申请号: | 201911139373.6 | 申请日: | 2019-11-20 |
公开(公告)号: | CN111091009B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 程教育;彭望龙;包亮 | 申请(专利权)人: | 中国电子科技集团公司第三十研究所 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F40/247;G06Q50/18 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 邓世燕 |
地址: | 610000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 分析 文档 关联 审核 方法 | ||
1.一种基于语义分析的文档关联审核方法,其特征在于,包括如下步骤:
步骤1,对待审查的文档进行分词处理;
步骤2,对分词后的文档进行语义分析预处理;
步骤3,预处理后基于法律法规库对文档进行特征匹配,筛选出待匹配的法律法规:
步骤3.1,构建语义关系网:
通过使用相似度计算公式计算两文本间的相似度,得到语义关系网;其中:sim(M1,M2)表示文本M1和M2的相似度,μ作为调节系数,用于表示文本相似度等于0.5时的路径,H(M)表示M与根节点间的层次数,L(M)表示文本M1和M2的路径长度;
步骤3.2,计算流介数值:
所述流介数值的计算公式如下:
Pij表示语义关系网中节点i到j的所有路径,如果经过节点n的路径在Pij上,则标记为1,反之为0;
步骤3.3,特征提取:
经步骤3.2计算出语义关系网中的每个节点的流介数值后,将流介数值最大的节点作为文本特征集;
步骤3.4,特征匹配:
使用Kuhn-Munkers算法把步骤3.3得到的文本特征集和法律法规库中的文本特征集表示为带全二分图后,筛选出待匹配的法律法规;
步骤4,筛选出待匹配的法律法规后使用bert预训练语言模型进行相似度识别;
步骤5,相似度识别后通过建立语义冲突类型模型进行冲突识别。
2.根据权利要求1所述的基于语义分析的文档关联审核方法,其特征在于,步骤2中对分词后的文档进行的语义分析预处理包括:特殊词项处理、同义词处理和词性分析。
3.根据权利要求2所述的基于语义分析的文档关联审核方法,其特征在于,所述特殊词项处理的方法为:对类似地名、人名和/或组织结构的特殊词项的命名方式进行识别,将识别出的特殊词项采用特殊词项标识进行替换。
4.根据权利要求2所述的基于语义分析的文档关联审核方法,其特征在于,所述同义词处理的方法为:对上下文中的同义词进行一致性合并处理。
5.根据权利要求2所述的基于语义分析的文档关联审核方法,其特征在于,所述词性分析的方法为:对所有词项的词性分析标注相应的词性,用以分析词语间的聚合关系。
6.根据权利要求1所述的基于语义分析的文档关联审核方法,其特征在于,步骤5中建立的所述语义冲突类型模型包括:时间冲突模型、地点冲突模型、数字冲突模型、主宾语冲突模型、反义词冲突模型、修饰词冲突模型、否定词冲突模型和背景知识冲突模型。
7.根据权利要求1-6任一项所述的基于语义分析的文档关联审核方法,其特征在于,步骤1中通过使用jieba分词工具对待审查的文档进行分词处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十研究所,未经中国电子科技集团公司第三十研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911139373.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种化成分容检测设备
- 下一篇:一种发泡剂及其制备方法和应用