[发明专利]一种面向证据关联分析的知识图谱自动构建方法有效
申请号: | 202011372006.3 | 申请日: | 2020-11-30 |
公开(公告)号: | CN112528036B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 孙媛媛;宋文辉 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F16/33;G06F16/901;G06Q50/18 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 王树本;徐雪莲 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 证据 关联 分析 知识 图谱 自动 构建 方法 | ||
1.一种面向证据关联分析的知识图谱自动构建方法,其特征在于包括以下步骤:
步骤1、构建本体对知识图谱进行描述,通过文献调研和资料查阅,人工设计概念、属性以及约束,构建高质量的本体结构对相关知识进行组织表达,具体包括以下子步骤:
(a)、分析举证、质证提纲中的证据描述,再依据《中华人民共和国刑事诉讼法(2018修正)》中对证据的规定,将证据概念划分为八个子类概念,包括物证,书证,证人证言,鉴定意见,被害人陈述,犯罪嫌疑人、被告人供述和辩解,勘验、检查、辨认、侦查实验笔录,视听资料、电子数据,同时完成对属性的定义,将举证、质证提纲中的证据信息映射到证据概念中;
(b)、分析起诉书结构,将起诉书概念分为嫌疑人、犯罪事实、证据集和检察院意见四个子概念,其中前两部分作为证据主要的证明对象,同时为了使得证明力度更加精细,重新定义了自然情况概念及解析嫌疑人概念;
(c)、定义自然情况概念与嫌疑人概念之间的关系,自然情况用于描述嫌疑人,因此依据司法文本呈述,定义属于关系,并将其头实体约束为自然情况,将其尾实体约束为嫌疑人;
(d)、定义证据概念与起诉书概念之间的关系,经过上述步骤,证据与起诉书两个概念已经构建完毕,再定义证明关系,并将其头实体约束为证据,将其尾实体约束为起诉书,建立两个概念之间的联系,完成知识图谱本体构建;
步骤2、抽取涉案证据,利用命名实体识别技术提取举证、质证提纲中呈述的证据,再通过规则自动确定证据实体的证明方向,具体包括以下子步骤:
(a)、构建证据实体识别数据集,举证、质证提纲中含有对涉案证据的描述,通过人工+规则的方式标注提纲中的证据实体,构建模型的训练数据集;
(b)、搭建神经网络进行命名实体识别,采用经典的编码器-解码器框架进行实体识别,编码器使用语言表征能力强的预训练模型,解码器采用前馈神经网络,其计算过程通过公式(l)和公式(2)进行描述,
ht=PLM(xt) (1)
其中,PLM表示采用的预训练语言模型Pre-trained Language Model,该语言模型由科研机构训练得到后开源,xt表示t时刻的输入数据,ht表示t时刻的输入经过编码后的中间向量,
yt=FFN(ht) (2)
其中,FFN表示前馈神经网络,根据不同输入选择不同的神经网络结构,yt表示输入序列对应位置的实体标签;
(c)、使用标注完成的数据训练上述神经网络模型,首先进行数据集切割,按照比例将数据集划分为训练集、验证集和测试集,然后将训练集数据输入到模型中,计算模型的准确率、召回率和F值,并根据模型的测试结果调整训练次数、学习率和网络结构超参数以获得模型表现最佳时的参数组合,记录参数,保存模型;
(d)、将上述训练过程中的最佳模型进行封装,新的输入文本按照相同的预训练的词向量进行文本预处理,再将该文本语言数据序列化为模型可以计算的文本向量加以表示,经过模型预测得到对应标签集,通过特定规则方法再次处理标签序列从而确定实体边界,得到证据实体,同时也获得实体类型信息,确定实体所属的证据种类;
步骤3、抽取案件结构元,利用神经网络和规则相结合的方法分析起诉书中的案件结构,划分为不同的结构元,具体包括以下子步骤:
(a)、分析数据集中的起诉书文本,依据所设计的本体划分文书结构,定位划分段落和其中的关键字,利用关键字匹配的布尔运算粗略切割文本,实现文本的粗粒度切分;
(b)、针对布尔运算无法切分或切分效果差的文本,搭建神经网络模型实现目标,首先将文书中的每一个段落利用神经网络方法序列化为词向量,而后搭建逻辑回归模型进行预测,判断每一个词向量对应的段落是否为边界段落,其计算过程,通过公式(3)进行描述,
labi=LR(NN(pari)) (3)
其中,pari表示文书中的第i个段落文本序列,NN表示将一段文本序列化为词向量的神经网络方法,LR表示逻辑回归模型,用以判断该段落是否为边界段落,labi表示第i个段落的标签,其中结果为1表示该段落是边界段落,结果为0表示非边界段落;
(c)、训练上述模型并在新文本数据上进行预测,将布尔运算结果正确的文档作为标签数据输入模型,迭代训练多个轮次,调节网络层数、学习率和优化器参数,直到模型达到最优效果,再将模型应用到布尔运算无法定位边界的文档中,得到正确的边界;
(d)、通过上述过程得到起诉书中的边界段落序号,利用规则处理该起诉书,划分为嫌疑人、犯罪事实、证据集和检察院意见四部分,再将其内容与起诉书本体进行映射,实例化起诉书本体;
步骤4、建立证据与案件结构元之间的证明关系,利用文本匹配技术分析证明对象描述与结构元之间的相似性,判断是否存在证明关系,具体包括以下子步骤:
(a)、分析举证、质证提纲每个证据关于证明对象的文本描述,解析对应起诉书中的四个结构元的文本描述,判断所分析的证据与结构是否存在证明关系,人工设计标注规则与框架,进行少量人工标注,再让第三方进行人工核验,保证标注的正确性;
(b)、搭建神经网络模型预测证据与案件结构元之间的证明关系,通过神经网络计算证据的证明对象文本描述与案件结构元文本描述之间的相似度,以相似度的相对大小作为基准判断是否存在证明关系;
(c)、使用远程监督的方法进行模型训练,步骤4子步骤(a)中标注了少量的优质数据,再使用远程监督方式进行数据增强,实现模型在大数据集上的训练,训练过程不断调节参数,直至保存最优模型结构;
(d)、使用上述训练好的模型预测每一组文本证据集合与案件结构元之间的关系,首先从特定案件涉及的文本组中提取证据列表和案件结构元列表,再将两个集合中的元素作笛卡儿积,利用模型计算证据实体与结构元之间的证据链标签,最后将存在证明关系的组合加入到三元组集合;
步骤5、融合高相似性实体的知识,利用神经网络计算不同司法文本实例之间的语义映射关系,进行知识融合,具体包括以下子步骤:
(a)、步骤1到步骤4已经建成了初步的知识图谱,但其中存在着户籍信息和户籍证明这种高相似的实体,通过远程监督对该实体知识扩充,然后结合实体自身的属性信息与相关实体的信息,三种信息拼接后作为实体的向量表达;
(b)、搭建模型计算各个实体向量表达之间的相似度,进行水平方向的实体关联,实现实例数据的互补,如果实体相似度高于一个阈值,就认为两实体描述相同的信息,进行实体链接;如果实体相似度低,则不进行实体链接,两实体独立地描述各自的信息,计算过程通过公式(4)进行描述,
sim=f(xexp;xattr;xadj) (4)
其中,xexp表示实体在第三方知识库中的知识表达,xattr表示实体的属性表达,xadj表示相关实体的向量表达,f表示相似度计算模型,sim表示模型计算出的相似度值;
(c)、根据上述计算得到的相似度值进行知识融合,在互相链接的实体集合中首先确定中心实体,然后将非中心实体的关系和属性值融合到中心实体,如果在融合过程中检测到关系或属性冲突,则采取基于投票的方法进行冲突消解;
步骤6、进行知识图谱存储,使用图数据库存储知识图谱,提高查询效率,具体包括以下子步骤:
(a)、将知识图谱中的实体看作节点,关系看作带有标签的边,知识图谱的数据很显然满足图模型结构,基于图结构的存储方法使用有向图对知识图谱数据进行建模,通过节点、边和属性对数据表示存储;
(b)、将自动抽取的关系数据批量化导入图数据库,将数据存储为csv结构,分别定义其节点文件与关系文件,然后使用图数据库自带的命令导入数据,完成知识图谱自动构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011372006.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便于收集废料的木架加工打磨设备
- 下一篇:一种木材加工用切割设备