[发明专利]基于毒品案件法律文书的实体及关系联合抽取方法有效
申请号: | 201911247446.3 | 申请日: | 2019-12-09 |
公开(公告)号: | CN111046670B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 孙媛媛;宋文辉;陈彦光 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/169;G06F40/242;G06N3/0464;G06N3/0455;G06N3/048;G06N3/084;G06N3/0985;G06F18/214;G06F18/21;G06Q50/18 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 王树本;徐雪莲 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 毒品 案件 法律文书 实体 关系 联合 抽取 方法 | ||
本发明涉及一种实体及关系的联合抽取方法,一种基于毒品案件法律文书的实体及关系联合抽取方法,包括以下步骤:(1)建立数据集,(2)搭建联合抽取模型,(3)训练联合抽取模型,(4)测试联合抽取模型,(5)结果讨论,(6)封装联合抽取模型。本发明方法使用单个模型将实体与关系一起提取,可以有效地整合实体和关系的信息,并且避免了流水线方法存在的错误积累等问题,利用神经网络模型,减少了特征提取中的人工参与,利用注意力机制,关注了每个词对抽取结果的贡献,提高了抽取结果的准确性。
技术领域
本发明涉及一种实体及关系的联合抽取方法,更具体地说,涉及一种基于毒品案件法律文书的实体及关系联合抽取方法。
背景技术
现有的进行信息抽取的方法一般是采用流水线方法,即输入一个句子,首先进行命名实体识别,然后对识别出来的实体进行两两组合,再进行关系分类,最后把存在实体关系的三元组作为输出,但流水线方法还存在以下缺点:
(1)错误积累,流水线方式的前后两步是密切相关的,如果第一步的命名实体识别产生了一定的错误,在关系分类时,这种错误的命名实体会被继续利用而导致错误进一步被积累、放大;
(2)产生了过多的无用信息,因为第一步被识别出的命名实体都要被两两组合再进行关系分类,而在这些实体组合中,更多的是两实体之间没有关系或者两实体之间的关系并没有被预测正确,这就会带来很多的错误信息。
发明内容
为了克服现有技术中存在的不足,本发明目的是提供一种基于毒品案件法律文书的实体及关系联合抽取方法。与流水线方法不同,该联合抽取方法使用单个模型将实体与关系一起提取,可以有效地整合实体和关系的信息,并且避免了流水线方法存在的错误积累等问题,取得良好的抽取效果。
为了实现上述发明目的,解决已有技术中所存在的问题,本发明采取的技术方案是:一种基于毒品案件法律文书的实体及关系联合抽取方法,包括以下步骤:
步骤1、建立数据集,将获取的毒品案件数据进行标注处理,确定模型进行一次训练需要的毒品案件数据的数量,每次训练都随机挑选相应毒品案件数据作为模型的输入,具体包括以下子步骤:
(a)、获取毒品案件数据,在已有的毒品案件数据中获得包含非法持有毒品、贩卖毒品和容留他人吸食毒品的刑事判决书,分析刑事判决书文法结构,抽取出刑事判决书中的案情描述作为数据集,获得有效毒品案件数据2098份;然后,按照7:3的比例划分训练集与测试集,训练集与测试集具有相同的数据格式,按照相同的过程完成预处理;
(b)、进行标注,根据任务的特点即需要同时标出毒品案件的实体及关系编写一个标注格式软件进行标注,该标注格式软件包含实体标签和关系标签,标注者在一次标注中,同时标出两个实体以及两个实体之间的关系,标注后的实体和关系信息存储在相应的xml文件中;
(c)、标注后进行处理,存储在xml文件中的已有实体标签仅包含实体信息,不包含关系信息,经过处理就是将关系信息融合到实体标签中,在每一个实体标签中加入位置信息与关系信息,处理成为新的标签,再将所有新的标签存储;
(d)、存储司法文本词汇表,为了将司法文本进行序列化,利用大语料库建立一个司法文本词汇表,再将训练集中的所有字词在司法文本词汇表中进行映射,每个词获得一个ID;
(e)、产生批量数据,运用神经网络进行模型训练时,由于所采用的参数优化方法为随机梯度下降,因此需要将批量毒品案件数据送入模型,为了减小局部毒品案件数据的其他因素影响,编写函数随机选择了相应数量的毒品案件数据作为模型的输入;
步骤2、搭建联合抽取模型,根据司法文本本身的特点并结合自然语言处理领域的经典框架,搭建合适的联合抽取模型结构,具体包括以下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911247446.3/2.html,转载请声明来源钻瓜专利网。