[发明专利]一种基于改进深度学习的司法实体识别方法在审
申请号: | 201911156444.3 | 申请日: | 2019-11-22 |
公开(公告)号: | CN110909547A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 王艳;杨品莉;林锋;邹奕;周激流 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06N3/04;G06N3/08;G06Q50/18 |
代理公司: | 成都帝鹏知识产权代理事务所(普通合伙) 51265 | 代理人: | 黎照西 |
地址: | 610000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 深度 学习 司法 实体 识别 方法 | ||
本发明公开一种基于改进深度学习的司法实体识别方法,包括获取司法文本,并对文本格式进行规范处理并进行标记,获得数据集包括训练样本和测试样本;将所述训练样本输入司法实体识别模型进行训练;将待识别文本的测试样本输入训练后的司法实体识别模型,获得识别结果。本发明能够获取长距离上下文特征,获得更多的信息,提高了识别精度和范围;解决深度学习方法在司法识别中预测标签序列无效的问题,保证了识别的有效性和可靠性。
技术领域
本发明属于司法实体识别技术领域,特别是涉及一种基于改进深度学习的司法实体识别方法。
背景技术
司法领域中,司法文件存在数据量大,文件种类繁多等问题,所以实现司法领域中的信息自动化是司法领域发展的必然趋势。司法领域中的信息自动化可以减轻司法从业人员的工作负担,有助于提高司法行业办事效率,有利于实现司法领域的信息共享。
近年来,随着新的自然语言处理技术的不断提出,以及司法领域实现司法信息自动化的迫切需要,越来越多的自然语言处理技术应用到司法领域中,如实体识别,关系抽取等。在法律案例文本中存在着大量的司法领域实体,这些司法领域实体的识别是实现司法领域信息自动化的基础,是后续实现司法信息抽取,构建司法领域知识图谱等技术的前提。因而,司法实体识别的研究对司法领域的发展显得尤为重要。
目前,命名实体识别作为自然语言处理的一项基础研究,在很多领域都取得了大量的成果。但是由于中文相较于英文字符的特殊性,中文字符存在一词多义的现象以及中文字符词与词的联系比较紧密,中文领域实体识别的研究成果目前相对比较少。最早的命名实体方法包括基于词典和规则的方法,基于规则的方法需要专家手动创建规则模板,利用模式和字符串匹配识别命名实体。以上两类方法都对语料库的要求比较高,并且两类方法的可移植性也比较差。随着深度学习技术在自然语言处理中的应用越来越广泛,以及词的分布式表示的提出,基于深度学习的命名实体识别技术也取得了一些成果。然而,基于深度学习的方法根据一系列给定的特征独立的对每个字符进行预测,没有考虑上文已经预测的标签,这可能造成预测到的标签序列无效。目前常采用循环神经网络(RNN)是一种典型的处理序列化语句的深度学习网络模型,经实践证明,这种方法如果序列的长度过长,会导致出现梯度消失问题而无法继续进行优化;因此RNN存在长度依赖问题,并不能获取任意长度的上下文特征信息。
发明内容
为了解决上述问题,本发明提出了一种基于改进深度学习的司法实体识别方法,能够获取长距离上下文特征,获得更多的信息,提高了识别精度和范围;解决深度学习方法在司法识别中预测标签序列无效的问题,保证了识别的有效性和可靠性。
为达到上述目的,本发明采用的技术方案是:一种基于改进深度学习的司法实体识别方法,包括;
获取司法文本,并对文本格式进行规范处理并进行标记,获得数据集包括训练样本和测试样本;
将所述训练样本输入司法实体识别模型进行训练;
将待识别文本的测试样本输入训练后的司法实体识别模型,获得识别结果。
进一步的是,对文本格式进行规范处理并进行标记过程中,先对文本进行去空格处理,然后再对文本进行标记获得文本序列。
进一步的是,所述司法实体识别模型为具有条件随机场的双向长短期记忆模型,所述具有条件随机场的双向长短期记忆模型包括序列输入模块、前向长短期记忆模型模块、后向长短期记忆模型模块和条件随机场模块,所述序列输入模块、前向长短期记忆模型模块、后向长短期记忆模型模块和条件随机场模块依次连接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911156444.3/2.html,转载请声明来源钻瓜专利网。