[发明专利]一种基于改进深度学习的司法实体识别方法在审
申请号: | 201911156444.3 | 申请日: | 2019-11-22 |
公开(公告)号: | CN110909547A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 王艳;杨品莉;林锋;邹奕;周激流 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06N3/04;G06N3/08;G06Q50/18 |
代理公司: | 成都帝鹏知识产权代理事务所(普通合伙) 51265 | 代理人: | 黎照西 |
地址: | 610000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 深度 学习 司法 实体 识别 方法 | ||
1.一种基于改进深度学习的司法实体识别方法,其特征在于,包括;
获取司法文本,并对文本格式进行规范处理并进行标记,获得数据集包括训练样本和测试样本;
将所述训练样本输入司法实体识别模型进行训练;
将待识别文本的测试样本输入训练后的司法实体识别模型,获得识别结果。
2.根据权利要求1所述的一种基于改进深度学习的司法实体识别方法,其特征在于,对文本格式进行规范处理并进行标记过程中,先对文本进行去空格处理,然后再对文本进行标记获得文本序列。
3.根据权利要求2所述的一种基于改进深度学习的司法实体识别方法,其特征在于,所述司法实体识别模型为具有条件随机场的双向长短期记忆模型,所述具有条件随机场的双向长短期记忆模型包括序列输入模块、前向长短期记忆模型模块、后向长短期记忆模型模块和条件随机场模块,所述序列输入模块、前向长短期记忆模型模块、后向长短期记忆模型模块和条件随机场模块依次连接。
4.根据权利要求3所述的一种基于改进深度学习的司法实体识别方法,其特征在于,所述前向长短期记忆模型模块提取过去的特征,所述后向长短期记忆模型模块提取未来的特征;对同一个序列从左到右做一次长短期记忆特征提取,再从右到左做一次长短期记忆特征提取,得到双向语义信息的标签序列;
所述条件随机场模块连接至后向长短期记忆模型模块的隐层输出,对后向长短期记忆模型模块输出的标签序列联合解码,进行句子级的序列标注。
5.根据权利要求4所述的一种基于改进深度学习的司法实体识别方法,其特征在于,在所述司法实体识别模型中的处理过程包括步骤:
由序列输入模块查找输入的文本序列中每个字符对应的字符向量,将查找得到的字符向量序列输入前向长短期记忆模型模块和后向长短期记忆模型模块;
分别通过前向长短期记忆模型模块和后向长短期记忆模型模块得到字符向量的隐层编码表示;
通过条件随机场模块为每个字符分配标记,计算两类分数;
输出标记序列为总分最高的序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911156444.3/1.html,转载请声明来源钻瓜专利网。