[发明专利]基于Ernie模型的案件线索要素抽取方法及系统有效
申请号: | 202110609811.1 | 申请日: | 2021-06-01 |
公开(公告)号: | CN113220888B | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 张月国;黄锐奇;董莉莉;姚立红;陶佳毅 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F40/295;G06F40/30;G06Q50/18 |
代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ernie 模型 案件 线索 要素 抽取 方法 系统 | ||
1.一种基于Ernie模型的案件线索要素抽取方法,其特征在于,包括:
步骤1:将线索文本输入到线索分类单元,获取线索文本的线索类型;线索分类单元由Ernie模型、全连接层和关键词匹配构成,根据线索文本中匹配到关键词的次数调整Ernie模型输出的权重,并根据所述权重进行分类;
步骤2:将所述线索文本划分为单句集合S1;
步骤3:将单句集合S1中的元素依次输入命名实体识别单元,识别出线索文本中的实体;命名实体识别单元由Ernie模型、全连接层和条件随机场构成,条件随机场根据词性规律从Ernie模型的输出结果中找到最合适的标注;
步骤4:将所述单句集合S1中的元素依次输入违法行为与违法后果抽取单元,获取线索文本中的违法行为要素和违法后果要素;违法行为与违法后果抽取单元由Ernie模型和全连接层构成;Ernie模型的输入包括单句的位置特征;Ernie模型的损失函数为多分类Focal-Loss,多分类Focal-Loss能够让Ernie模型更加关注难分类的样本;
步骤5:根据要素组织整合信息,将所述线索类型、实体、违法行为要素和违法后果要素组织整合,获取要素抽取结果。
2.根据权利要求1所述的基于Ernie模型的案件线索要素抽取方法,其特征在于,所述步骤1中线索类型的类别包括生态环境、国资保护、国土保护、食品安全以及药品安全。
3.根据权利要求1所述的基于Ernie模型的案件线索要素抽取方法,其特征在于,所述步骤3中的实体为人名、地址、公司名以及组织名。
4.一种基于Ernie模型的案件线索要素抽取系统,其特征在于,包括:
模块1:将线索文本输入到线索分类单元,获取线索文本的线索类型;线索分类单元由Ernie模型、全连接层和关键词匹配构成,根据线索文本中匹配到关键词的次数调整Ernie模型输出的权重,并根据所述权重进行分类;
模块2:将所述线索文本划分为单句集合S1;
模块3:将单句集合S1中的元素依次输入命名实体识别单元,识别出线索文本中的实体;命名实体识别单元由Ernie模型、全连接层和条件随机场构成,条件随机场根据词性规律从Ernie模型的输出结果中找到最合适的标注;
模块4:将所述单句集合S1中的元素依次输入违法行为与违法后果抽取单元,获取线索文本中的违法行为要素和违法后果要素;违法行为与违法后果抽取单元由Ernie模型和全连接层构成;Ernie模型的输入包括单句的位置特征;Ernie模型的损失函数为多分类Focal-Loss,多分类Focal-Loss能够让Ernie模型更加关注难分类的样本;
模块5:根据要素组织整合信息,将所述线索类型、实体、违法行为要素和违法后果要素组织整合,获取要素抽取结果。
5.根据权利要求4所述的基于Ernie模型的案件线索要素抽取系统,其特征在于,所述模块1中线索类型的类别包括生态环境、国资保护、国土保护、食品安全以及药品安全。
6.根据权利要求5所述的基于Ernie模型的案件线索要素抽取系统,其特征在于,所述模块3中的实体为人名、地址、公司名以及组织名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110609811.1/1.html,转载请声明来源钻瓜专利网。