[发明专利]一种文本实体检测方法、系统及相关组件有效
申请号: | 201910636562.8 | 申请日: | 2019-07-15 |
公开(公告)号: | CN110348017B | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 陈文亮;郁圣卫;杨耀晟;张民 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郄晨芳 |
地址: | 215104 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 实体 检测 方法 系统 相关 组件 | ||
1.一种文本实体检测方法,其特征在于,包括:
利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;
查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;
利用所述局部标注数据训练序列标注神经模型;
利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。
2.根据权利要求1所述文本实体检测方法,其特征在于,利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果包括:
基于远程监督的方式将所述种子实体集合中的每一种子实体与所述目标语句中的每个语句实例进行匹配,并将匹配成功的语句实体设置为正例,将匹配失败的语句实体设置为未标注实例。
3.根据权利要求2所述文本实体检测方法,其特征在于,根据所述匹配结果生成所述目标语句对应的标注数据包括:
为所述正例生成实体序列标签,为所述未标注实例生成非实体序列标签;
根据所述正例和所述未标注实例在所述目标语句中的位置信息排列所述实体序列标签和所述非实体序列标签,得到所述标注数据。
4.根据权利要求3所述文本实体检测方法,其特征在于,查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据包括:
查询所述未标注实例中与无标注语料词频表匹配的语句实例,将匹配未命中的未标注实例设置为待检未标注实例;
将所述标注数据中所有所述待检未标注实例对应的序列标签修改为待检实体序列标签得到所述局部标注数据;
其中,所述待检实体序列标签包括当任一所述待检未标注实例为正例或负例时所有所述待检未标注实例的序列标签组合。
5.根据权利要求1所述文本实体检测方法,其特征在于,利用所述局部标注数据训练序列标注神经模型包括:
对所述局部标注数据执行数据增强操作得到扩充标注数据;
利用所述局部标注数据和所述扩充标注数据训练所述序列标注神经模型。
6.根据权利要求5所述文本实体检测方法,其特征在于,对所述局部标注数据执行数据增强操作得到扩充标注数据包括:
对所述局部标注数据中正例对应的语句实例进行掩盖处理,并替换为所述种子实体集合中对应的其他语句实例,得到所述扩充标注数据。
7.根据权利要求1所述文本实体检测方法,其特征在于,所述序列标注神经模型具体为双向长短期记忆-条件随机场模型;其中,所述双向长短期记忆-条件随机场模型包括输入层、双向长短期记忆层和条件随机场层。
8.一种文本实体检测系统,其特征在于,包括:
标注模块,用于利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;
标注数据修改模块,用于查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;
训练模块,用于利用所述局部标注数据训练序列标注神经模型;
实体挖掘模块,用于利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本实体检测方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述文本实体检测方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910636562.8/1.html,转载请声明来源钻瓜专利网。