[发明专利]一种文本实体检测方法、系统及相关组件有效
申请号: | 201910636562.8 | 申请日: | 2019-07-15 |
公开(公告)号: | CN110348017B | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 陈文亮;郁圣卫;杨耀晟;张民 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郄晨芳 |
地址: | 215104 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 实体 检测 方法 系统 相关 组件 | ||
本申请公开了一种文本实体检测方法,所述文本实体检测方法包括利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;利用所述局部标注数据训练序列标注神经模型;利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。本方法能够在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘。本申请还公开了一种文本实体检测系统、一种计算机可读存储介质及一种电子设备,具有以上有益效果。
技术领域
本发明涉及机器学习技术领域,特别涉及一种文本实体检测方法、系统、一种计算机可读存储介质及一种电子设备。
背景技术
新同类实体挖掘是一种开放域实体抽取技术。不同于传统命名实体识别技术仅仅针对某些特定类别实体的识别,新同类实体挖掘更侧重于对给定的某任意开放类别实体所构成的种子实体集合进行分析,利用实体抽取的技术从相关开放领域的无标注语料中挖掘出更多与该集合中的实体同属一类的新实体。例如给出种子实体集合包含{中国,德国}等国家名,抽取系统可以挖掘出{日本,法国}之类的其他实体。新同类实体挖掘广泛应用于网页搜索、物品推荐、知识图谱补全等重要技术中。
相关技术中通常利用深度学习的序列标注神经模型实现实体挖掘,但是这种方法需要大量高质量人工标注数据作为训练模型的原料,目前开放领域类别的命名实体识别训练资源还相当稀缺,无法进行有效的实体抽取。
因此,如何在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种文本实体检测方法、系统、一种计算机可读存储介质及一种电子设备,能够在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘。
为解决上述技术问题,本申请提供一种文本实体检测方法,该文本实体检测方法包括:
利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;
查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;
利用所述局部标注数据训练序列标注神经模型;
利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。
可选的,利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果包括:
基于远程监督的方式将所述种子实体集合中的每一种子实体与所述目标语句中的每个语句实例进行匹配,并将匹配成功的语句实体设置为正例,将匹配失败的语句实体设置为未标注实例。
可选的,根据所述匹配结果生成所述目标语句对应的标注数据包括:
为所述正例生成实体序列标签,为所述未标注实例生成非实体序列标签;
根据所述正例和所述未标注实例在所述目标语句中的位置信息排列所述实体序列标签和所述非实体序列标签,得到所述标注数据。
可选的,查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据包括:
查询所述未标注实例中与无标注语料词频表匹配的语句实例,将匹配未命中的未标注实例设置为待检未标注实例;
将所述标注数据中所有所述待检未标注实例对应的序列标签修改为待检实体序列标签得到所述局部标注数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910636562.8/2.html,转载请声明来源钻瓜专利网。