[发明专利]一种文本实体检测方法、系统及相关组件有效

申请号：	201910636562.8	申请日：	2019-07-15
公开（公告）号：	CN110348017B	公开（公告）日：	2022-12-23
发明（设计）人：	陈文亮;郁圣卫;杨耀晟;张民	申请（专利权）人：	苏州大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F16/33;G06N3/08
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	郄晨芳
地址：	215104 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本实体检测方法系统相关组件
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种文本实体检测方法，所述文本实体检测方法包括利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果，并根据所述匹配结果生成所述目标语句对应的标注数据；查询所述目标语句中与无标注语料词频表匹配的语句实例，并根据查询结果修改所述标注数据得到局部标注数据；利用所述局部标注数据训练序列标注神经模型；利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注，以便得到所述目标语句的实体集合。本方法能够在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘。本申请还公开了一种文本实体检测系统、一种计算机可读存储介质及一种电子设备，具有以上有益效果。

技术领域

本发明涉及机器学习技术领域，特别涉及一种文本实体检测方法、系统、一种计算机可读存储介质及一种电子设备。

背景技术

新同类实体挖掘是一种开放域实体抽取技术。不同于传统命名实体识别技术仅仅针对某些特定类别实体的识别，新同类实体挖掘更侧重于对给定的某任意开放类别实体所构成的种子实体集合进行分析，利用实体抽取的技术从相关开放领域的无标注语料中挖掘出更多与该集合中的实体同属一类的新实体。例如给出种子实体集合包含{中国，德国}等国家名，抽取系统可以挖掘出{日本，法国}之类的其他实体。新同类实体挖掘广泛应用于网页搜索、物品推荐、知识图谱补全等重要技术中。

相关技术中通常利用深度学习的序列标注神经模型实现实体挖掘，但是这种方法需要大量高质量人工标注数据作为训练模型的原料，目前开放领域类别的命名实体识别训练资源还相当稀缺，无法进行有效的实体抽取。

因此，如何在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种文本实体检测方法、系统、一种计算机可读存储介质及一种电子设备，能够在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘。

为解决上述技术问题，本申请提供一种文本实体检测方法，该文本实体检测方法包括：

利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果，并根据所述匹配结果生成所述目标语句对应的标注数据；

查询所述目标语句中与无标注语料词频表匹配的语句实例，并根据查询结果修改所述标注数据得到局部标注数据；

利用所述局部标注数据训练序列标注神经模型；

利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注，以便得到所述目标语句的实体集合。

可选的，利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果包括：

基于远程监督的方式将所述种子实体集合中的每一种子实体与所述目标语句中的每个语句实例进行匹配，并将匹配成功的语句实体设置为正例，将匹配失败的语句实体设置为未标注实例。

可选的，根据所述匹配结果生成所述目标语句对应的标注数据包括：