[发明专利]高效且精确的命名实体识别方法和装置有效
申请号: | 201880002777.8 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109791570B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 刘扬;李芝喜;冯超;谢谊乒;雷志斌 | 申请(专利权)人: | 香港应用科技研究院有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
地址: | 中国香港新界沙田香港*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 高效 精确 命名 实体 识别 方法 装置 | ||
1.一种在自然语言输入文本处理中识别和提取命名实体的方法,包括:
通过基于压缩命名实体识别NER模型的命名实体识别器,在所述输入文本上执行第一阶段NER,以生成第一阶段确定,确定所述输入文本中是否存在至少一个命名实体;
如果所述第一阶段NER确定所述输入文本中不存在命名实体,则通过基于规则的命名实体识别器,在所述输入文本上执行第二阶段NER,以生成第二阶段NER结果,其中如果所述第二阶段NER确定在所述输入文本中至少存在一个命名实体,那么所述第二阶段NER结果包括一对或多对命名实体及其对应的类别或类型;
如果所述第一阶段NER确定在所述输入文本中存在至少一个命名实体,则通过所述基于压缩命名实体识别NER模型的命名实体识别器,生成第一阶段NER结果,其中所述第一阶段NER结果包括一对或多对命名实体及其对应的类别或类型;
通过NER结果合并器,合并所述第一阶段NER结果和所述第二阶段NER结果,以产生一个最终NER结果;
其中所述基于压缩命名实体识别NER模型的命名实体识别器是使用一个压缩NER模型来训练的,所述压缩NER模型是从一个训练数据集生成的,
其中,所述训练数据集是被一个向量表优化而优化的;
其中所述向量表优化包括:
通过单词向量,将所述训练数据集中的句子聚类成一个可配置数量的群集;
从每个所述群集中选择语料库以包含在所述训练中,其中所选的语料库先前未被选择过用于所述训练数据集;
在所述训练中省略一部分所述训练数据集;
或者,所述训练数据集是被一个参数优化而优化的;
其中所述参数优化包括以下一个或多个:
减少所述训练数据集的单词向量空间维度;
减少所述训练数据集的字符向量空间维数;
使用较少内存消耗的数据方案代替所述训练数据集中的多维字符向量,来简化字符的数据表示。
2.根据权利要求1所述的方法,还包括:
如果所述第一阶段NER确定在所述输入文本中存在至少一个命名实体,则通过所述基于压缩命名实体识别NER模型的命名实体识别器,产生一个精确识别概率;
如果所述精确识别概率低于一个阈值,则通过所述基于规则的命名实体识别器,在所述输入文本上执行所述第二阶段NER,以生成所述第二阶段NER结果。
3.根据权利要求1所述的方法,其中对所述第一阶段NER结果和所述第二阶段NER结果进行合并,以生成所述最终NER结果是一个并行运行,包括:
如果所述第一阶段NER结果和所述第二阶段NER结果两者都非空,则从两者构建所述最终NER结果;
如果所述第二阶段NER结果为空,则从所述第一阶段NER结果构建所述最终NER结果;
如果所述第一阶段NER结果为空,则从所述第二阶段NER结果构建所述最终NER结果。
4.根据权利要求1所述的方法,其中对所述第一阶段NER结果和所述第二阶段NER结果进行积分以生成所述最终NER结果是一个选择选项,包括:
如果两者都非空,则从所述第二阶段NER结果构造所述最终NER结果;
如果所述第二阶段NER结果为空,则从所述第一阶段NER结果构造所述最终NER结果;
如果所述第一阶段NER结果为空,则从所述第二阶段NER结果构造所述最终NER结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于香港应用科技研究院有限公司,未经香港应用科技研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880002777.8/1.html,转载请声明来源钻瓜专利网。