[发明专利]一种实体识别方法和装置有效

申请号：	201910446418.8	申请日：	2019-05-27
公开（公告）号：	CN110134969B	公开（公告）日：	2023-07-14
发明（设计）人：	代嘉慧;苗艳军	申请（专利权）人：	北京奇艺世纪科技有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/242;G06N3/0464
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
地址：	100080 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种实体识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种命名实体识别方法，在需要对待识别文本中的实体进行识别时，获取待识别文本中分词词条的词向量；根据分词词条的词向量和实体识别模型确定分词词条对应每类标签的第一分值。分别计算分词词条的特征向量与每类标签的标签向量间的第一匹配得分，第一匹配得分反映分词词条具有每类标签的可能性。根据第一分值和第一匹配得分分别得到分词词条对应每类标签的第二分值，在第一分值的基础上增加分词词条在实体词典中所具有的标签的分值。通过在实体识别模型的输出层结合第一匹配得分，在第一分值基础上增加分词词条所具有的标签的分值，增强实体词典对计算每类标签分值的影响，使得计算得到的分值更加准确，从而更多的召回实体。

技术领域

本申请涉及文本处理领域，尤其涉及一种实体识别方法和装置。

背景技术

命名实体识别(Named Entity Recognition，简称NER)，是指识别文本中具有特定意义的实体。NER是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术的基础，能否准确的识别出文本中的实体对自然语言处理技术的处理效果影响重大。

由于实体数量大且可能不断的更新，待识别文本中所包括的实体可能是训练语料中未出现实体(Out of vocabulary，简称OOV)，训练语料难以覆盖全部实体。为此，需要结合实体词典识别实体。目前，针对待识别文本识别实体时，根据实体词典查找实体，并生成标签向量，将标签向量与词向量进行拼接输入到识别网络模型中，从而得到待识别文本中各个分词词条分别对应各个标签的分值，进而根据分值识别出实体。

由于这种方法是在词向量输入到识别网络模型前结合实体词典，与实体词典相关的特征处于识别网络模型的输入层，使得实体词典对于输出层输出的分值影响非常小，难以发挥实体词典对于计算分值的作用，进而使得计算得到的分值不够准确，从而影响实体识别对实体的召回。

发明内容

为了解决现有技术问题，本申请提供了一种实体识别方法和装置，增强了实体词典对于计算每类标签分值的影响，充分发挥实体词典的作用，使得计算得到的分值更加准确，从而可以通过实体识别更多的召回实体。

第一方面，本申请实施例提供一种命名实体识别方法，所述方法包括：

获取待识别文本中分词词条的词向量；

根据所述分词词条的词向量和实体识别模型确定所述分词词条对应每类标签的第一分值；

分别计算所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分，所述分词词条的特征向量是通过实体识别模型对所述分词词条的词向量进行处理得到的；

根据第一分值和第一匹配得分分别得到所述分词词条对应每类标签的第二分值；

根据所述第二分值识别所述待识别文本中的实体。

可选的，所述方法还包括：

根据所述分词词条和实体词典中实体的匹配结果，生成所述分词词条的掩模向量；所述掩模向量用于确认所述分词词条所属的目标标签；

所述根据第一分值和第一匹配得分分别得到所述分词词条对应每类标签的第二分值，包括：