[发明专利]一种实体识别方法和装置有效
申请号: | 201910446418.8 | 申请日: | 2019-05-27 |
公开(公告)号: | CN110134969B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 代嘉慧;苗艳军 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06N3/0464 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 识别 方法 装置 | ||
本申请实施例公开了一种命名实体识别方法,在需要对待识别文本中的实体进行识别时,获取待识别文本中分词词条的词向量;根据分词词条的词向量和实体识别模型确定分词词条对应每类标签的第一分值。分别计算分词词条的特征向量与每类标签的标签向量间的第一匹配得分,第一匹配得分反映分词词条具有每类标签的可能性。根据第一分值和第一匹配得分分别得到分词词条对应每类标签的第二分值,在第一分值的基础上增加分词词条在实体词典中所具有的标签的分值。通过在实体识别模型的输出层结合第一匹配得分,在第一分值基础上增加分词词条所具有的标签的分值,增强实体词典对计算每类标签分值的影响,使得计算得到的分值更加准确,从而更多的召回实体。
技术领域
本申请涉及文本处理领域,尤其涉及一种实体识别方法和装置。
背景技术
命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体。NER是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术的基础,能否准确的识别出文本中的实体对自然语言处理技术的处理效果影响重大。
由于实体数量大且可能不断的更新,待识别文本中所包括的实体可能是训练语料中未出现实体(Out of vocabulary,简称OOV),训练语料难以覆盖全部实体。为此,需要结合实体词典识别实体。目前,针对待识别文本识别实体时,根据实体词典查找实体,并生成标签向量,将标签向量与词向量进行拼接输入到识别网络模型中,从而得到待识别文本中各个分词词条分别对应各个标签的分值,进而根据分值识别出实体。
由于这种方法是在词向量输入到识别网络模型前结合实体词典,与实体词典相关的特征处于识别网络模型的输入层,使得实体词典对于输出层输出的分值影响非常小,难以发挥实体词典对于计算分值的作用,进而使得计算得到的分值不够准确,从而影响实体识别对实体的召回。
发明内容
为了解决现有技术问题,本申请提供了一种实体识别方法和装置,增强了实体词典对于计算每类标签分值的影响,充分发挥实体词典的作用,使得计算得到的分值更加准确,从而可以通过实体识别更多的召回实体。
第一方面,本申请实施例提供一种命名实体识别方法,所述方法包括:
获取待识别文本中分词词条的词向量;
根据所述分词词条的词向量和实体识别模型确定所述分词词条对应每类标签的第一分值;
分别计算所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分,所述分词词条的特征向量是通过实体识别模型对所述分词词条的词向量进行处理得到的;
根据第一分值和第一匹配得分分别得到所述分词词条对应每类标签的第二分值;
根据所述第二分值识别所述待识别文本中的实体。
可选的,所述方法还包括:
根据所述分词词条和实体词典中实体的匹配结果,生成所述分词词条的掩模向量;所述掩模向量用于确认所述分词词条所属的目标标签;
所述根据第一分值和第一匹配得分分别得到所述分词词条对应每类标签的第二分值,包括:
根据所述第一分值、所述第一匹配得分和所述掩模向量分别得到所述分词词条对应每类标签的第二分值。
可选的,若所述待识别文本中包括多个分词词条,所述根据所述第二分值识别所述待识别文本中的实体,包括:
针对所述多个分词词条中每个分词词条,将第二分值最高的标签确定为分词词条的标签,得到所述多个分词词条的标签;
根据确定出的所述多个分词词条的标签,识别所述待识别文本中的实体。
可选的,所述分别计算所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910446418.8/2.html,转载请声明来源钻瓜专利网。