[发明专利]一种命名实体的识别方法及相关设备在审
申请号: | 201910448555.5 | 申请日: | 2019-05-27 |
公开(公告)号: | CN110162793A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 代嘉慧;苗艳军 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 命名实体 关系特征 离散实体 目标文本 语义 关系确定 歧义 准确率 | ||
本发明公开了一种命名实体的识别方法及相关设备,可以增加对普通语义较强的实体词的召回以及增加了歧义实体的识别准确率。该方法包括:获取待识别的目标文本;对所述目标文本进行分词,得到N个分词,其中N≥2;根据实体共现关系确定每个所述分词对应的离散实体关系特征;将每个所述分词对应的离散实体关系特征输入命名实体识别模型,以得到每个所述分词的命名实体。
技术领域
本发明涉及自然语言处理领域,特别涉及一种命名实体的识别方法及相关设备。
背景技术
命名实体识别是指识别文本中的命名性指称项,在不同领域有不同的体现。娱乐视频领域的命名实体识别具有标题长度短、语法结构弱等特点,若果没有先验指示,仅凭一条句子很难正确识别相关实体,且由于实体数量多,变化快,训练语料往往无法完全覆盖。
一种传统的方法是将句子中的词进行词典匹配,得到一种词典特征,该方法能够有效增加训练集中未见实体词的召回,挖掘一些比较普通的实体词,但该方法指导性较弱,且无法解决多类型歧义实体词的准确识别。
发明内容
本发明提供了一种命名实体的识别方法及相关设备,可以增加对普通语义较强的实体词的召回以及增加了歧义实体的识别准确率。
本发明第一方面提供了一种命名实体的识别方法,包括:
获取待识别的目标文本;
对所述目标文本进行分词,得到N个分词,其中N≥2;
根据实体共现关系确定每个所述分词对应的离散实体关系特征;
将每个所述分词对应的离散实体关系特征输入命名实体识别模型,以得到每个所述分词的命名实体。
可选地,所述根据实体共现关系确定每个所述分词对应的离散实体关系特征包括:
确定目标分词,所述目标分词为所述N个分词中的任意一个分词;
判断所述目标分词与所述N个分词中至少一个其他分词是否存在实体共现关系;
若是,则根据所述目标分词与所述至少一个其他分词的实体共现关系确定所述目标分词的离散实体关系特征。
可选地,所述根据所述目标分词与所述至少一个其他分词的实体共现关系确定所述目标分词的离散实体关系特征包括:
当所述目标分词仅与所述至少一个其他分词中的一个分词存在实体共现关系时,根据所述目标分词与所述至少一个其他分词的一个分词的实体共现关系确定所述目标分词对应的第一实体关系特征,其中,所述第一实体关系特征属于所述离散实体关系特征。
可选地,所述根据所述目标分词与所述至少一个其他分词的实体共现关系确定所述目标分词的离散实体关系特征包括:
当所述目标分词与所述至少一个其他分词中的M个分词均存在实体共现关系时,确定所述目标分词与所述M个分词中的分词的实体共现次数,其中,1<M<N;
根据所述实体共现次数确定所述目标分词与所述至少一个其他分词的目标实体共现关系;
根据所述目标实体共现关系确定所述目标分词对应的第一实体关系特征。
可选地,所述方法还包括:
当所述目标分词与所述至少一个其他分词中的每个分词均不存在实体共现关系时,确定所述目标分词对应的第二实体关系特征,其中,所述第二实体关系特征属于所述离散实体关系特征。
本发明第二方面提供了一种命名实体的识别装置,包括:
获取单元,用于获取待识别的目标文本;
分词单元,用于对所述目标文本进行分词,得到N个分词,其中N≥2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910448555.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电网数据管理方法及装置
- 下一篇:一种分词的方法及服务器