[发明专利]一种中文命名实体识别方法以及装置在审
申请号: | 201911192335.7 | 申请日: | 2019-11-28 |
公开(公告)号: | CN111339764A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 王喆锋;郑毅;李丹;徐童;怀宝兴;袁晶 | 申请(专利权)人: | 华为技术有限公司;中国科学技术大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 吴磊 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 命名 实体 识别 方法 以及 装置 | ||
1.一种中文命名实体识别方法,应用于其特征在于,包括:
获取待识别文本中各个字符的字符向量以及部首向量,所述部首向量为各个字符对应的部首的向量;
将所述字符向量和所述部首向量拼接,并输入双向长短期记忆网络得到第一字向量;
将所述第一字向量输入条件随机场模型输出所述待识别文本的第一实体词。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别文本中各个字符的字符向量以及部首向量包括:
将所述待识别文本中的字符转换为对应的第一ID/one-hot编码,将所述第一ID/one-hot编码通过命名实体识别模型的查找矩阵得到所述字符向量;
根据汉字-部首映射表确定所述待识别文本中的字符对应的部首,所述汉字-部首映射表用于指示字符与部首之间的一一对应关系;
将所述部首转换为对应的第二ID/one-hot编码,将所述第二ID/one-hot编码通过所述命名实体识别模型的查找矩阵得到所述部首向量。
3.根据权利要求2所述的方法,其特征在于,在所述字符无部首或所述字符为特殊字符时,所述字符对应的部首为字符本身。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
将所述字符输入预训练语言模型得到第二字向量;
将所述第一字向量与所述第二字向量拼接,输入所述条件随机场模型输出所述待识别文本的第二实体词。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述将所述第一字向量输入条件随机场模型输出所述待识别文本的第一实体词包括:
将所述第一字向量输入所述条件随机场模型通过得分函数得到所述第一字向量的标注得分;
根据所述标注得分确定所述第一实体词;
所述得分函数为:
其中,所述用于表示句长为L的句子X被标注为标签序列I时的标注得分,所述f是所述条件随机场模型所输出的每个字符对每种标签的评分,代表第t个字符被标注为标签[I]t的标注得分,r(t)代表第t个字符的部首的索引,T为转移矩阵,R为部首标签矩阵。
6.根据权利要求5所述的方法,其特征在于,所述部首标签矩阵中的部首设定规则包括其中至少一项:
所述部首标签矩阵中部首集合根据医疗病历字符确定;
所述部首标签矩阵中部首集合中的部首数量使得所述转移矩阵和所述部首标签矩阵的计算规模处于同数量级。
7.一种中文命名实体识别装置,其特征在于,包括:
获取模块,用于获取所述待识别文本中各个字符的字符向量以及部首向量,所述部首向量为各个字符对应的部首的向量;
处理模块,用于将所述获取模块获取的所述字符向量和所述部首向量拼接,并输入双向长短期记忆网络得到第一字向量;
计算模块,用于将所述处理模块得到的所述第一字向量输入条件随机场模型输出所述待识别文本中的第一实体词。
8.根据权利要求7所述的装置,其特征在于,所述获取模块,具体用于将所述待识别文本中的字符转换为对应的第一ID/one-hot编码,将所述第一ID/one-hot编码通过命名实体识别模型的查找矩阵得到所述字符向量;
根据汉字-部首映射表确定所述待识别文本中的字符对应的部首,所述汉字-部首映射表用于指示字符与部首之间的一一对应关系;
将所述部首转换为对应的第二ID/one-hot编码,将所述第二ID/one-hot编码通过所述命名实体识别模型的查找矩阵得到所述部首向量。
9.根据权利要求8所述的装置,其特征在于,在所述字符无部首或所述字符为特殊字符时,所述字符对应的部首为字符本身。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;中国科学技术大学,未经华为技术有限公司;中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911192335.7/1.html,转载请声明来源钻瓜专利网。