[发明专利]基于图网络融入词典的中文命名实体识别方法在审
申请号: | 201911275401.7 | 申请日: | 2019-12-12 |
公开(公告)号: | CN111046671A | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 赵军;陈玉博;刘康;隋典伯 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;尹文会 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 网络 融入 词典 中文 命名 实体 识别 方法 | ||
1.一种基于图网络融入词典的中文命名实体识别方法,其特征在于,该方法包括:
获取待识别语句的字向量表示,基于所述字向量表示,通过双向长短期记忆网络得到所述待识别语句的句子表示,作为第一表示;
基于所述待识别语句,获取其与预设的词典匹配的词的向量表示;将该向量表示作为第二表示;
将所述第一表示、所述第二表示进行拼接,通过图网络获取所述待识别语句中各字向量表示与所述第二表示的关系,并融合为多种词典知识的句子表示,作为第三表示;
基于所述第三表示,采用条件随机场算法获取多个预测标签序列,根据所述多个预测标签序列,采用维特比解码算法获取最优标签序列作为命名实体的识别结果;
其中,
所述图网络基于图注意力网络GAT构建,用于基于多头注意力机制获取所述待识别语句中各字向量表示与所述第二表示的关系。
2.根据权利要求1所述的基于图网络融入词典的中文命名实体识别方法,其特征在于,步骤S100中“通过双向长短期记忆网络得到所述待识别语句的句子表示”,其方法为:
其中,hi为为第i个字经过双向长短期记忆网络后的表示,xi为第i个字的字向量表示,为第i个字经过向右长短期记忆网络后的表示,为第i个字经过向左长短期记忆网络后的表示,为为第i-1个字经过向右长短期记忆网络后的表示,为第i-1个字经过向左长短期记忆网络后的表示,i为下标。
3.根据权利要求2所述的基于图网络融入词典的中文命名实体识别方法,其特征在于,步骤S200中“获取其与预设的词典匹配的词的向量表示”,其方法为:
wvi=ew(li)
其中,wvi为第i个字经过词向量得到的向量表示,ew为词向量表,li为第i个字。
4.根据权利要求1所述的基于图网络融入词典的中文命名实体识别方法,其特征在于,步骤S300中“将所述第一表示、所述第二表示进行拼接”,其方法为:基于所述第一表示、所述第二表示,构建三种邻接矩阵:包含图邻接矩阵、转移图邻接矩阵、网格图邻接矩阵;
所述包含图邻接矩阵为通过将所述第一表示中的字向量表示与所述第二表示相连构建的邻接矩阵;
所述转移图邻接矩阵为通过将所述第一表示中字向量表示或所述第二表示与其上下文的字向量表示或第二表示相连构建的邻接矩阵;
所述网格图邻接矩阵为通过将所述第二表示与所述第一表示中所述第二表示头尾对应的字向量表示相连构建的邻接矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911275401.7/1.html,转载请声明来源钻瓜专利网。