[发明专利]基于词属性注意力机制的关键短语识别方法在审
申请号: | 201910225532.8 | 申请日: | 2019-03-25 |
公开(公告)号: | CN109992774A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 潘丽敏;李玉;罗森林;陈倩柔;吴舟婷 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键短语 注意力机制 单词序列 词属性 词性 上下文向量 标签序列 隐藏状态 机器学习领域 可变长度序列 自然语言处理 解码器解码 标签转化 科研文章 权值分配 输入文本 算法生成 编码器 正确率 向量 嵌入 刊物 文本 学习 | ||
1.基于词属性注意力机制的关键短语识别方法,其特征在于所述方法包括如下步骤:
步骤1,利用词嵌入学习将输入文本的词和标签转化为向量。
步骤2,利用RNN编码器对单词序列和词性标签序列进行编码,获得单词序列和词性标签序列的隐藏状态,首先使用一个独立的前向RNN(GRU)组成的编码器对单词序列进行编码,然后使用另一个独立的前向RNN(GRU)组成的编码器对词性标签序列进行编码,最后得到单词序列和词性标签序列的隐藏状态;
步骤3,基于词属性注意力机制对单词序列进行权值分配,首先,通过计算解码器隐藏状态与单词序列隐藏状态之间的相关性获得单词序列隐藏状态的文本权重向量,然后,使用词性标签序列隐藏状态获得单词序列隐藏状态的词性权重向量,最后,使用单词序列隐藏状态的文本权重向量和词性权重向量动态计算每个输出词的上下文向量;
步骤4,RNN解码器通过解码上下文向量并逐字生成可变长度序列;
步骤5,通过beam search算法生成关键短语。
2.根据权利要求1所述的基于词属性注意力机制的关键短语识别方法,其特征在于:步骤2中使用两个独立的前向RNN(GRU)编码器分别对单词序列x=(x1,x2,…,xn)、词标签序列h=(h1,h2,…,hn)进行编码,以获得单词序列的隐藏状态和词性标签序列的隐藏状态
3.根据权利要求1所述的基于词属性注意力机制的关键短语识别方法,其特征在于:步骤3中使用αij=softmax(vTtanh(Whhj+Wssi-1+b))计算解码器隐藏状态si-1和单词序列隐藏状态hj之间的相关性,同时使用计算单词序列隐藏状态的词性权重向量βj,其中,hj为单词序列隐藏状态,为词性标签序列隐藏状态,v、vp、Wh、Ws、b和bp为待学习的参数。
4.根据权利要求1所述的基于词属性注意力机制的关键短语识别方法,其特征在于:步骤3中使用单词序列隐藏状态的文本权重向量αij和词性标签权重向量βj动态计算每个输出词的上下文向量ci,从而实现融合语言知识标签和注意力模型。上下文向量计算过程为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910225532.8/1.html,转载请声明来源钻瓜专利网。