[发明专利]基于词属性注意力机制的关键短语识别方法在审
申请号: | 201910225532.8 | 申请日: | 2019-03-25 |
公开(公告)号: | CN109992774A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 潘丽敏;李玉;罗森林;陈倩柔;吴舟婷 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及基于词属性注意力机制的关键短语识别方法,属于自然语言处理与机器学习领域。主要为了解决现有关键短语识别方法无法识别文本中未出现的关键短语的问题。本发明首先利用词嵌入学习将输入文本的词和词性标签转化为向量;其次利用RNN编码器对单词序列和词性标签序列进行编码,获得单词序列和词性标签序列的隐藏状态;然后基于词属性注意力机制对单词序列的隐藏状态进行权值分配,并计算上下文向量;随后通过RNN解码器解码上下文向量并逐字生成可变长度序列;最后通过beam search算法生成关键短语。在567,830篇科研文章和新闻刊物上进行实验,结果表明本发明能达到较好的关键短语识别效果,进一步提升了识别的正确率。 | ||
搜索关键词: | 关键短语 注意力机制 单词序列 词属性 词性 上下文向量 标签序列 隐藏状态 机器学习领域 可变长度序列 自然语言处理 解码器解码 标签转化 科研文章 权值分配 输入文本 算法生成 编码器 正确率 向量 嵌入 刊物 文本 学习 | ||
【主权项】:
1.基于词属性注意力机制的关键短语识别方法,其特征在于所述方法包括如下步骤:步骤1,利用词嵌入学习将输入文本的词和标签转化为向量。步骤2,利用RNN编码器对单词序列和词性标签序列进行编码,获得单词序列和词性标签序列的隐藏状态,首先使用一个独立的前向RNN(GRU)组成的编码器对单词序列进行编码,然后使用另一个独立的前向RNN(GRU)组成的编码器对词性标签序列进行编码,最后得到单词序列和词性标签序列的隐藏状态;步骤3,基于词属性注意力机制对单词序列进行权值分配,首先,通过计算解码器隐藏状态与单词序列隐藏状态之间的相关性获得单词序列隐藏状态的文本权重向量,然后,使用词性标签序列隐藏状态获得单词序列隐藏状态的词性权重向量,最后,使用单词序列隐藏状态的文本权重向量和词性权重向量动态计算每个输出词的上下文向量;步骤4,RNN解码器通过解码上下文向量并逐字生成可变长度序列;步骤5,通过beam search算法生成关键短语。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910225532.8/,转载请声明来源钻瓜专利网。