[发明专利]基于短语向量的关键词抽取方法及系统有效
申请号: | 201910548261.X | 申请日: | 2019-06-24 |
公开(公告)号: | CN110263343B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 孙新;赵永妍;申长虹;杨凯歌;张颖捷 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/205 |
代理公司: | 北京京万通知识产权代理有限公司 11440 | 代理人: | 许天易 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 短语 向量 关键词 抽取 方法 系统 | ||
1.一种基于短语向量的关键词抽取方法,其特征在于,所述方法包括:
S1、对文本进行分词并标注词性,保留n元组得到候选词项集;
S2、通过自编码器为候选词项构建短语向量;
S3、确定所述文本的主题,计算候选词项与主题向量的相似度,将所述相似度作为所述候选词项的主题权重;其中,将主题词项集中所有词项对应的短语向量的平均值,作为文档的主题向量用于表示整篇文档的主题:
其中,是主题词项ti对应的短语向量表示;
S4、通过TextRank算法,从所述候选词项集中获取关键词;
其中,在所述步骤S4的TextRank算法中还包括迭代计算候选词项的权重,直到达到最大迭代次数,权重计算公式为:
其中,表示候选词项cj的权重,d为阻尼系数;是候选词项cj的主题权重,wjk是候选词项cj和候选词项ck之间边的权重,wkp是候选词项ck和候选词项cp之间边的权重,表示与候选词项cj相连的候选词项的集合,是中的元素,表示与候选词项ck相连的候选词项的集合,是中的元素,表示候选词项ck的权重;
其中,主题权重的计算方法为:对每个候选词项cj,计算该候选词项和文档di的主题向量之间的余弦距离,作为主题权重。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2中的自编码器包括编码器和解码器,编码器由双向LSTM层和全连接层组成,解码部分由单向LSTM层和softmax层组成。
3.根据权利要求2所述的方法,其特征在于,所述步骤S2中的自编码器的训练方法包括以下步骤:
S21、选取训练样本,获取候选词项;
S22、对候选词项cj=(x1,x2,…,xT),在编码器中,使用双向LSTM从前后两个方向分别进行计算:
其中,和分别为t(t=1,2,…,T)时刻从左向右和从右向左两个方向上的隐藏层状态和细胞状态,和分别为t-1时刻从左向右和从右向左两个方向上的隐藏层状态和细胞状态,xt为t时刻输入的候选词项中的单词,T表示候选词项中单词的数量;
S23、在编码器中,通过公式计算得到EST:
h′T=f(WhhT+bh)
C′T=f(WcCT+bc)
其中,为连接符,Wh、bh、Wc、bc代表全连接网络中的参数矩阵和偏置,f表示全连接网络中的激活函数ReLU,EST是h′T和C′T组成的一个元组;
S24、在解码器部分,以EST为初始状态使用单向LSTM进行解码:
其中,zt是解码器在t时刻的隐藏层状态,zt-1为t-1时刻的隐藏层状态,EST为编码器状态,为t-1时刻输出的候选词项中的单词;
S25、根据zt估算当前单词的概率
其中,softmax为归一化函数,Wszt+bs对每个可能的输出单词进行打分,Ws和bs分别表示softmax函数的权重值和偏置值;
S26、当训练过程中损失函数L不断变小最终趋于稳定时,获得编码器的参数Wh、bh、Wc、bc,以及解码器的参数Ws、bs,从而确定自编码器;其中,损失函数L的计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910548261.X/1.html,转载请声明来源钻瓜专利网。