[发明专利]基于短语向量的关键词抽取方法及系统有效

专利信息
申请号: 201910548261.X 申请日: 2019-06-24
公开(公告)号: CN110263343B 公开(公告)日: 2021-06-15
发明(设计)人: 孙新;赵永妍;申长虹;杨凯歌;张颖捷 申请(专利权)人: 北京理工大学
主分类号: G06F40/284 分类号: G06F40/284;G06F40/205
代理公司: 北京京万通知识产权代理有限公司 11440 代理人: 许天易
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 短语 向量 关键词 抽取 方法 系统
【权利要求书】:

1.一种基于短语向量的关键词抽取方法,其特征在于,所述方法包括:

S1、对文本进行分词并标注词性,保留n元组得到候选词项集;

S2、通过自编码器为候选词项构建短语向量;

S3、确定所述文本的主题,计算候选词项与主题向量的相似度,将所述相似度作为所述候选词项的主题权重;其中,将主题词项集中所有词项对应的短语向量的平均值,作为文档的主题向量用于表示整篇文档的主题:

其中,是主题词项ti对应的短语向量表示;

S4、通过TextRank算法,从所述候选词项集中获取关键词;

其中,在所述步骤S4的TextRank算法中还包括迭代计算候选词项的权重,直到达到最大迭代次数,权重计算公式为:

其中,表示候选词项cj的权重,d为阻尼系数;是候选词项cj的主题权重,wjk是候选词项cj和候选词项ck之间边的权重,wkp是候选词项ck和候选词项cp之间边的权重,表示与候选词项cj相连的候选词项的集合,是中的元素,表示与候选词项ck相连的候选词项的集合,是中的元素,表示候选词项ck的权重;

其中,主题权重的计算方法为:对每个候选词项cj,计算该候选词项和文档di的主题向量之间的余弦距离,作为主题权重。

2.根据权利要求1所述的方法,其特征在于,所述步骤S2中的自编码器包括编码器和解码器,编码器由双向LSTM层和全连接层组成,解码部分由单向LSTM层和softmax层组成。

3.根据权利要求2所述的方法,其特征在于,所述步骤S2中的自编码器的训练方法包括以下步骤:

S21、选取训练样本,获取候选词项;

S22、对候选词项cj=(x1,x2,…,xT),在编码器中,使用双向LSTM从前后两个方向分别进行计算:

其中,和分别为t(t=1,2,…,T)时刻从左向右和从右向左两个方向上的隐藏层状态和细胞状态,和分别为t-1时刻从左向右和从右向左两个方向上的隐藏层状态和细胞状态,xt为t时刻输入的候选词项中的单词,T表示候选词项中单词的数量;

S23、在编码器中,通过公式计算得到EST

h′T=f(WhhT+bh)

C′T=f(WcCT+bc)

其中,为连接符,Wh、bh、Wc、bc代表全连接网络中的参数矩阵和偏置,f表示全连接网络中的激活函数ReLU,EST是h′T和C′T组成的一个元组;

S24、在解码器部分,以EST为初始状态使用单向LSTM进行解码:

其中,zt是解码器在t时刻的隐藏层状态,zt-1为t-1时刻的隐藏层状态,EST为编码器状态,为t-1时刻输出的候选词项中的单词;

S25、根据zt估算当前单词的概率

其中,softmax为归一化函数,Wszt+bs对每个可能的输出单词进行打分,Ws和bs分别表示softmax函数的权重值和偏置值;

S26、当训练过程中损失函数L不断变小最终趋于稳定时,获得编码器的参数Wh、bh、Wc、bc,以及解码器的参数Ws、bs,从而确定自编码器;其中,损失函数L的计算公式为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910548261.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top