[发明专利]关键词提取方法、关键词提取装置和计算机可读存储介质有效
申请号: | 201910128945.4 | 申请日: | 2019-02-21 |
公开(公告)号: | CN110008401B | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 刘永起 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F40/289 |
代理公司: | 北京成创同维知识产权代理有限公司 11449 | 代理人: | 蔡纯;张靖琳 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 提取 方法 装置 计算机 可读 存储 介质 | ||
1.一种关键词提取方法,其特征在于,包括:
获取与目标正文相对应的文本向量;
分别计算目标正文的文本向量与候选词表中每个候选词的相关度,所述候选词表中的每个所述候选词都以词向量的形式表示,所述相关度为所述文本向量与所述候选词的所述词向量的内积;
从所述相关度大于相关度阈值的N个所述候选词中提取K个候选词,生成表示所述目标正文的候选词联合向量,N和K均为大于1的自然数;
分别计算正文标题对应的第一标题向量和辅助标题对应的第二标题向量与所述候选词联合向量之间的第一相似度和第二相似度;以及
将所述第一相似度大于所述第二相似度的所述候选词联合向量对应的K个候选词作为所述目标正文的关键词,
其中,获取与所述目标正文相对应的所述文本向量包括:
对所述目标正文进行分词操作,得到分词集合;
将所述分词集合映射为分词集合向量;
采用神经网络对所述分词集合向量进行卷积处理,得到卷积矩阵;
对所述卷积矩阵中的每一列取平均得到文本向量。
2.根据权利要求1所述的关键词提取方法,其特征在于,还包括:
获取所述目标正文、所述正文标题和所述辅助标题;
分别获取与所述正文标题和所述辅助标题相对应的所述第一标题向量和所述第二标题向量。
3.根据权利要求1所述的关键词提取方法,其特征在于,所述正文标题为与所述目标正文相对应的标题,所述辅助标题为与抽样得到的其他正文相对应的标题。
4.根据权利要求1所述的关键词提取方法,其特征在于,将从所述候选词表中提取的所述K个候选词进行向量化组合,生成所述候选词联合向量。
5.根据权利要求1所述的关键词提取方法,其特征在于,从所述候选词表中提取的所述K个候选词为所述相关度排序位于前K位的所述候选词。
6.根据权利要求1所述的关键词提取方法,其特征在于,所述候选词表为预先生成的包括多个不同类型的候选词的词表。
7.根据权利要求1所述的关键词提取方法,其特征在于,所述关键词中包括所述目标正文中未出现过的词。
8.根据权利要求1所述的关键词提取方法,其特征在于,采用三元组损失函数比较所述第一相似度和所述第二相似度的大小。
9.一种关键词提取装置,其特征在于,包括:
文本向量获取模块,被配置为获取与目标正文相对应的文本向量;
相关度计算模块,被配置为分别计算目标正文的文本向量与候选词表中每个候选词的相关度,所述候选词表中的每个所述候选词都以词向量的形式表示,所述相关度为所述文本向量与所述候选词的所述词向量的内积;
候选词提取模块,被配置为从所述相关度大于相关度阈值的N个所述候选词中提取K个候选词,生成表示所述目标正文的候选词联合向量,N和K均为大于1的自然数;
相似度计算模块,被配置为分别计算正文标题对应的第一标题向量和辅助标题对应的第二标题向量与所述候选词联合向量之间的第一相似度和第二相似度;以及
关键词提取模块,被配置为将所述第一相似度大于所述第二相似度的所述候选词联合向量对应的K个候选词作为所述目标正文的关键词,
其中,文本向量获取模块用于对所述目标正文进行分词操作,得到分词集合;将所述分词集合映射为分词集合向量;采用神经网络对所述分词集合向量进行卷积处理,得到卷积矩阵;对所述卷积矩阵中的每一列取平均得到文本向量。
10.根据权利要求9所述的关键词提取装置,其特征在于,还包括:
文本获取模块,被配置为获取所述目标正文、所述正文标题和所述辅助标题;
标题向量获取模块,被配置为分别获取与所述正文标题和所述辅助标题相对应的所述第一标题向量和所述第二标题向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910128945.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐腐蚀面料
- 下一篇:集成电路芯片的堆叠和电子器件