[发明专利]关键词提取方法以及关键词提取装置在审
申请号: | 201710067269.5 | 申请日: | 2017-02-06 |
公开(公告)号: | CN108319627A | 公开(公告)日: | 2018-07-24 |
发明(设计)人: | 王煦祥;尹庆宇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种关键词提取方法,其包括:对提取文本的所有分析语句进行分词操作,以得到分析语句的词语单元;确定分析语句中各个候选词与分析语句中其他候选词的依存关联度;确定候选词与提取文本中其他候选词的词引力;计算每个分析语句中的候选词与分析语句中的其他候选词的相关权重;创建每个分析语句的有权无向图;基于文本排序算法,计算有权无向图的每个顶点的顶点得分;根据顶点得分,对于顶点对应的候选词进行排序,进而提取所述候选词中的关键词。本发明还提供一种关键词提取装置,本发明将两个候选词之间的相关权重作为文本排序算法中的权重边,从而提高了文本排序算法的计算准确度,进而提高了关键词的提取准确度。 | ||
搜索关键词: | 候选词 语句 文本 排序算法 分析 权重 关键词提取装置 关键词提取 准确度 无向图 关联度 分词 引力 词语 排序 创建 | ||
【主权项】:
1.一种关键词提取方法,其特征在于,包括:对提取文本的所有分析语句进行分词操作,以得到所述分析语句的词语单元,所述词语单元包括候选词以及停用词;对分词操作后的分析语句进行依存句法分析,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度;根据所述提取文本中的候选词的出现频率、以及所述候选词与所述提取文本中其他候选词的语义相似度,确定所述候选词与所述提取文本中其他候选词的词引力;根据所述依存关联度以及所述词引力,计算每个分析语句中的候选词与所述分析语句中的其他候选词的相关权重;基于分析语句中的所有候选词、以及所述分析语句中的候选词与所述分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图,其中所述有权无向图包括用于表示候选词的顶点以及用于表示候选词之间的相关权重的权重边;基于文本排序算法,计算所述有权无向图的每个顶点的顶点得分;以及根据所述顶点得分,对于所述顶点对应的候选词进行排序,进而提取所述候选词中的关键词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710067269.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于名称信息的对象分类方法与设备
- 下一篇:一种用户兴趣确定方法及装置