[发明专利]获取关键词的方法及装置有效
申请号: | 201510666887.2 | 申请日: | 2015-10-14 |
公开(公告)号: | CN105302882B | 公开(公告)日: | 2018-09-14 |
发明(设计)人: | 赵大哲;栗伟;周庆华;王军搏;任福龙;耿欢 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 南毅宁;桑传标 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种获取关键词的方法及装置。该方法包括:对文本信息进行分词处理,得到多个分词;构建所述多个分词的词共现图,其中,每个分词作为所述词共现图的一个顶点,并且两个顶点之间的边线的权重为所述两个顶点所对应的分词在所述文本信息中的共现次数;根据所述词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者;根据所确定出的所述每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数,分别确定所述每个分词的重要性;以及按照重要性从高到低的顺序,获取预定数量的分词作为关键词。由此,能够从文本信息中准确提取出关键词。 | ||
搜索关键词: | 获取 关键词 方法 装置 | ||
【主权项】:
1.一种获取关键词的方法,其特征在于,所述方法包括:对文本信息进行分词处理,得到多个分词;构建所述多个分词的词共现图,其中,每个分词作为所述词共现图的一个顶点,并且两个顶点之间的边线的权重为所述两个顶点所对应的分词在所述文本信息中的共现次数;根据所述词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者;根据所确定出的所述每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数,分别确定所述每个分词的重要性;以及按照重要性从高到低的顺序,获取预定数量的分词作为关键词;其中,所述确定每个分词的中间性参数包括:针对每个分词,根据所述词共现图中,除该分词之外的任意两个分词所对应的顶点之间的最短路径的数量,所述除该分词之外的任意两个分词所对应的顶点之间的最短路径中包括该分词所对应的顶点的最短路径的数量,以及中间性计算函数,确定该分词的中间性参数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510666887.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种数据缓存同步方法、服务器和客户端
- 下一篇:内容关联推荐方法及装置