[发明专利]一种挖掘热词的方法与装置有效
申请号: | 201210018787.5 | 申请日: | 2012-01-20 |
公开(公告)号: | CN103218368A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | 邸楠 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 王一斌;王琦 |
地址: | 518057 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种挖掘热词的方法及装置。该方法包括:预先设置热词库并对热词库中的各热词设置相应的热词权重;根据热词在文档中的词频以及热词库中设置的热词权重,将文档用热词库中热词进行表示;将用热词库中热词进行表示的文档聚类为预设数目的文档类;对预设数目的文档类进行重心排序,过滤掉文档类重心值小于预先设置的重心阈值的文档类;对过滤后的文档类按照预先设置的热词选取策略进行热词选取。应用本发明,可以降低聚类复杂度、提高社交网络热点挖掘的效率。 | ||
搜索关键词: | 一种 挖掘 方法 装置 | ||
【主权项】:
一种挖掘热词的方法,其特征在于,该方法包括:预先设置热词库并对热词库中的各热词设置相应的热词权重;根据热词在文档中的词频以及热词库中设置的热词权重,将文档用热词库中热词进行表示;将用热词库中热词进行表示的文档聚类为预设数目的文档类;对预设数目的文档类进行重心排序,过滤掉文档类重心值小于预先设置的重心阈值的文档类;对过滤后的文档类按照预先设置的热词选取策略进行热词选取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司,未经深圳市腾讯计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210018787.5/,转载请声明来源钻瓜专利网。