[发明专利]一种兴趣标签推荐方法及系统在审
申请号: | 201210385630.6 | 申请日: | 2012-10-12 |
公开(公告)号: | CN103729360A | 公开(公告)日: | 2014-04-16 |
发明(设计)人: | 贺翔;王业;亓超 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 上海波拓知识产权代理有限公司 31264 | 代理人: | 杨波 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 兴趣 标签 推荐 方法 系统 | ||
1.一种兴趣标签推荐方法,包括:
统计存在的兴趣标签的特征向量;
根据存在的兴趣标签的特征向量,计算存在的兴趣标签与推荐的兴趣标签的相似度;
根据存在的兴趣标签与推荐的兴趣标签的相似度进行兴趣标签的推荐。
2.根据权利要求1所述的兴趣标签推荐方法,其特征在于,所述统计存在的兴趣标签的特征向量步骤包括:提取互联网相关文件中标题或正文包含所述兴趣标签的所有文章;对包含所述兴趣标签的所有文章切词、提取特征词,统计特征词的词频;对特征词进行相关排序,取一定数量的词,作为兴趣标签的特征向量。
3.根据权利要求1或2所述的兴趣标签推荐方法,其特征在于,所述统计存在的兴趣标签的特征向量步骤前还包括:准备兴趣标签集,并进行分类;收集互联网相关本文作为语料;确定兴趣标签的特征词词集。
4.根据权利要求3所述的兴趣标签推荐方法,其特征在于,所述确定兴趣标签的特征词词集步骤包括:对语料切词、统计每个词的文档频率倒数值,去掉高频词、停用词及低频词,将剩下的词作为特征词。
5.根据权利要求1所述的兴趣标签推荐方法,其特征在于,所述计算存在的兴趣标签与推荐的兴趣标签的相似度步骤后还包括:统计存在的兴趣标签与推荐的兴趣标签之间的共现关系,其中,共现关系是指存在的兴趣标签与推荐的兴趣标签在同一篇文档中出现的次数。
6.根据权利要求5所述的兴趣标签推荐方法,其特征在于,所述根据存在的兴趣标签与推荐的兴趣标签的相似度进行兴趣标签的推荐步骤还包括:根据存在的兴趣标签与推荐的兴趣标签的共现关系进行兴趣标签的推荐。
7.一种兴趣标签推荐系统,包括:
特征向量统计模块:用于统计存在的兴趣标签的特征向量;
相似度计算模块:用于根据存在的兴趣标签的特征向量,计算存在的兴趣标签与推荐的兴趣标签的相似度;
兴趣标签推荐模块:用于跟据存在的兴趣标签与推荐的兴趣标签的相似度进行兴趣标签的推荐。
8.根据权利要求7所述的兴趣标签推荐系统,其特征在于,所述特征向量统计模块统计兴趣标签的特征向量具体包括:提取互联网相关文件中标题或正文包含所述兴趣标签的所有文章;对包含所述兴趣标签的所有文章切词、提取特征词,统计特征词的词频;对特征词进行相关排序,取一定数量的词,作为兴趣标签的特征向量。
9.根据权利要求7或8所述的兴趣标签推荐系统,其特征在于,所述兴趣标签推荐系统还包括:
兴趣标签集分类模块:用于准备兴趣标签集,并进行分类;
语料收集模块:用于收集互联网相关本文作为语料;
特征词词集确定模块:用于确定兴趣标签的特征词词集。
10.根据权利要求9所述的兴趣标签推荐系统,其特征在于,所述特征词词集确定模块确定兴趣标签的特征词词集包括:对语料切词、统计每个词的文档频率倒数值,去掉高频词、停用词及低频词,将剩下的词作为特征词。
11.根据权利要求7或8所述的兴趣标签推荐系统,其特征在于,所述兴趣标签推荐系统还包括共现关系统计模块,所述共现关系统计模块用于统计存在的兴趣标签与推荐的兴趣标签之间的共现关系,其中,共现关系是指存在的兴趣标签与推荐的兴趣标签在同一篇文档中出现的次数。
12.根据权利要求11所述的兴趣标签推荐系统,其特征在于,所述兴趣标签推荐模块还跟据存在的兴趣标签与推荐的兴趣标签的共现关系进行兴趣标签的推荐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210385630.6/1.html,转载请声明来源钻瓜专利网。