[发明专利]一种微博用户兴趣特征的提取方法在审
申请号: | 201711126633.7 | 申请日: | 2017-11-15 |
公开(公告)号: | CN107766576A | 公开(公告)日: | 2018-03-06 |
发明(设计)人: | 马帅;朱金海;张晖;刘骁;张振宇;胡春明 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00;G06F17/27 |
代理公司: | 北京中创阳光知识产权代理有限责任公司11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种微博用户兴趣特征的提取方法,其将微博映射到其对应的兴趣类别的步骤为步骤1,将用户的每条微博进行分词;步骤2,通过计算分词结果与每个主题词库重合词的个数,选取个数高于阈值ε个数的主题为该微博的候选主题;步骤3,如果步骤2中没有获取具体的主题,则分别通过Twitter‑LDA和TF‑IDF获取两个带权关键词集合,通过word2vec获取两个关键词集合与每个细胞词库的相似度,选取相似性最高的m个类别作为该微博的候选主题;步骤4,得到用户所有微博的主题类别得到用户的主题分布作为用户兴趣特征的表达。 | ||
搜索关键词: | 一种 用户 兴趣 特征 提取 方法 | ||
【主权项】:
一种微博用户兴趣特征的提取方法,其将微博映射到用户对应的兴趣类别的步骤为:步骤1,读取用户的微博,将用户的每条微博进行分词;步骤2,读取512个兴趣类别的细胞词库,通过计算分词结果与所述词库重合词的个数,选取个数高于阈值ε的主题为该微博的候选主题,ε默认取3;步骤3,如果步骤2中没有获取具体的主题,则分别通过Twitter‑LDA和TF‑IDF获取两个带权关键词集合,通过word2vec获取所述两个关键词集合与每个细胞词库的相似度,所述Twitter‑LDA得到的带权关键词集合为WTL,所述TF‑IDF得到的带权关键词集合为WTI,将所述WTL与所述WTI分别与每个词库类别通过word2vec得到相应的相似性SimTL和SimTI,则该微博与对应词库的相似性为:Sim=α×SimTI+(1‑α)×SimTL,所述α为权重系数,选取相似性最高的m个类别作为该微博的候选主题,所述m默认为3;步骤4,得到用户所有微博的主题类别后,进而就得到了用户在512个主题上的分布,作为用户兴趣特征的表达。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711126633.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种劳保鞋的制作工艺
- 下一篇:一种防静电工鞋的制作工艺