[发明专利]一种垂直领域热门微博的提取方法及其装置有效
申请号: | 201310581666.6 | 申请日: | 2013-11-19 |
公开(公告)号: | CN103580997B | 公开(公告)日: | 2017-09-29 |
发明(设计)人: | 李威 | 申请(专利权)人: | 湖南蚁坊软件有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L29/06;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410000 湖南省长沙市高新开发*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种垂直领域热门微博的提取方法及其装置,其中,所述垂直领域热门微博的提取方法包括步骤1、实时采集微博信息,步骤2、标签化微博信息,步骤3、根据标签将签化微博信息进行分流,步骤4、找出每一个垂直领域内的热门词组,步骤5、根据热门词组和转发次数找到热门微博搜索包括热门词组的微博信息,在这些微博信息中选取转发次数最高的那一条作为垂直领域的一条热门微博,步骤6、过滤热门微博中含广告的微博;根据自己定义的标签将微博信息进行标签化,根据标签将微博信息分成各个垂直领域,然后在垂直领域内对提取热门微博,只需更新定义标签可以满足不同区域和领域网络内的热门微博的需求,因而,可以适应使用者差异化的需求。 | ||
搜索关键词: | 一种 垂直 领域 热门 提取 方法 及其 装置 | ||
【主权项】:
一种垂直领域热门微博的提取方法,其特征在于,其包括以下步骤:步骤1、实时采集微博信息:通过某一门户微博指定的开放接口实时采集该门户的微博信息,其中,微博信息主要包括微博内容和转发次数;步骤2、标签化微博信息:定义标签A={a1,a2,…,an},B={b1,b2,…,bn},…,M={m1,m2,…mn},其中a1、a2、…、an为标签A集合中包含的若干元素,b1、b2、…、bn为标签B集合中包含的若干元素,m1、m2、…mn为标签M集合中包含的若干元素;将每一微博信息与每一标签进行求交集,如果交集不为空集即微博信息中包含标签的元素,则,为该微博信息标上该标签;步骤3、根据标签将标签化的微博信息进行分流:根据标签将标签化的微博信息分成多个垂直领域,每个垂直领域由含有相同标签的多个微博信息集合而成;被标上多个标签的微博信息将被分发到多个垂直领域;步骤4、找出每一个垂直领域内的热门词组:采用fp‑growth算法,周期性地对每一个垂直领域内的微博信息进行分析提取热门词组;步骤5、根据热门词组和转发次数找到热门微博:搜索包括热门词组的微博信息,在这些微博信息中选取转发次数最高的那一条作为垂直领域的一条热门微博;步骤6、过滤热门微博中含广告的微博:采用广告过滤模块去除热门微博中含广告的热门微博。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南蚁坊软件有限公司,未经湖南蚁坊软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310581666.6/,转载请声明来源钻瓜专利网。