[发明专利]基于垂直领域的微博搜索排序方法及系统在审
申请号: | 201310737940.4 | 申请日: | 2013-12-27 |
公开(公告)号: | CN103744918A | 公开(公告)日: | 2014-04-23 |
发明(设计)人: | 孟令胜;张霞;赵立军;赵博 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 陈英俊 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 垂直 领域 搜索 排序 方法 系统 | ||
技术领域
本发明涉及数据挖掘技术领域,更为具体地,涉及一种基于垂直领域的微博搜索排序方法及系统。
背景技术
传统的Web网页是人们寻找信息的资源库,而作为信息获取、分享以及传播平台的微博,其每天所产生的海量的数据信息,则体现着人们对各类新闻、事件以及事物的看法,用户可以随时随地通过电脑、手机等设备更新信息并实现信息的即时分享。微博以其短小精悍、数量大且更新快的特点,获取了庞大的用户群及较高的用户活跃度。
如上所述,微博可以体现人们对客观世界的舆论倾向,因此,其正逐渐成为一种发掘用户观点的可靠的信息来源的手段。要发掘用户的观点,就需要对微博进行搜索排序,现有的微博搜索排序技术有以下几种:
一、直接以时间为依据进行搜索排序。
距当前时间越近的越靠前,这种搜索排序方式过于粗糙,甚至都没有考虑与关键词的相关度。
二、结合了微博作者的影响力与微博时间两个因素。
影响力的计算类似于利用PageRank算法,所有人都设定一个初始影响力,每个人的影响力都由他的粉丝的影响力加权决定,然后开始迭代运算,直至结果稳定。然而,这种算法存在多个弊端:
首先,没有考虑到僵尸粉(即不是由真正的自然人,而是机器控制的账号)的干扰;
其次,微博用户数量过于庞大,关系网非常复杂,运算量太大,即使利用分布式运算,也无法避免由于大量僵尸粉的存在,导致用户的粉丝数在不断地快速变化之中,从而无法实时计算用户的影响力。
因此,如何处理用户粉丝数也是一个需要考虑的问题。
三、综合几种因素对微博进行搜索排序。
其中的因素包括相关度、时间、评论词等,比如:与关键字越相关、距当前时间越近、微博内容中对于关键字评论词越多的微博在排序中越靠前。
通过这种搜索排序方式,有观点态度的微博会被排在前面,但是它没有考虑到用户或者是微博本身的影响力。也就是说,如果一个粉丝数很少的用户发了一条很带有个人情感色彩的微博,即便这条微博也就只有很少的人看到,甚至这条微博都没有人评论或转发过,通过这种搜索排序方式也有可能排在前面。然而,这条微博仅仅只是代表了个人的观点,毫无影响力而言,而微博用户通常想要的是大多数人的意见,并不是某个人情感发泄。因此,微博的影响力也应该成为排序的因素之一。
另外,微博上的大V用户(所谓的大V用户即粉丝数通常在百万甚至千万级别,即使去掉可能的僵尸粉,真实粉丝依然非常多的用户),他们的微博通常会获取很多人的关注、评论或者转发,他们的观点通常不用搜索,就可能已经获悉。然而,大多数人都是普通大众,微博用户更关心的是大多数普通大众的意见,因此,普通大众的权重也应该提高。
针对上述现有微博搜索排序技术中存在的缺陷,如何能更加准确有效地提取大众用户的观点,成为亟待解决的问题。
发明内容
鉴于上述问题,本发明的目的是提供一种基于垂直领域的微博搜索排序方法及系统,以实现准确有效地提取大众用户的观点。
根据本发明的一个方面,提供一种基于垂直领域的微博搜索排序方法,根据现有微博中每条微博的领域相关度、被关注权重、时间权重、每个微博用户的粉丝数权重以及每一类型的微博用户的类型权重,对现有微博进行排序;其中,
根据确定的垂直领域,搜集垂直领域内的领域词汇,并计算在现有微博中垂直领域内每个领域词汇的词频;
对所计算出的每个领域词汇的词频进行拟合,获取现有微博中垂直领域内每个领域词汇的权重;
根据每个领域词汇的权重,获取现有微博中每条微博的领域相关度;
对现有微博中每条微博的被关注度进行拟合,获取每条微博的被关注权重;
根据现有微博中每条微博的发表时间,计算所述微博的时间权重;
通过对现有微博用户中每个微博用户的粉丝数进行拟合,获取每个微博用户的粉丝数权重;以及,
通过统计现有微博用户的类型,获取类型的微博用户的类型权重;
将领域相关度、粉丝数权重、被关注权重、类型权重和时间权重分别乘以预先分配的权重系数,然后再相加,根据所相加的结果对现有微博进行搜索排序。
其中,在对所计算出的每个领域词汇的词频进行拟合,获取在现有微博中垂直领域内每个领域词汇的权重的过程中,计算相同词频的领域词汇在所有领域词汇中所占的比例;对所计算的相同词频的领域词汇在所有领域词汇中所占的比例取负对数,获取每个领域词汇的词频的直接权重;对每个领域词汇的词频的直接权重进行归一化,获取每个领域词汇的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310737940.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电网知识库的自学习方法和系统
- 下一篇:一种太阳能LED草坪灯