[发明专利]基于垂直领域的微博搜索排序方法及系统在审
申请号: | 201310737940.4 | 申请日: | 2013-12-27 |
公开(公告)号: | CN103744918A | 公开(公告)日: | 2014-04-23 |
发明(设计)人: | 孟令胜;张霞;赵立军;赵博 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 陈英俊 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 垂直 领域 搜索 排序 方法 系统 | ||
1.一种基于垂直领域的微博搜索排序方法,根据现有微博中每条微博的领域相关度、被关注权重、时间权重、每个微博用户的粉丝数权重以及每一类型的微博用户的类型权重,对现有微博进行排序;其中,
根据确定的垂直领域,搜集所述垂直领域内的领域词汇,并计算在现有微博中所述垂直领域内每个领域词汇的词频;
对所计算出的每个领域词汇的词频进行拟合,获取现有微博中所述垂直领域内每个领域词汇的权重;
根据每个领域词汇的权重,获取现有微博中每条微博的领域相关度;
对现有微博中每条微博的被关注度进行拟合,获取每条微博的被关注权重;
根据现有微博中每条微博的发表时间,计算所述微博的时间权重;
通过对现有微博用户中每个微博用户的粉丝数进行拟合,获取每个微博用户的粉丝数权重;以及,
通过统计现有微博用户的类型,获取所述类型的微博用户的类型权重;
将所述领域相关度、粉丝数权重、被关注权重、类型权重和所述时间权重分别乘以预先分配的权重系数,然后再相加,根据所相加的结果对现有微博进行搜索排序。
2.如权利要求1所述的基于垂直领域的微博搜索排序方法,其中,在对所计算出的每个领域词汇的词频进行拟合,获取在现有微博中所述垂直领域内每个领域词汇的权重的过程中,
计算相同词频的领域词汇在所有领域词汇中所占的比例;
对所计算的相同词频的领域词汇在所有领域词汇中所占的比例取负对数,获取每个领域词汇的词频的直接权重;
对每个领域词汇的词频的直接权重进行归一化,获取每个领域词汇的权重。
3.如权利要求1所述的基于垂直领域的微博搜索排序方法,其中,在根据每个领域词汇的权重,获取现有微博中每条微博的领域相关度的过程中,
对现有微博中每条微博所包含的领域词汇的权重进行相加,获取现有微博中每条微博的领域相关度。
4.如权利要求1所述的基于垂直领域的微博搜索排序方法,其中,在通过对现有微博用户中每个微博用户的粉丝数进行拟合,获取每个微博用户的粉丝数权重的过程中,
计算粉丝数相同的微博用户在现有微博用户中所占的比例;
对所计算的粉丝数相同的微博用户在现有微博用户中所占的比例取负对数,获取每个微博用户的粉丝数的直接权重;
对每个微博用户的粉丝数的直接权重进行归一化,获取每个微博用户的粉丝数权重。
5.如权利要求1所述的基于垂直领域的微博搜索排序方法,其中,在对现有微博中每条微博的被关注度进行拟合,获取每条微博的被关注权重的过程中,
计算被关注度相同的微博在现有微博中所占的比例;
对所计算的被关注度相同的微博在现有微博中所占的比例取负对数,获取每条微博的被关注度的直接权重;
对每条微博的被关注度的直接权重进行归一化,获取每条微博的被关注权重。
6.如权利要求1所述的基于垂直领域的微博搜索排序方法,其中,在根据现有微博中每条微博的发表时间,计算所述微博的时间权重的过程中,通过如下公式进行计算:
f5(t)=D-(now-t),当f5(t)<0时,f5(t)=0
其中,f5(t)为现有微博中每条微博的时间权重,D为预设的有效天数,now为当前时间,t为微博发表的时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310737940.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电网知识库的自学习方法和系统
- 下一篇:一种太阳能LED草坪灯