[发明专利]一种考虑用户‑作者关系建模的个性化搜索方法有效
申请号: | 201510889763.0 | 申请日: | 2015-11-30 |
公开(公告)号: | CN105528419B | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 姜元春;邵亮;刘业政;徐玉祥;梁世全 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 安徽省合肥新安专利代理有限责任公司34101 | 代理人: | 陆丽莉,何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 考虑 用户 作者 关系 建模 个性化 搜索 方法 | ||
技术领域
本发明属于个性化搜索领域,具体涉及针对语言模型的个性化搜索方法。
背景技术
作为一种通过关注机制分享简短实时信息的广播式社交网络平台,微博、微信等已经成为人们信息沟通的重要渠道。社交网络中内容爆炸式的传播速度给用户带来更丰富信息的同时,也提供了大量无关的和重复的信息,通过社交网络搜索感兴趣的信息越来越困难。
与传统的网页内容不同,社交网络具有其自身的特点。在信息内容方面,社交网络中的内容更专注于事件和话题,内容精简丰富,涉及主题的范围广;在信息来源方面,每条内容都有明确的作者,这些作者在自身特征、社交影响、与搜索者的关系等方面均有着巨大差异,内容作者的特征对用户的信息选择有着重要影响。
目前面向社交网络中信息搜索的研究通常聚焦于如何将社交网络中的文本信息区别于网页的特征引入搜索排序模型,从而改进搜索效果。例如,Kailong Chen等人提出了基于微博特征的微博内容重要性计算模型,并利用协同过滤方法进行微博内容的个性化推荐,但是该方法没有有效的利用社交网络中的用户以及用户之间的关联信息,无法解决个性化搜索文本相同而作者不同的排序问题。针对微博内容短、主题广的特点,Morgan Havey等人利用主题模型构建用户兴趣模型,Yajuan Duan等人提出了基于Learning to rank方法的微博搜索技术,两种方法有效利用了文本信息,但模型复杂,所需的反馈信息难以收集,并且无法与社交网络信息有效结合,提供个性化搜索。Vosecky等人将社交网络信息引入微博搜索建模,利用用户好友的搜索兴趣构建微博用户的兴趣建模,但在建模过程中并未考虑用户关心的搜索结果与作者信息,无法站在用户角度为用户提供感兴趣的搜索结果。现有技术虽然将微博特征引入微博搜索模型,对面向网页的搜索进行了扩展。但是,在进行用户兴趣建模时,并未考虑用户-作者关系这一关键要素,无法站在搜索者角度为搜索者提供真正感兴趣的社交网络信息。
发明内容
本发明为了克服现有技术的不足之处,提出一种考虑用户-作者关系建模的个性化搜索方法,以期能有效的利用用户的历史文本信息进行用户建模,利用好友信息进行完善,并考虑用户与作者关系进行结果评价,从而能有效的对用户的微博搜索结果进行个性化处理,提高搜索的准确性,将用户真正感兴趣的内容呈现给用户。
为了达到上述目的,本发明所采用的技术方案为:
本发明一种考虑用户-作者关系建模的个性化搜索方法,是应用于社交网络中,所述社交网络中包含搜索用户U以及所述搜索用户U所关注的对象;将所述搜索用户U所关注的对象记为所述搜索用户U的关注者集合FU={f1,f2,…,fj,…fJ};fj表示第j个关注者;则所述搜索用户U为所述第j个关注者fj的粉丝;1≤j≤J;并特点是按如下步骤进行:
步骤1、获得主题词矩阵
步骤1.1、从所述社交网络上收集原始语料集D并进行分词处理,获得所述原始语料集D的词语集W;
步骤1.2、对所述词语集W进行去冗余处理,获得词典C={c1,c2,…,ci,…,cn};ci表示所述词典C中第i个词语;n表示词语的总数;1≤i≤n;
步骤1.3、对所述词语集W进行LDA模型训练,获得主题词矩阵ωp,q表示第q个词语cq在第p个主题上出现的概率;m表示主题的总数;1≤p≤m;
步骤2、获得所述搜索用户U的兴趣度θU及其词语集WU的混合概率以及J个关注者的兴趣度ΘF及其词语集WU的混合概率ΦF;
步骤2.1、从所述社交网络上收集所述搜索用户U的原始语料集以及所述关注者集合FU的原始语料集并分别进行分词处理,获得所述搜索用户U的词语集,记为以及所述关注者集合FU的词语集,记为表示所述搜索用户U的第l条原始语料;表示第j个关注者fj的原始语料集;表示所述搜索用户U的词语集WU中第k个词语;表示第j个关注者fj的词语集;1≤k≤K;1≤l≤L;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510889763.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:浏览器标签内的页面切换方法及装置
- 下一篇:目标数据识别方法及装置