[发明专利]一种个性化多维度的文档排序方法和系统在审
申请号: | 201210069568.X | 申请日: | 2012-03-06 |
公开(公告)号: | CN103309900A | 公开(公告)日: | 2013-09-18 |
发明(设计)人: | 祁勇 | 申请(专利权)人: | 祁勇 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518053 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 个性化 多维 文档 排序 方法 系统 | ||
技术领域
本发明涉及互联网领域,具体来说涉及一种个性化多维度的文档排序方法和系统。
背景技术
搜索引擎是利用信息检索技术进行大规模的网页收集、索引、排序,以及根据排序结果将网页呈现给查询用户的应用程序。随着网络信息量的快速增长,搜索引擎已经越来越成为人们获取网络信息的必备工具。
搜索引擎的核心技术是排序算法。最为有效的排序算法是超链分析算法,例如谷歌的PageRank算法。虽然现有搜索引擎在商业上取得了巨大的成功,但是它们还有很大的改进空间。链接分析技术本质上是由网页设计者根据其主观意愿构建的网页链接关系,尽管它充分反映了网页设计者的个人偏好和对网页链接关系的理解,但是它却没有反映出搜索引擎的使用者-用户的个人偏好。由于从事不同行业和具有不同爱好的用户对同一个网页的重要性评价通常是不同的,而PageRank等超链分析算法无法进行这种区分,它们只能对每个网页给出唯一的网页排名,因此,超链分析算法的设计是有缺陷的。一个可行的解决方案是结合用户的个性化特征来改进搜索结果,使得每个网页的排名不仅依赖网页之间的链接关系,而且依赖提交搜索查询的用户的个性化特征。有分析表明,借助用户和文档的个性化特征,能够提高了搜索引擎的查准率,减少了用户对无效信息的扫描和浏览。
但是,在互联网上获取用户和网页的个性化特征存在以下几个难题。第一是个性化信息的自动获取问题。据估算目前互联网上有近一万亿个网页和二十亿用户,手工维护网页和用户的个性化特征是不现实的。如何自动获取用户和网页的个性化特征,是对个性化搜索的一个巨大挑战。第二是个性化信息的更新问题。随着时间的推移,用户的兴趣爱好、工作地点、从事的行业和教育程度等个人信息会发生改变,但是要求所有用户实时地更新其个性化信息是困难的。第三是个性化信息的语义差异问题。比如有的用户在网站上填写喜欢莫扎特、有的填写喜欢古典音乐,可能这两个用户的爱好是相同的,但是由于文字表达的不同,因此难以把它们进行有效归类。第四是个性化信息的完备性问题。用户在网站上填写的个人信息,通常比较简略。例如用户在兴趣爱好一栏的描述通常是喜欢音乐、打棒球或看书等,而要求用户全面地细致地描述出其感兴趣的领域是困难的。
综上所述,如何获得网页和用户的个性化特征,并根据网页和用户的个性化特征来优化网页排名算法,使得搜索引擎能够在海量的网页中更加有效地过滤和筛选出用户期望寻找的网页,是一个亟待解决的问题。
发明内容
鉴于上述现有技术存在的问题,本发明的目的在于提供一种个性化多维度的文档排序方法和系统,通过自动获取文档和用户的个性化特征,来改进搜索排序算法,提高搜索引擎的查准率。
根据以上所述的目的,本发明提出了一种个性化多维度的文档排序方法,其特征在于,在服务器中设置领域特征集K={1,2,...,L},并且执行如下步骤:
获得多个文档,组成文档集D={1,2,...,M};所述文档集D中至少含有两个文档子集,其中文档集中的每个文档含有至少一个链接指向所述文档集D中的文档,文档集中的每个文档至少被所述文档集S中的一个文档所含有的链接指向;并且S∪E=D,S∩E≠Φ;
所述文档集D中的每个文档都设有排序向量和参数向量;设文档m(m∈D)的排序向量Kp(m)=[PR(m,1),PR(m,2),...,PR(m,k),...,PR(m,L)],其中所述PR(m,k)表示在特征k(k∈K)下所述文档m在所述文档集D中的排序值;设所述文档m的参数向量Kd(m)=(dwm1,dwm2,...,dwmk,...,dwmL),其中所述dwmk表示所述文档m与特征k(k∈K)的相关度;所述Kd(m)是由参数向量更新算法进行更新的;
更新所述文档集D中每个文档的排序向量;排序向量更新算法如下:所述文档集D中的任意一个文档m在特征k(k∈K)下的排序值,是所述文档集S中链接到所述文档m的每个文档在所述特征k下的排序值以及所述文档集S中链接到所述文档m的每个文档与所述特征k的相关度的函数;
根据所述排序向量,对所述文档集D中的文档进行处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于祁勇,未经祁勇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210069568.X/2.html,转载请声明来源钻瓜专利网。