[发明专利]一种获取用户和文档个性化特征的方法和系统在审

专利信息
申请号: 201210581899.1 申请日: 2012-12-17
公开(公告)号: CN103870521A 公开(公告)日: 2014-06-18
发明(设计)人: 祁勇 申请(专利权)人: 祁勇
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 518053 广东省深*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 获取 用户 文档 个性化 特征 方法 系统
【说明书】:

技术领域

发明涉及互联网领域,具体来说涉及一种获取用户和文档个性化特征的方法和系统。

背景技术

搜索引擎和社交网络是互联网上获取信息的主要工具。这两种工具的缺点是不能根据用户的个性化差异来进行信息的过滤和筛选。例如,不同的用户在同一个搜索引擎中输入相同的关键字,他们得到的搜索结果是相同的,与哪个用户提交的搜索查询无关;不同的用户在同一个社交网络中建立相同的关系网络,他们获得的信息也是相同的,与哪个用户建立的关系网络无关。

在现有搜索技术中,核心技术是排序算法,最为有效的排序算法是超链分析算法,例如谷歌的PageRank算法。超链分析算法的输入是由网页设计者根据其主观意愿构建的网页链接关系。尽管它充分反映了网页设计者的个人偏好和对网页链接关系的理解,但是它却无法反映出搜索引擎的使用者——用户的个人偏好。由于从事不同行业或具有不同爱好的用户对同一个网页的重要性评价通常是不同的,而PageRank等现有排序技术对于每个网页只能给出唯一的网页排名,这是现有搜索技术的缺点。一个可行的技术解决方案是结合用户和网页的个性化特征来改进搜索结果,使得每个网页的排名不仅依赖于网页之间的链接关系,而且依赖于提交搜索查询的用户的个性化特征和被查询网页的个性化特征。有分析表明,借助用户和网页的个性化特征,能够提高搜索引擎的查准率,减少用户对无效信息的扫描和浏览。

在现有社交网络技术中,用户通过自己建立的关系网络来获取信息,例如通过关注(follow)他人和加好友(friending)等操作来获取他人发布的信息。被关注的和加为好友的人数越多,用户获得的信息也越多。由于担心有重要的或者有趣的信息被遗漏,用户通常会在社交网络中关注更多的人或者加入更多的好友。但是,当关系网络中的用户数量超过邓巴数(Dunbar)150之后,微博和脸谱(Facebook)等社交网络会逐渐成为对用户进行“信息轰炸”的服务。其原因是现有社交网络技术要求用户必须接收其关系网络中的所有用户发布的所有信息,而不能按信息类别和用户的个性化特征有选择地接收这些信息,这是现有社交网络技术的缺点。一个可行的技术解决方案是让用户获得的信息不仅依赖于用户建立的关系网络,而且依赖于接收到的信息的类别和接收用户的个性化特征。这将有助于对社交网络上的海量信息进行有效地过滤和筛选,提高社交网络的信息检索效率。

为叙述简便起见,通常把网页以及用户在社交网络上获得的每条信息(如一条微博)都看作是文档。因此,要实现上述两个技术解决方案,其必要条件是能够获取用户和文档的个性化特征。但是在互联网上获取用户和文档的个性化特征通常是困难的,主要有以下几个难点。第一是个性化信息的自动获取问题。据估算目前互联网上有20亿用户和5000亿个网页,手工维护用户和网页文档的个性化特征是不现实的。如何自动获取用户和网页文档的个性化特征是一个难题。第二是个性化信息的更新问题。随着时间的推移,用户的兴趣爱好、工作地点、从事的行业和教育程度等个人信息会发生改变,但是要求大多数用户实时地更新其个性化信息是困难的。第三是特征的语义差异问题。不同用户设置的个性化特征经常出现术语不同但语义相同的问题,因此难以根据用户设置的个性化特征对用户和文档进行有效分类。第四是个性化信息的完备性问题。用户在网站上提供的兴趣爱好信息通常比较简略,例如喜欢音乐、打棒球或看书等几项内容,而要求多数用户全面地描述出其感兴趣的领域是困难的。

综上所述,如何有效地获取用户和文档的个性化特征,并根据所述个性化特征来提高搜索引擎的查准率以及提高社交网络的信息检索效率,是一个亟待解决的问题。

发明内容

鉴于上述现有技术存在的问题,本发明的目的在于提供一种获取用户和文档个性化特征的方法和系统,来自动获取用户和文档的个性化特征,并根据所述个性化特征来帮助用户过滤和筛选其在互联网上获得的信息。

根据以上所述的目的,本发明提出了一种获取用户和文档个性化特征的方法,其特征在于,所述方法包括在接入互联网的服务器中执行如下步骤:

S11.获取并存储由多个用户标识组成的用户集U,由多个文档标识组成的文档集D,以及由多个特征标识组成的特征集K;

S12.为所述用户集U中的至少一个用户设置参数向量初始值,或者为所述文档集D中的至少一个文档设置参数向量初始值,未设置参数向量初始值的用户和文档,其参数向量初始值缺省设为零向量;

S13.接收任意一个用户m(m∈U)访问任意一个文档n(n∈D)的信号;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于祁勇,未经祁勇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210581899.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top