[发明专利]一种相似性度量的方法以及系统有效

专利信息
申请号: 201410244546.1 申请日: 2014-06-04
公开(公告)号: CN104111969B 公开(公告)日: 2017-06-20
发明(设计)人: 朱宝 申请(专利权)人: 百度移信网络技术(北京)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京志霖律师事务所11575 代理人: 潘士霖
地址: 100085 北京市海淀区农大南路1号院4号*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 相似性 度量 方法 以及 系统
【说明书】:

技术领域

发明涉及信息处理领域,特别涉及信息处理领域中的相似性度量的方法以及系统。

背景技术

当前,在众多领域、例如互联网行业等均涉及相似性度量,并基于各种已有的相似性度量方法进行相似性分析。

例如在个性化推荐领域等,服务器收集并存储了用户及其操作对象的大量数据,需要根据用户已进行的操作向用户推荐用户可能感兴趣的相关操作对象,在推荐的过程中需要计算出要推荐的操作对象与用户进行操作的操作对象的相似度,以将相似度高的操作对象推荐给用户。这里,在相似性度量方法上,大体上存在以下几种。

基于物体属性向量已知条件下的相似性度量方法。该相似性度量方法,依据物体属性已知的情况,计算物体属性向量在某种意义下的距离,作为物体与物体之间的相似性度量。例如:欧几里得距离、马氏距离、米科夫斯基距离、汉明距离、jaccard系数、皮尔逊相关系数、余弦相似度等。该类相似性度量方法的明显特点是,在该相似度计算公式中有物体的属性向量值。这种相似性度量方法需要已知物体的属性向量,对于隐性属性的物体难以计算相似度。

基于关联关系的相似性度量方法。该相似性度量方法,是寻找物体与物体之间的关联,再通过某种规则定义出一种关联的程度,进而作为物体与物体之间的相似性度量。如:关联相似度、基于图的相似度、基于RandomWalk的相似性度量方法等。这类相似性度量方法的缺点在于其关联含义的解释较为困难。

基于统计的相似性度量方法。该方法与关联关系的相似性度量方法不同,关联关系的相似性度量方法是已知物体与物体之间关联的明确情况。而基于统计的相似性度量方法,基于统计学中的概率。如某个物体和另外一个物体发生某种关联的概率。同样在某些时候,也需要关联的定义,甚至物体属性向量的相似度定义。这类相似性度量方法的明显特点在于,其已知的是物体和物体之间关联的统计结果。

在上述以往的相关性度量方法中,存在以下几个问题。

首先,基于属性向量的相似性度量方法需要知道相比较的两个对象的属性向量,即需要属性向量已知,对于未知属性向量的情况下,无法进行相似性的判断。

其次,存在准确度低的问题。例如在使用余弦相似度度量方法的情况下,如果各属性向量是不独立、即不正交的情况下,其计算出的相似度是不准确的。例如在对象Aa的属性向量是{x1,y1,z1},对象Bb的属性向量是{x2,y2,z2},在上述属性之间相关的情况下、即不正交的情况下,其计算出的相似度准确度低,存在大量的信息损失。

另外,存在计算复杂度高的问题。基于关联关系的相似性度量方法以及基于统计的相似性度量方法需要寻找比较对象之间关联,其过程比较复杂,导致相似度计算的难度较大。

发明内容

本发明就是鉴于现有技术中相似度度量的方法存在的各种问题而做出的,本发明其目的在于提供一种在未知物体属性向量的情况下定义和计算出最佳相似度的相似性度量的方法和系统。

一种相似性度量方法,其特征在于,收集用户访问物品的行为以获取用户、物品、以及用户对物品的操作行为的数据;对获取的数据进行分析以建立用户与物品之间交互关系矩阵;根据所述用户与物品之间交互关系矩阵,针对每个用户,计算出物品被所述每个用户操作的次数相对于所述物品被所有用户操作的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的物品相对于用户的概率矩阵;根据所述用户与物品之间交互关系矩阵,针对每个物品,计算出用户操作所述每个物品的次数相对于所述用户操作所有物品的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的用户相对于物品的概率矩阵;计算所述物品相对于用户的概率矩阵与所述用户相对于物品的概率矩阵的乘积,得到用户与用户之间的相似度矩阵。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度移信网络技术(北京)有限公司,未经百度移信网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410244546.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top