[发明专利]一种权重估计方法、装置及系统有效

专利信息
申请号: 201310256387.2 申请日: 2013-06-25
公开(公告)号: CN104252456B 公开(公告)日: 2018-10-09
发明(设计)人: 程微宏 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京安信方达知识产权代理有限公司 11262 代理人: 解婷婷;栗若木
地址: 英属开曼群岛大开*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 权重 估计 方法 装置 系统
【说明书】:

本申请提供一种权重估计方法,获取用户行为日志,基于用户行为日志获取对象的展现信息、点击信息和成交信息;对查询信息按预设规则进行分词,获得分词单元,根据分词单元在所述对象的展现信息、点击信息和成交信息中出现的次数分别获取每个分词单元的展现信息、点击信息和成交信息;根据所述分词单元的展现信息、点击信息和成交信息确定分词单元的点击率和点击转化率;根据分词单元的点击率和点击转化率确定分词单元的权重,作为该分词单元对应该对象的权重。本申请还提供一种权重估计方法,根据当前查询信息以及各分词单元的权重确定各对象的权重。本申请还提供一种权重估计方法和系统。本申请提高了排序的准确度。

技术领域

本申请涉及网络技术领域,尤其涉及一种权重估计方法、装置和系统。

背景技术

相关性是衡量检索系统质量的重要指标,如何提高系统返回结果的相关性一直是信息检索领域的研究重点。在传统网页搜索引擎中,衡量一个结果和查询的相关性可以分两部分:动态相关性和静态相关性。动态相关性包含文本相关性、主题相关性及点击反馈(意图相关性)等。静态相关性包含pagerank(页面权重)及网站权威性等。在线上排序时,通过将上述的相关性特征组合加权得到最后的有序结果推荐给用户。

无论是网页搜索还是商品搜索,系统都需要返回最契合用户查询意图的结果集,并将结果集中的结果按照相关程度进行排序。文本相关性模型是线上相关性排序的重要模型。文本相关性模型量化了召回文档(例如商品的标题)和用户查询的文本匹配程度,保证了基本的排序相关性。文本模型在传统的网页搜索应用中有较长的历史,常见的实现方式是向量空间模型(Vector Space Model,VSM)。向量空间模型将一个文档表示成一维向量,向量的每个单元表示一个词,每个词都赋予一个权重weighti。当用户输入一个查询Q时,系统通过累加匹配上的词权重作为文档的相关性分数:关于词权重计算有很多种方法,比较经典的是TF(Term Frequency,词频)/IDF(Inverse DocumentFrequency,逆文档频率),通过TF*IDF来衡量词在文档中的重要性。其中,TF表示词在文档中出现的次数;IDF由总文件数目除以包含该词语文件的数目,再将得到的商取对数得到。

现有技术中存在如下几种排序方案:

对高频查询采取点击反馈,通过直接上提对应查询下点击或者成交最好的商品,这个方法实现简单,但是不利于扩展到中低频查询。

通过指向文档的锚文本计算文档关键词的权重,但是目前电子商务搜索中的商品之间是没有相互指向信息的。

近几年关于统计语言模型(Statistical Language Model,SLM)应用在信息检索中的研究非常多。SLM是一种概率生成模型,通过对文档或者查询的文档空间进行建模,来描述一个查询或一篇文档由模型生成的能力。目前SLM主要有三种应用形式:查询似然模型、文档似然模型和模型比较方法,查询似然模型和文档似然模型分别对应的是文档模型和查询模型,通过不同的角度来丰富相关性的计算,如图1所示,其中:

查询似然模型通过概率的方法估计每个文档下词的权重P(t|Document),衡量了每个词在文档中的重要性,t代表词,Document代表文档。P(Query|Document)为该Document生成该Query的概率。Query通常包括一个或多个词,根据该一个或多个词的权重可以得到P(Query|Document)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310256387.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top