[发明专利]一种文本内容与查询请求之间相关性的计算方法及装置有效
申请号: | 201410721370.4 | 申请日: | 2014-12-02 |
公开(公告)号: | CN105653562B | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 崔保良 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/38 | 分类号: | G06F16/38 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 内容 查询 请求 之间 相关性 计算方法 装置 | ||
本申请涉及互联网领域,公开了一种文本内容与查询请求之间相关性的计算方法及装置,用以提高用户查询效率。该方法为:分别针对每一个文本内容中的各个分词提取其分词特征,基于预设的序关系和分词特征之间的关联关系,分别确定每一个文本内容中各个分词在相应文本内容中的权重,以及在接收到用户查询请求后,确定用户查询中每一个分词的权重,然后,基于用户查询中每一个分词的权重和每一个文本内容中各个分词在相应文本内容中的权重,计算用户查询与每一个文本内容的文本相关性,进一步获得各个文本内容的显示排序。这样,更准确反映分词在文本内容中的重要程度,进而提高用户的搜索效率,提升系统的服务性能。
技术领域
本申请涉及互联网领域,特别涉及一种文本内容与查询请求之间相关性的计算方法及装置。
背景技术
目前,对网站中文本内容与搜索关键词的相关性主要依靠类目预测和文本相关性来进行相关性分析的。不同的文本内容在上传至网站时放在不同的类目下,但类目预测的粒度较粗,另外,文本相关性的作用较弱。
用户在网站中进行文本内容搜索时,每进行一次查询,系统都会反馈一个用于表征查询结果的文本内容集合,如何把和用户意图最相关的文本内容排在前面,文本相关性是一个主要的指标,所以,迫切需要提升文本相关性在基础相关性计算中的重要程度。
现有技术中,文本相关性用来衡量用户查询(称为query)与网站中文本内容(以下简称文本内容或title)的文本匹配程度,一种常见的实现方式是向量空间模型,具体为:将用户查询和文本内容看成文档,将文档表示为文档空间的向量,向量的每一维代表一个分词单元(称为一个term),值为这个分词单元在文档中的权重,通过计算用户查询向量和文本内容向量的相似度来衡量用户查询和文本内容的相关性,相似度计算方法可以为内积或余弦距离等。
下面介绍现有技术中两种实现方案,一种实现方案为,在每个分词单元上附上一个属性标签,每一个标签对应一个权重值,根据这个权重值计算用户查询向量和文本内容向量的相似度,从而来衡量用户查询和文本内容的相关性。
这种实现方案的缺陷为:如果两种或两种以上的分词单元附着的属性标签相同,那么就会具有相同权重,导致无法区分这些分词单元的相对重要程度。
另一种实现方案为基于关键词的行为聚合方法:基于用户查询时在搜索对象上的点击、展现以及确认行为,用统计的方法计算搜索对象在不同关键词下与用户意图匹配的程度。
这种实现方案的缺陷为:只能针对具有丰富行为的搜索对象,即热门搜索的搜索对象,才能计算搜索对象在不同关键词下与用户意图匹配的程度,但对于没有行为的搜索对象而言,无法用统计的方法计算,只能用同类目下的相关搜索对象的行为泛化处理,也就是说,没有行为的搜索对象在不同关键词下与用户意图匹配的程度可以等同于同类目下的相关搜索对象在不同关键词下与用户意图匹配的程度,这样,没有行为或者行为程度较低的搜索对象在不同关键词下与用户意图匹配的程度的准确度就不能保证。
另外,在文本内容中,每个分词单元之间被认为是孤立的,例如,文本内容中含有“黄瓜切片器”,其中,“黄瓜”和“切片器”两个分词单元中,“黄瓜”这个分词单元的行为统计权重很大,这样,在基于行为的这种实现方案中,搜索“黄瓜”时就有可能把这类不相关的搜索对象排在前面,与用户意图不匹配,所以这种实现方案不适合解决文本相关性在基础相关性中重要程度的问题。
发明内容
本申请实施例提供一种文本内容与查询请求之间相关性的计算方法及装置,用以解决用户查询与搜索对象之间的文本相关性问题。
本申请实施例提供的具体技术方案如下:
一种文本内容与查询请求之间相关性的计算方法,包括:
分别将每一个文本内容进行分词划分,并针对每一个文本内容中包含的每一个分词提取其分词特征,所述分词特征用于表征相应分词基于不同维度在文本内容中的重要程度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410721370.4/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法