[发明专利]一种基于内容相关度的检索模型计算方法在审
申请号: | 201610474582.6 | 申请日: | 2016-06-23 |
公开(公告)号: | CN106649423A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 贾海龙 | 申请(专利权)人: | 新乡学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙)11350 | 代理人: | 汤东风 |
地址: | 453000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于内容相关度的检索模型计算方法,包括相似性计算和特征权值计算;与现有技术相比,本发明首先,介绍了检索模型的基础知识——向量空间模型和概率检索模型;并重点分析了概率检索模型中的二元独立模型和BM25模型,发现二元独立模型中估算因子在进行概率计算时出现的零概率问题和BM25模型中相关度计算不准确的情况。其次针对以上两个问题,提出了改进的语言统计检索模型。最后,通过实验及分析验证了所提出改进语言统计检索模型的性能。 | ||
搜索关键词: | 一种 基于 内容 相关 检索 模型 计算方法 | ||
【主权项】:
一种基于内容相关度的检索模型计算方法,其特征在于:包括相似性计算和特征权值计算;所述相似性计算:将文档转换为特征向量后,就可以计算文档之间或者是查询和文档之间的相似性了,对于搜索排序这种任务来说,给定用户输入的查询,计算查询和网页内容之间的“相关性”,即文档是否和用户需求相关,之后按照相关程度由高到低排序,向量空间模型将问题做了转换,即以查询和文档之间的内容相似性作为相关性的替代,按照文档和查询的相似性得分由高到低排序作为搜索结果,给定用户查询特征向量和文档特征向量,Cosine相似性是最常用也是非常有效的计算相似性的方式,Cosine相似性计算定义如下式: 公式(1)是计算用户查询Q,Di的文档相似性,式中的分子部分,将文档的每个特征权值和查询的每个特征权值相乘取和,这个过程也叫做求两个向量的点积;公式的分母部分是两个特征向量在欧式空间中长度的乘积,作为对点积计算结果的规范化,之所以要对特征向量的长度做规范化操作,主要是对长文档的一种惩罚机制,否则的话,计算结果往往是长文档得分较高,而这并非因为长文档与查询更相关,而是因为其长度较长,导致特征权值比短文档要大,所以加入规范化操作抑制长文档在排序中的位置,为了便于理解Cosine相似性,可以将每个文档及查询看作是t维特征空间中的一个数值点,每个特征形成t维空间中的一个维度,连接特征空间原点和这个数值点形成一个向量,而Cosine相似性就是计算特征空间中两个向量之问的夹角,这个夹角越小,说明两个特征向量内容越相似,夹角越大,说明两个向量内容越不同,考虑一种极端情况:两个完全相同的文档,其在向量空间中的两个向量是重叠的,通过Cosine相似性计算得到的相似性结果为1;所述特征权值计算:查询中的关键词权重应该反映这个词对查询的重要性,网页文档和用户查询词被转换为特征向量时,每个特征都会赋予一定的权值,在向量空间模型里,特征权值的计算框架一般被称作Tf‑IDF框架,虽然具体计算方式可以有多种,但是大都遵循这一框架,而这一计算框架考虑的主要计算因子有两个:词频Tf和逆文档频率IDF,(1)词频因子(Tf)Tf算因子代表了词频,即一个单词在文档中出现的次数,在某个文档中反复出现的单词,往往能够表征文档的主题信息,即Tf值越大,越能代表文档所反映的内容,那么应该给予这个单词更大的权值,这是为何引入词频作为计算权值的重要因子的原因,具体计算词频因子的时候,基于不同的出发点,可以采纳不同的计算公式,最直接的方式就是直接利用词频数,比如文档中某个单词出现过5次,就将这个单词的Tf值计为5,一种词频因子的变体计算如公式(2)所示,WTf=1+log(Tf) (2)式中将词频数值Tf取log值作为词频权值,比如单词在文档中出现过4次,则其词频因子权值是3,公式中的数字1是为了平滑计算用的,因为如果Tf值为1的情况下,取Log后值为0,即本来出现了一次的单词,按照这种方法计算会认为这个单词从来没有在文档中出现过,为了避免这种情形,采用加1的方式来进行平滑,之所以要对词频取log,是基于如下考虑:即使一个单词出现了10次,也不应该在计算特征权值时,比出现1次的情况权值大10倍,所以加入log机制抑制这种过大的差异,另外一种单词词频因子的变体计算公式是:这种方法被称为增强型规范化Tf,其中的a是调节因子,过去经验取值0.5,新的研究表明取值为0.4效果更好,公式中的Tf代表这个单词的实际词频数目,而Max(Tf)代表了文档中所有单词中出现次数最多的那个单词对应的词频数目,之所以要如此操作,主要出于对长文档的一种抑制,因为如果文档较长,与短文档相比,则长文档中所有单词的Tf值会普遍比短文档的值高,但是这并不意味着长文档与查询更相关,用单词实际词频除以文档中最高词频,等于将绝对的数值进行了规范化转换,公式的含义就转换为:同一个文档内单词之间的相对重要性,即使一个文档很长,单词词频普遍很高,但是除以文档最高词频,那么通过这种计算方式得出的数值比短文档来说并不一定就大,这样就消除了文档长度因素的影响,长文档和短文档的词频因子就成为可比的了,(2)逆文档频率因子(IDF)词频因子是与文档密切相关的,一个单词的Tf值,指的是这个单词在某个文档中的出现次数,同一个单词在不同文档中Tf值很可能是不一样的,而逆文档频率因子IDF则与此不同,它代表的是文档集合范围的一种全局因子,给定一个文档集台,那么每个单词的IDF值就唯一确定,跟具体的文档无关,所以IDF考虑的不是文档本身的特征,而是特征单词之间的相对重要性[58],所谓逆文档频率因子IDF,其计算如公式(4),式中的N代表文档集台中总共有多少个文档,而nk代表特征单词k在其中多少个文档中出现过,即文档频率,由公式可知,文档频率nk越高,则其IDF值越小,即越多的文档包含某个单词,那么其IDF权值越小,IDF反映了一个特征词在整个文档集合中的分布情况,特征词出现在其中的文档数目越多,IDF值越低,这个词区分不同文档的能力越差。(3)Tf‑IDF框架Tf‑IDF框架就是结台了上述的词频因子和逆文档频率因子的计算框架,一般是将两者相乘作为特征权值,特征权值越大,则越可能是好的指示词,即:Weightword=Tf×IDF (5)从公式(5)可以看出,对于某个文档D来说:如果D中某个单词的词频很高,而且这个单词在文档集合的其他文档中很少出现,那么这个单词的权值会很高,如果D中某个单词的词频很高,但是这个单词在文档集合的其他文档中也经常出现t或者单词词频水高,但是在文档集合的其他文档中很少出现,那么这个单词的权值一般,如果D中某个单词词频很低,同时这个单词在文档集合的其他文档中经常出现,那么这个单词的权值很低。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新乡学院,未经新乡学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610474582.6/,转载请声明来源钻瓜专利网。
- 上一篇:关键词提取方法及装置
- 下一篇:基于设计逻辑的参数化建筑设计工法
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法