[发明专利]一种体现查询差异的直接优化性能指标排序方法在审
申请号: | 201410213581.7 | 申请日: | 2014-05-20 |
公开(公告)号: | CN103984733A | 公开(公告)日: | 2014-08-13 |
发明(设计)人: | 王扬 | 申请(专利权)人: | 国家电网公司;国网天津市电力公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津才智专利商标代理有限公司 12108 | 代理人: | 庞学欣 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 体现 查询 差异 直接 优化 性能指标 排序 方法 | ||
技术领域
本发明属于网络搜索和机器学习技术领域,特别是涉及一种体现查询差异的直接优化性能指标排序方法。
背景技术
排序学习旨在为目标对象按照某种规律确定一个等级顺序,是目前网络搜索与机器学习领域研究的热点问题;现有排序学习方法可分为三类:基于数据点排序学习方法,基于有序对的排序学习方法和基于列表的排序学习方法。排序学习在信息检索、网页搜索等方面有着广泛的应用前景。
与传统的机器学习任务(如分类任务等)相比,排序学习问题具有自身特性;由于待排序的文档分别是由不同的查询检索得到的,因此只有同一个查询检索到的文档之间才有序关系;在排序学习任务中,不同查询及其对应文档之间,如在数据分布、评价指标和预测未知查询能力等方面,存在显著的差异;现有排序学习方法在建立排序模型过程中,没有考虑查询及其相关文档之间的差异,在一定程度上影响了排序模型的性能;因此,有必要在建立排序模型过程中考虑不同查询及其相关文档之间的差异。
近年来提出的部分排序学习方法在一定程度上考虑了查询之间的差异;与本发明研究紧密相关的包括两大类方法:一是与查询相关的排序学习,二是排序模型融合与查询相关的排序学习方法建立多个排序模型,对于不同的预测查询使用不同的排序模型预测;Geng等基于K近邻方法,提出了与查询相关的排序学习方法。Ni等将排序样本与查询相关的性质抽象为分组学习问题,使用共性模型和特性模型共同预测排序结果。Peng等提出使用JS-散度选择与未知查询最相关的排序模型算法。以上三种与查询相关的排序学习方法虽考虑了排序样本与查询相关的特性,但仍存在以下一些不足:1.与查询相关的排序学习方法将训练集割裂为若干个训练子集;此方法只注意到训练集中样本的区别,没有考虑到样本之间还存在着联系;2.每个与查询相关排序子模型只使用训练集中的部分样本而非所有样本参与训练,导致排序模型性能不佳;3.训练过程中需要建立大量排序模型,模型训练的时间代价过大;排序模型融合主要包括以下几种方法。Qin等提出依照查询-文档对的相关程度标注将整个数据集划分为多个数据子集,而后使用BordaCount算法融合多个子排序模型的结果。Liu等将排序模型融合问题转化为半正定规划问题,使用马尔科夫过程建模并优化。Bian等提出一种基于主题的多排序模型融合方法,使用支持向量机方法建立排序模型;排序模型融合方法虽然在性能上取得比传统使用单一模型决策更好的性能,但是在子模型建立过程中并未特别考虑排序学习中查询之间存在的差异;此外,多数方法使用计算概率、加权融合等方法简单线性合并子模型,并未明确提出一种适用于排序学习问题的融合函数;但是,基于列表的排序学习方法和直接优化评价指标排序学习方法在建模过程中都没有特别考虑查询之间的差异。与查询相关的排序学习方法虽比传统建立单一模型增加考虑了查询特性,但依然存在两个问题:一是特性的选择过程与排序模型的建立相脱离,并没有体现于排序模型损失上;二是训练得到多个模型,不便于最终排序结果的处理。
发明内容
为了解决上述问题,本发明的目的在于提供一种体现查询差异的直接优化性能指标排序方法。
为了达到上述目的,本发明提供的体现查询差异的直接优化性能指标排序方法包括按顺序执行的下列步骤:
步骤1、网页爬取:从互联网中爬取网页,并解析处理,留下文本连接信息,形成网页数据集;
步骤2、数据预处理及特征提取:将步骤1中形成的网页数据集与用户查询进行匹配,建立查询-文档对;所有查询-文档对都被表示成了特征向量的形式,形成特征数据集;
步骤3、建立样本级排序模型:以排序支持向量机为子排序模型,以步骤2中形成的特征数据集中的每一个查询及其相关文档为训练子集,查询-文档对为基本训练数据,建立样本级训练模型,着重于构建新的能反映排序学习问题中的查询差异性和有序性的训练数据;
步骤4、建立查询级排序模型:以步骤3中形成的样本级训练模型的输出作为训练数据,在整个训练数据集上建立查询级训练模型,给出新的损失函数作为优化目标,并利用此损失函数实现样本级模型融合;
步骤5、预测新查询:当有新的查询需要预测时,需要构建与训练数据形式相同的预测数据,使用样本级模型构建特征数据和查询级模型两步预测,得到最终的排序结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司;国网天津市电力公司,未经国家电网公司;国网天津市电力公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410213581.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:回转油缸
- 下一篇:电动铲运机的液压卷缆装置