[发明专利]一种体现查询差异的直接优化性能指标排序方法在审

申请号：	201410213581.7	申请日：	2014-05-20
公开（公告）号：	CN103984733A	公开（公告）日：	2014-08-13
发明（设计）人：	王扬	申请（专利权）人：	国家电网公司;国网天津市电力公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	天津才智专利商标代理有限公司 12108	代理人：	庞学欣
地址：	100031 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种体现查询差异的直接优化性能指标排序方法。其包括：步骤1.网页爬取；步骤2.数据预处理及特征提取；步骤3.建立样本级排序模型；步骤4.建立查询级排序模型；步骤5.预测新查询。本发明在排序模型建立过程中考虑查询差异，基于大规模真实数据的实验结果表明，使用本发明提供的体现查询差异的直接优化性能指标排序方法可以取得比传统排序学习模型更好的性能。本发明提供的方法除排序学习之外，还可应用于多类分类、序列标注等问题，在文本分类、信息检索、网络搜索等领域具有广泛的应用前景。
搜索关键词：	一种体现查询差异直接优化性能指标排序方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种体现查询差异的直接优化性能指标排序方法，其特征在于：所述的体现查询差异的直接优化性能指标排序方法包括按顺序执行的下列步骤：步骤1、网页爬取：从互联网中爬取网页，并解析处理，留下文本连接信息，形成网页数据集；步骤2、数据预处理及特征提取：将步骤1中形成的网页数据集与用户查询进行匹配，建立查询‑文档对；所有查询‑文档对都被表示成了特征向量的形式，形成特征数据集；步骤3、建立样本级排序模型：以排序支持向量机为子排序模型，以步骤2中形成的特征数据集中的每一个查询及其相关文档为训练子集，查询‑文档对为基本训练数据，建立样本级训练模型，着重于构建新的能反映排序学习问题中的查询差异性和有序性的训练数据；步骤4、建立查询级排序模型：以步骤3中形成的样本级训练模型的输出作为训练数据，在整个训练数据集上建立查询级训练模型，给出新的损失函数作为优化目标，并利用此损失函数实现样本级模型融合；步骤5、预测新查询：当有新的查询需要预测时，需要构建与训练数据形式相同的预测数据，使用样本级模型构建特征数据和查询级模型两步预测，得到最终的排序结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家电网公司;国网天津市电力公司，未经国家电网公司;国网天津市电力公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410213581.7/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种体现查询差异的直接优化性能指标排序方法在审

专利文献下载