[发明专利]基于查询的分类器训练方法和装置有效

专利信息
申请号: 201710609365.8 申请日: 2017-07-24
公开(公告)号: CN110020096B 公开(公告)日: 2021-09-07
发明(设计)人: 马庆丽 申请(专利权)人: 北京国双科技有限公司
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/9536;G06K9/62;G06Q50/00
代理公司: 北京康信知识产权代理有限责任公司 11240 代理人: 赵囡囡;褚敏
地址: 100083 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 查询 分类 训练 方法 装置
【说明书】:

发明公开了一种基于查询的分类器训练方法和装置。其中,该方法包括:使用查询训练集训练得到权重模型以及使用查询训练集的每个训练样本分别训练得到排序模型,其中,查询训练集包括多个查询,训练样本包括至少两个查询;确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率;根据第一宏平均准确率和第二宏平均准确率确定分类器的增益;根据增益确定分类器。本发明解决了现有技术中针对单个查询进行分类器训练时产生冗余的技术问题。

技术领域

本发明涉及计算机互联网领域,具体而言,涉及一种基于查询的分类器训练方法和装置。

背景技术

随着在线社交网络的迅猛发展,社交网络现已成为人们日常生活中信息的重要来源,国外最具代表性的Twitter以及国内最具代表性的新浪微博,都吸引了全球数以亿计的网络用户。以微博为例,每时每刻每分每秒都有大量的消息在微博上产生,甚至已成为最快速最全面的新闻来源之一。然而每天铺天盖地的消息更新也让用户难以快速浏览到自己真正需要的有效信息—既要与用户输入查询具有高度相关性同时又保证微博的时效性。因此如何快速有效的返回用户请求,即微博检索成为一项重要的研究问题。

微博检索就是用户输入一个查询,系统需要从语料集中检索出相关的微博并按照相关度进行评分排序,以满足用户的信息需求。如今,微博检索成为信息检索(InformationRetrieval)的一个重要分支。

在进行微博检索时,传统的单一检索排序模型很难融合多种信息,比如向量空间模型以tf*idf作为权重构建相关度函数,那么其他信息就难以被包含使用,并且有的模型中参数比较多,调参相对比较困难,也可能出现过拟合现象。因此,这一系列的单一检索模型已不能满足现代信息检索的需求,突破单一检索模型,引入机器学习算法成为必然趋势。排序学习算法可以方便有效的利用一系列的特征建立排序模型,取代了传统检索模型的单一,因此被广泛应用于微博检索任务中。但排序学习算法(Learning to Rank,LTR)对数据质量具有很大的依赖性,若训练数据中存在大量的低质量数据,会严重影响排序学习算法的排序性能,因此从参差不齐的训练数据中选择高质量的数据成为提高检索性能的一个重要部分。

对于训练查询的选择,现有技术中已经有一种基于检索性能增益以特征向量集导向的训练查询选择算法,该算法核心为:训练一个基于检索性能增益(针对单个查询)与查询特征集之间的线性关系函数,即查询选择分类器(采用logistic回归)。利用在训练阶段得到的查询选择分类器选择训练查询集,选择出的高质量查询作为新的训练数据,训练LTR模型。

尽管该基于检索性能增益以特征向量集导向的训练查询选择算法使得排序学习性能得到很大的提升,但依然存在以下两个问题:一是由于该算法没有考虑到查询之间的依赖性以及重复性,将查询看成一个个独立互不影响的个体,因此选择的查询可能存在冗余问题;二是利用单个独立的查询作为训练数据不利于Listwise算法的训练,因此该算法只适用于Pairwise算法。

针对上述现有技术中针对单个查询进行分类器训练时产生冗余的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于查询的分类器训练方法和装置,以至少解决现有技术中针对单个查询进行分类器训练时产生冗余的技术问题。

根据本发明实施例的一个方面,提供了一种基于查询的分类器训练方法,包括:使用查询训练集训练得到权重模型以及使用查询训练集的每个训练样本分别训练得到排序模型,其中,查询训练集包括多个查询,训练样本包括至少两个查询;确定权重模型的第一宏平均准确率以及每个排序模型的第二宏平均准确率;根据第一宏平均准确率和第二宏平均准确率确定分类器的增益;根据增益确定分类器。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710609365.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top