[发明专利]基于强化学习模型对多个分类模型进行融合的方法和装置有效

申请号：	201911032757.8	申请日：	2019-10-28
公开（公告）号：	CN110766086B	公开（公告）日：	2022-07-22
发明（设计）人：	龙翀	申请（专利权）人：	支付宝（杭州）信息技术有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	张静娟;周良玉
地址：	310000 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习模型分类进行融合方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书实施例提供了一种基于强化学习模型对多个分类模型进行融合的方法和装置，其中每个分类模型针对第一对象输出基于多个预定类别进行分类的分类结果，所述方法包括：获取第一状态信息，所述第一状态信息包括所述多个分类模型各自的对所述第一对象的分类结果、以及当前强化学习模型对于所述多个预定类别中每个类别的分类准确率；将所述第一状态信息输入所述强化学习模型；通过所述强化学习模型从所述多个预定类别中确定所述第一对象的类别。

技术领域

本说明书实施例涉及机器学习技术领域，更具体地，涉及一种基于强化学习模型对多个分类模型进行融合的方法和装置。

背景技术

模型融合在IT互联网工业界中有着非常广泛的应用。在用分类模型解决实际问题时，通过单个分类模型通常不能取得最好的整体效果，或者不能在每个方面都取得很好的效果。此时，可通过融合多个分类模型得到最终的分类结果，从而可利用其中每个模型的优点，通常将这种用于融合多个模型的模型称为“融合模型”。传统的融合模型包括Stacking、Boost ing、Bagging、Blending等。这些模型都需要离线训练，并且只能对单个样本的标注进行训练。

因此，需要一种更有效的对多个分类模型进行融合的方案。

发明内容

本说明书实施例旨在提供一种更有效的对多个分类模型进行融合的方案，以解决现有技术中的不足。

为实现上述目的，本说明书一个方面提供一种基于强化学习模型对多个分类模型进行融合的方法，其中每个分类模型针对第一对象输出基于多个预定类别进行分类的分类结果，所述方法包括：

获取第一状态信息，所述第一状态信息包括所述多个分类模型各自的对所述第一对象的分类结果、以及当前强化学习模型对于所述多个预定类别中每个类别的分类准确率；

将所述第一状态信息输入所述强化学习模型；

通过所述强化学习模型从所述多个预定类别中确定所述第一对象的类别。

在一个实施例中，所述多个分类模型各自的对所述第一对象的分类结果以概率矩阵表示，其中，所述概率矩阵中第i行、第j列的元素表示所述多个分类模型中的第i个分类模型输出的所述第一对象属于所述多个预定类别中第j个预定类别的概率。

在一个实施例中，所述当前强化学习模型对于所述多个预定类别中每个类别的分类准确率基于所述强化学习模型在过去预定时段内对于样本中每个类别的分类准确率获取。

在一个实施例中，所述强化学习模型包括策略网络，其中，通过所述强化学习模型从所述多个预定类别中确定所述第一对象的类别包括，通过策略网络基于所述第一状态信息计算所述多个预定类别的各个类别的分类概率，并基于各个预定类别的分类概率，确定所述第一对象的类别。

在一个实施例中，所述强化学习模型还包括价值网络，所述方法还包括，在通过所述强化学习模型从所述多个预定类别中确定所述第一对象的类别之后，获取第二状态信息，所述第二状态信息包括所述多个分类模型各自的对所述第一对象的分类结果、以及当前强化学习模型对于所述多个预定类别中每个类别的分类准确率；获取与所述强化学习模型的该次分类对应的回报值；基于所述第一状态信息、第二状态信息以及所述回报值训练所述价值网络。

在一个实施例中，所述方法还包括，在基于所述第一状态信息、第二状态信息以及所述回报值训练所述价值网络之后，基于所述第一回报值、所述价值网络相对于所述第一状态信息的输出、所述价值网络相对于所述第二状态信息的输出、所述第一状态信息、以及通过所述强化学习模型确定的所述第一对象的类别，训练所述策略网络。

在一个实施例中，与所述强化学习模型的该次分类对应的回报值基于该次分类是否正确而确定。

在一个实施例中，所述强化学习模型用于将用户的问题分类到相应类别，以使得与该相应类别对应的业务人员进行对所述问题的回复，其中由所述业务人员对该次分类是否正确进行标定。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于支付宝（杭州）信息技术有限公司，未经支付宝（杭州）信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911032757.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于强化学习模型对多个分类模型进行融合的方法和装置有效

专利文献下载