[发明专利]利用筛查模型进行分类的方法、装置及存储介质有效
申请号: | 201910269583.0 | 申请日: | 2019-04-04 |
公开(公告)号: | CN109978877B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 杨叶辉;许言午;王磊;黄艳 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06V10/764 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 邓海鸿;陈建民 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 模型 进行 分类 方法 装置 存储 介质 | ||
本发明实施例提出一种利用筛查模型进行分类的方法、装置及计算机可读存储介质。其中利用筛查模型进行分类的方法包括:利用源领域的分级训练数据作为训练样本对目标领域中的筛查模型进行训练;对所述筛查模型采用的最小二乘损失函数进行修改,以拉开所述分级训练数据中相邻级别的差距;使用修改后的最小二乘损失函数,对所述筛查模型进行AUC优化。本发明实施例利用源领域中的分级训练数据进行知识迁移,能够在目标领域中得到更好的预测性能。此外,本发明实施例通过对筛查模型进行AUC优化,能够更为准确和全面地衡量算法的性能,更好地应对样本不平衡的问题。
技术领域
本发明涉及信息技术领域,尤其涉及一种利用筛查模型进行分类的方法、装置及计算机可读存储介质。
背景技术
目前常用的人工智能筛查系统,在部署到新的应用环境中时,由于新的应用环境使用的筛查机型不一样,数据来源也不一样,例如图像的亮度、对比度可能都不同,直接使用源领域数据会影响性能。因此需要在新的应用环境中收集大规模的标注数据用于训练筛查模型,从而得到预测性能较高的筛查模型。这一迁移过程的数据收集和标注的成本较高。
在现有技术的迁移过程中,通常利用预测错误率评估算法性能。而预测错误率的方法对于样本不平衡问题不适用,难以用来判断算法的性能。例如,对于二元分类问题,存在类别分布不平衡的问题,即某一类别的样本数量远远多于另一类。分类错误率作为传统分类学习的评估指标,在进行模型优化时没有考虑到样本不平衡的问题,因而不能准确和全面地反应算法的性能。
发明内容
本发明实施例提供一种利用筛查模型进行分类的方法、装置及计算机可读存储介质,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种利用筛查模型进行分类的方法,包括:
利用源领域的分级训练数据作为训练样本对目标领域中的筛查模型进行训练;
对所述筛查模型采用的最小二乘损失函数进行修改,以拉开所述分级训练数据中相邻级别的差距;
使用修改后的最小二乘损失函数,对所述筛查模型进行AUC优化。
在一种实施方式中,使用修改后的最小二乘损失函数,对所述筛查模型进行AUC优化之后,还包括:
通过所述AUC优化,更新所述筛查模型的参数。
在一种实施方式中,通过所述AUC优化,更新所述筛查模型的参数,包括:
利用随机梯度下降算法更新所述筛查模型的参数。
在一种实施方式中,对所述筛查模型采用的最小二乘损失函数进行修改,以拉开所述分级训练数据中相邻级别的差距,包括:
对二分类模型中解决AUC优化问题采用的最小二乘损失函数进行修改,以拉开所述分级训练数据中相邻级别的差距。
在一种实施方式中,对二分类模型中解决AUC优化问题采用的最小二乘损失函数进行修改,以拉开所述分级训练数据中相邻级别的差距,包括:
将二分类模型中解决AUC优化问题采用的最小二乘损失函数修改为以下公式,
其中,L(f)表示所述修改后的最小二乘损失函数;函数f表示所述筛查模型的映射函数;用Y={0,1,2,3,4,…,k}表示所述分级训练数据的标签集合;表示标签为j的第i个训练样本;n0,n1,n2,n3,n4,…,nk分别表示每个标签对应的样本数量。
第二方面,本发明实施例提供了一种利用筛查模型进行分类的装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910269583.0/2.html,转载请声明来源钻瓜专利网。