[发明专利]利用筛查模型进行分类的方法、装置及存储介质有效

申请号：	201910269583.0	申请日：	2019-04-04
公开（公告）号：	CN109978877B	公开（公告）日：	2022-08-23
发明（设计）人：	杨叶辉;许言午;王磊;黄艳	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06T7/00	分类号：	G06T7/00;G06V10/764
代理公司：	北京市铸成律师事务所 11313	代理人：	邓海鸿;陈建民
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	利用模型进行分类方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提出一种利用筛查模型进行分类的方法、装置及计算机可读存储介质。其中利用筛查模型进行分类的方法包括：利用源领域的分级训练数据作为训练样本对目标领域中的筛查模型进行训练；对所述筛查模型采用的最小二乘损失函数进行修改，以拉开所述分级训练数据中相邻级别的差距；使用修改后的最小二乘损失函数，对所述筛查模型进行AUC优化。本发明实施例利用源领域中的分级训练数据进行知识迁移，能够在目标领域中得到更好的预测性能。此外，本发明实施例通过对筛查模型进行AUC优化，能够更为准确和全面地衡量算法的性能，更好地应对样本不平衡的问题。

技术领域

本发明涉及信息技术领域，尤其涉及一种利用筛查模型进行分类的方法、装置及计算机可读存储介质。

背景技术

目前常用的人工智能筛查系统，在部署到新的应用环境中时，由于新的应用环境使用的筛查机型不一样，数据来源也不一样，例如图像的亮度、对比度可能都不同，直接使用源领域数据会影响性能。因此需要在新的应用环境中收集大规模的标注数据用于训练筛查模型，从而得到预测性能较高的筛查模型。这一迁移过程的数据收集和标注的成本较高。

在现有技术的迁移过程中，通常利用预测错误率评估算法性能。而预测错误率的方法对于样本不平衡问题不适用，难以用来判断算法的性能。例如，对于二元分类问题，存在类别分布不平衡的问题，即某一类别的样本数量远远多于另一类。分类错误率作为传统分类学习的评估指标，在进行模型优化时没有考虑到样本不平衡的问题，因而不能准确和全面地反应算法的性能。

发明内容

本发明实施例提供一种利用筛查模型进行分类的方法、装置及计算机可读存储介质，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种利用筛查模型进行分类的方法，包括：

利用源领域的分级训练数据作为训练样本对目标领域中的筛查模型进行训练；

对所述筛查模型采用的最小二乘损失函数进行修改，以拉开所述分级训练数据中相邻级别的差距；

使用修改后的最小二乘损失函数，对所述筛查模型进行AUC优化。

在一种实施方式中，使用修改后的最小二乘损失函数，对所述筛查模型进行AUC优化之后，还包括：

通过所述AUC优化，更新所述筛查模型的参数。

在一种实施方式中，通过所述AUC优化，更新所述筛查模型的参数，包括：

利用随机梯度下降算法更新所述筛查模型的参数。

在一种实施方式中，对所述筛查模型采用的最小二乘损失函数进行修改，以拉开所述分级训练数据中相邻级别的差距，包括：

对二分类模型中解决AUC优化问题采用的最小二乘损失函数进行修改，以拉开所述分级训练数据中相邻级别的差距。