[发明专利]检测模型的跨域自适应方法、数据处理方法在审
申请号: | 202110602937.6 | 申请日: | 2021-05-31 |
公开(公告)号: | CN115481424A | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 孙晋权 | 申请(专利权)人: | 阿里巴巴新加坡控股有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G16H10/00;G06K9/62 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 谢湘宁;张文华 |
地址: | 新加坡珊顿道*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测 模型 自适应 方法 数据处理 | ||
1.一种数据处理方法,其特征在于,包括:
接收医疗设备采集到的医疗数据;
采用目标检测模型抽取出所述医疗数据的文本信息,其中,所述目标检测模型是依据目标域上的无标注数据集的伪标签训练否定检测模型得到的,所述否定检测模型是基于源域上的标注数据集训练得到的,所述伪标签是基于所述否定检测模型对目标域上的无标注数据集的检测结果生成的;
输出所述文本信息。
2.一种检测模型的跨域自适应方法,其特征在于,包括:
获取否定检测模型,其中,所述否定检测模型是基于源域上的标注数据集训练得到的;
依据所述否定检测模型对目标域上的无标注数据集的检测结果,为所述无标注数据集生成伪标签;
采用所述伪标签训练所述否定检测模型,得到适用于所述目标域的目标检测模型,其中,所述目标检测模型抽取所述目标域的文本信息。
3.根据权利要求2所述的方法,其特征在于,依据所述否定检测模型对目标域上的无标注数据集的检测结果,为所述无标注数据集生成伪标签,包括:
对所述无标注数据集中的每条无标注数据进行预测处理,得到类别预测结果,其中,所述类别预测结果包括:否定类别和非否定类别;
采用所述否定检测模型对目标域上的无标注数据集进行检测,确定所述无标注数据集中每条无标注数据的否定类别概率和非否定类别概率;
确定与所述类别预测结果对应的概率阈值范围;
基于所述概率阈值范围、所述否定类别概率和所述非否定类别概率,为所述无标注数据集生成伪标签。
4.根据权利要求3所述的方法,其特征在于,确定与所述类别预测结果对应的概率阈值范围,包括:
基于所述类别预测结果确定所述无标注数据集的类别预测概率,其中,所述类别预测概率包括:否定类别概率和非否定类别概率;
基于所述类别预测概率确定与所述类别预测结果对应的概率阈值范围,其中,所述概率阈值范围包括:所述否定类别对应的第一概率阈值范围、所述非否定类别对应的第二概率阈值范围。
5.根据权利要求4所述的方法,其特征在于,基于所述概率阈值范围、所述否定类别概率和所述非否定类别概率,为所述无标注数据集生成伪标签,包括:
确定与所述否定类别概率对应的第一搜索步长,以及与所述非否定类别概率的第二搜索步长;
在网格化概率阈值搜索空间内,基于所述第一搜索步长从所述第一概率阈值范围中选取第一概率阈值,以及基于所述第二搜索步长从所述第一概率阈值范围中选取第二概率阈值;
分别比较所述否定类别概率和所述第一概率阈值,以及所述非否定类别概率和所述第二概率阈值的大小,得到比较结果;
若所述比较结果指示所述否定类别概率大于所述第一概率阈值,和/或所述非否定类别概率大于所述第二概率阈值,则生成所述伪标签。
6.根据权利要求2所述的方法,其特征在于,依据所述否定检测模型对目标域上的无标注数据集的检测结果,为所述无标注数据集生成伪标签,还包括:
采用所述否定检测模型计算所述无标注数据集的平均熵,其中,所述平均熵用于确定类别预测结果在所述无标注数据集上的不确定性;
遍历网格化概率阈值搜索空间,将最小的所述平均熵对应的网格单元的非否定类别概率作为正样本阈值,以及将最小的所述平均熵对应的网格单元的否定类别概率作为负样本阈值;
基于所述正样本阈值和所述负样本阈值,为所述无标注数据集生成所述伪标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴新加坡控股有限公司,未经阿里巴巴新加坡控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110602937.6/1.html,转载请声明来源钻瓜专利网。