[发明专利]基于置信度引导的文本分类方法、装置和计算机设备在审
申请号: | 202210992878.2 | 申请日: | 2022-08-18 |
公开(公告)号: | CN115292496A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 周鋆;杨昊;朱先强;朱承;张维明 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/08 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 邱轶 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 置信 引导 文本 分类 方法 装置 计算机 设备 | ||
本申请涉及一种基于置信度引导的文本分类方法、装置和计算机设备,包括:首先将待分类的目标文本输入预训练的文本分类模型,分别得到目标文本被分到各个文本类别的置信度,其中置信度是根据目标文本对应的softmax函数值取对数得到的,接着根据置信度以及文本类别数量和输入的目标文本的批量大小的乘积构建损失函数,通过优化损失函数更新文本分类模型,最后采用更新后的文本分类模型进行目标文本的分类。采用本发明可以大大提高文本分类的鲁棒性。
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种基于置信度引导的文本分类方法、装置和计算机设备。
背景技术
深度学习模型在文本处理领域显示出良好的效果,然而,由于分布偏移,即训练文本分布与测试文本分布不同,将深度学习模型部署到实际文本分类应用中仍然很困难,这种问题是文本处理领域的一项基本任务。为了解决这个问题,人们在不同的设置下提出了许多子领域,比如,微调、域适配和测试时间适配。
最近,研究人员提出完全测试时间适配,即通过在测试时间从无标签的测试文本中学习来适应源预训练的模型。测试时间适配也被称为无源域适配。不同于域适配需要访问源域和目标域,无源域适配不需要从源域获得任何文本数据进行适应。一些现有的工作在没有源文本的情况下利用生成模型来支持特征对齐。另一个流行的方向是微调源预训练模型而不明确地进行域对齐,例如:测试熵最小化(TENT)采用预先训练好的模型并通过使用熵最小化更新Batchnorm层的可训练参数来适应测试数据;源假设转移(SHOT)同时利用熵最小化和多样性正则器进行适应,SHOT需要使用源文本来训练一个专门的源模型,使用标签平滑技术与权重规范化层;TTT需要对源文本进行再训练,以促进目标文本自适应的监督,并有一个额外的辅助旋转预测分支,使得它不可能重新使用现有的预训练模型。
发明内容
基于此,有必要针对上述技术问题,提供一种基于置信度引导的文本分类方法、装置和计算机设备,以提高文本分类的鲁棒性。
一种基于置信度引导的文本分类方法,所述方法包括:
将待分类的目标文本输入预训练的文本分类模型,分别得到所述目标文本被分到各个文本类别的置信度;所述置信度是根据所述目标文本对应的softmax函数值取对数得到的;
根据所述置信度以及文本类别数量和输入的目标文本的批量大小的乘积构建损失函数,通过优化所述损失函数更新所述文本分类模型;
采用更新后的所述文本分类模型进行所述目标文本的分类。
优选地,根据所述置信度与文本类别数量和输入的目标文本的批量大小的乘积构建损失函数,包括:
根据所述置信度与文本类别数量和输入的目标文本的批量大小的乘积构建第一损失函数为:
其中,Lconf(fθ(xt),yt)为第一损失函数,θ,t为文本分类模型参数,N为目标文本的批量大小,C为分类的文本类别数量,zi为第i个文本类别对应的输出值。
优选地,在根据所述置信度与文本类别数量和输入的目标文本的批量大小的乘积构建损失函数之前,还包括:
分别计算各个所述目标文本对应的第一大置信度和第二大置信度的差值;
当所述差值小于预设阈值,为对应的所述目标文本赋予第一注意力系数;
当所述差值不小于预设阈值,为对应的所述目标文本赋予第二注意力系数。
优选地,根据所述置信度与文本类别数量和输入的目标文本的批量大小的乘积构建损失函数,包括:
根据所述第一注意力系数、所述第二注意力系数以及所述第一损失函数构建第二损失函数:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210992878.2/2.html,转载请声明来源钻瓜专利网。