[发明专利]文本分类模型的训练方法及相关设备在审
申请号: | 202010514986.X | 申请日: | 2020-06-08 |
公开(公告)号: | CN111666500A | 公开(公告)日: | 2020-09-15 |
发明(设计)人: | 张冠华;白冰;白琨 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/35;G06F16/903;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 叶虹 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 训练 方法 相关 设备 | ||
本公开实施例提供了一种文本分类模型的训练方法及装置、电子设备和存储介质。该方法包括:获取训练文本及其类别标签信息和群体标签信息;通过第一神经网络模型对训练文本进行处理,并根据类别标签信息获得第一神经网络模型的初始网络参数;通过第二神经网络模型和第一神经网络模型对训练文本进行处理,获得训练文本的第一预测群体信息;根据训练文本的群体标签信息及其第一预测群体信息对抗训练第一神经网络模型和第二神经网络模型,确定第一神经网络模型的目标网络参数,将包括目标网络参数的第一神经网络模型确定为文本分类模型。本公开实施例提供的方法得到的文本分类模型能够在不损失模型精度的条件下,给出无群体歧视的分类结果。
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种文本分类模型的训练方法及装置、电子设备和计算机可读存储介质。
背景技术
评论过滤是新闻、社区类等应用中的一项功能,用户生成的评论、发言中,可能包含负面消极、甚至违反法律的信息,筛选出这些负面评论或者不良评论并将其删除是很重要的。
相关技术中,通常采用文本分类模型来过滤评论。文本分类是自然语言处理中的基础任务,指的是给定一句话,根据其语义判断它的类别标签。典型的文本分类任务包括语言情感分析、舆情监测等。在评论过滤的场景中,文本分类模型用来判断一个评论是否是负面评论或者不良评论。
相关技术中,一般采用人工标注的数据集来训练文本分类模型,然后利用训练好的文本分类模型来预测用户提交的评论是否是负面评论或者不良评论。
但是,研究发现人工标注的数据集中,常常带有对某些少数群体的偏见与歧视,换言之,在数据集中某些群体更倾向于是某种标签。这种数据集中的歧视可能是人类社会中固有的偏见导致的,也可能反应了数据标注者在标注过程中的歧视性偏差。相关技术中的文本分类模型在训练过程中会学习到这种偏差,当模型在实际应用中预测时,会给出歧视性的预测结果,甚至放大这些社会偏见。
比如,在攻击性评论检测(Abusive Language Detection)任务中的一些数据集中,关于女性群体的句子中“攻击性”标签的比例明显高于男性群体,换言之,在数据集中,包含女性群体的句子的类别标签是“攻击性”的概率更高。这种偏差导致用这些数据集训练的模型可能会把“你是个好女人”误判为“攻击性”,尽管这句话明显没有任何攻击性。这种歧视性预测的一个直接结果是女性群体有关的言论可能会受到更多限制,导致了模型对女性的歧视。
相关技术中的文本分类模型得到的分类结果含有群体歧视,偏差较大,准确性较低。
因此,需要一种新的文本分类模型的训练方法及装置、电子设备和计算机可读存储介质。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开实施例提供一种文本分类模型的训练方法及装置、电子设备和计算机可读存储介质,训练得到的文本分类模型能够至少在一定程度上减轻分类结果中的群体歧视,提高模型分类的准确性。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供一种文本分类模型的训练方法,该方法包括:获取训练文本及其类别标签信息和群体标签信息;通过第一神经网络模型对训练文本进行处理,并根据训练文本的类别标签信息获得第一神经网络模型的初始网络参数;通过第二神经网络模型和包括初始网络参数的第一神经网络模型对训练文本进行处理,获得训练文本的第一预测群体信息;根据训练文本的群体标签信息及其第一预测群体信息对抗训练第一神经网络模型和第二神经网络模型,以使得第二神经网络模型识别出训练文本中的目标群体信息,并利用第一神经网络模型去除目标群体信息,确定第一神经网络模型的目标网络参数,将包括目标网络参数的第一神经网络模型确定为文本分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010514986.X/2.html,转载请声明来源钻瓜专利网。