[发明专利]文本分类模型的训练方法、文本分类方法及其装置在审
申请号: | 202310010897.5 | 申请日: | 2023-01-04 |
公开(公告)号: | CN116049400A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 谭伟;李迪 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06F40/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 孟洋 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 训练 方法 及其 装置 | ||
1.一种文本分类模型的训练方法,包括:
获取第一样本文本和所述第一样本文本的类别标签;
基于所述类别标签获取所述第一样本文本中的关键词;
确定所述类别标签对应的掩码概率,并根据所述类别标签对应的掩码概率、所述关键词和所述第一样本文本,获取第二样本文本;
根据所述第二样本文本和所述类别标签训练初始的文本分类模型,得到训练好的文本分类模型。
2.如权利要求1所述的方法,其中,所述基于所述类别标签获取所述第一样本文本中的关键词,包括:
对所述第一样本文本进行分词处理,并对所述分词处理的结果进行停用词处理,得到所述第一样本文本的分词结果;
对所述类别标签下所述第一样本文本的分词结果中的词进行词频统计,得到所述类别标签下每个词对应的词频;
确定所述类别标签对应的词频阈值;
将所述第一样本文本的分词结果之中所述词频大于或等于所述词频阈值的词,确定为所述第一样本文本中的关键词。
3.如权利要求1所述的方法,其中,所述根据所述类别标签对应的掩码概率、所述关键词和所述第一样本文本,获取第二样本文本,包括:
按照所述类别标签对应的掩码概率,对所述第一样本文本中的所述关键词进行掩码处理;
将经过掩码处理后的第一样本文本,确定为所述第二样本文本。
4.如权利要求3所述的方法,其中,所述按照所述类别标签对应的掩码概率,对所述第一样本文本中的所述关键词进行掩码处理,包括:
以所述类别标签对应的掩码概率,将所述第一样本文本中的所述关键词替换为MASK。
5.如权利要求1所述的方法,其中,所述根据所述第二样本文本和所述类别标签训练初始的文本分类模型,得到训练好的文本分类模型,包括:
将所述第二样本文本输入至初始的文本分类模型;其中,所述初始的文本分类模型为基于Transformer模型构建的;
获取所述文本分类模型输出的分类预测结果;
根据所述预测结果和所述类别标签,获取模型损失值;
根据所述模型损失值对所述文本分类模型进行训练,得到训练好的文本分类模型。
6.一种文本分类方法,包括:
获取待处理文本;
将所述待处理文本输入至预设的文本分类模型,获得所述待处理文本的分类预测结果;
其中,所述文本分类模型为采用如权利要求1至5中任一项所述的训练方法训练得到的模型。
7.一种文本分类模型的训练装置,包括:
第一获取模块,用于获取第一样本文本和所述第一样本文本的类别标签;
第二获取模块,用于基于所述类别标签获取所述第一样本文本中的关键词;
确定模块,用于确定所述类别标签对应的掩码概率;
第三获取模块,用于根据所述类别标签对应的掩码概率、所述关键词和所述第一样本文本,获取第二样本文本;
训练模块,用于根据所述第二样本文本和所述类别标签训练初始的文本分类模型,得到训练好的文本分类模型。
8.如权利要求7所述的装置,其中,所述第二获取模块具体用于:
对所述第一样本文本进行分词处理,并对所述分词处理的结果5进行停用词处理,得到所述第一样本文本的分词结果;
对所述类别标签下所述第一样本文本的分词结果中的词进行词频统计,得到所述类别标签下每个词对应的词频;
确定所述类别标签对应的词频阈值;
将所述第一样本文本的分词结果之中所述词频大于或等于所述0词频阈值的词,确定为所述第一样本文本中的关键词。
9.如权利要求7所述的装置,其中,所述第三获取模块具体用于:
按照所述类别标签对应的掩码概率,对所述第一样本文本中的5所述关键词进行掩码处理;
将经过掩码处理后的第一样本文本,确定为所述第二样本文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310010897.5/1.html,转载请声明来源钻瓜专利网。