[发明专利]文本分类预测方法、装置、设备及存储介质在审
申请号: | 202110734767.7 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113326379A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 刘广 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;曹勇 |
地址: | 518000 广东省深圳市福田区福田街道益田路5033号平安*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 预测 方法 装置 设备 存储 介质 | ||
本申请涉及人工智能技术领域,揭示了一种文本分类预测方法、装置、设备及存储介质,其中方法包括:获取目标文本数据;将所述目标文本数据输入目标文本分类模型进行文本分类预测,其中,所述目标文本分类模型是根据生成子模型、判别子模型、Bert模型、全连接层、Softmax激活函数和MLM训练方法训练得到的模型;获取所述目标文本分类模型输出的目标文本分类预测结果。从而确定具有优秀的泛化能力的目标文本分类模型,提高了目标文本分类模型对目标文本数据进行文本分类预测的成功率。
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种文本分类预测方法、装置、设备及存储介质。
背景技术
过拟合是我们试图将机器学习技术应用于文本分类时遇到的主要问题之一,出现这个问题是因为使用标记好的文本来训练文本分类模型,比如,对机构G的新闻情感进行分类,我们需要该机构历史上的新闻数据并且进行新闻情感标记。发明人发现并非所有情感表达在已有的标记好的文本中都能有很好的体现。事实上,很多大量使用的新的情感表达通常都没有得到充分的体现,导致训练后的文本分类模型的泛化不好,当泛化不好的文本分类模型面对新的应用场景时,可能会出现分类预测失败。
发明内容
本申请的主要目的为提供一种文本分类预测方法、装置、设备及存储介质,旨在解决现有技术使用标记好的文本来训练文本分类模型时,因训练样本数量太少,导致很多大量使用的新的情感表达通常都没有得到充分的体现,导致训练后的文本分类模型的泛化不好的技术问题。
为了实现上述发明目的,本申请提出一种文本分类预测方法,所述方法包括:
获取目标文本数据;
将所述目标文本数据输入目标文本分类模型进行文本分类预测,其中,所述目标文本分类模型是根据生成子模型、判别子模型、Bert模型、全连接层、Softmax激活函数和MLM训练方法训练得到的模型;
获取所述目标文本分类模型输出的目标文本分类预测结果。
进一步的,所述将所述目标文本数据输入目标文本分类模型进行文本分类预测的步骤之前,还包括:
获取第一分类训练样本集合,所述第一分类训练样本集合中每个第一分类训练样本包括:第一句子样本文本和第一句子真实性标定数据;
采用迭代优化训练方法,根据所述第一分类训练样本集合,对所述生成子模型和所述判别子模型进行对抗训练,将对抗训练结束的所述生成子模型作为句子生成模型,其中,所述生成子模型是基于循环神经网络得到的模型,所述判别子模型是基于全连接网络或卷积神经网络得到的模型;
获取多个待预测的语言片段;
采用预测和拼接迭代的方法,分别将所述多个待预测的语言片段中的每个待预测的语言片段输入所述句子生成模型进行句子生成,得到多个生成句子文本;
获取所述多个生成句子文本中的各个生成句子文本各自对应的分类标定数据,根据所述多个生成句子文本和各个所述分类标定数据进行样本生成,得到多个生成句子样本;
获取多个待扩充的分类训练样本,将所述多个待扩充的分类训练样本和所述多个生成句子样本作为第二分类训练样本集合;
采用MLM训练方法,根据所述第二分类训练样本集合对文本分类初始模型进行训练,将训练结束的所述文本分类初始模型作为所述目标文本分类模型,其中,所述文本分类初始模型是基于所述Bert模型、所述全连接层和所述Softmax激活函数得到的模型。
进一步的,所述采用MLM训练方法,根据所述第二分类训练样本集合对文本分类初始模型进行训练,将训练结束的所述文本分类初始模型作为所述目标文本分类模型的步骤,包括:
从所述第二分类训练样本集合中提取一个第二分类训练样本作为目标分类训练样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110734767.7/2.html,转载请声明来源钻瓜专利网。