[发明专利]一种基于生成式多任务学习模型的文本分类方法有效

申请号：	201910648695.7	申请日：	2019-07-18
公开（公告）号：	CN110347839B	公开（公告）日：	2021-07-16
发明（设计）人：	谢松县;高辉;陈仲生;彭立宏	申请（专利权）人：	湖南数定智能科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	长沙国科天河知识产权代理有限公司 43225	代理人：	董惠文
地址：	410000 湖南省长沙市高***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于生成任务学习模型文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明构建一种基于生成式多任务学习模型的文本分类方法，通过训练集根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码，解码获得与编码时刻特征向量相关的当前时刻语义特征并进行训练；根据训练结果和真实标签集对多任务分类模型进行优化，获得优化多任务分类模型；将待测集中的数据输入上述优化多任务分类模型，分别获得分类标签从而完成分类；上述模型在训练过程中通过多任务机制构建了多标签分类模型与层次分类模型之间的语义关联性，因此可以增强两个子任务预测结果之间的语义关联，从而达到提升子任务分类性能目的。

技术领域

本发明属于自然语言处理文本分类技术领域，尤其涉及一种基于生成式多任务学习模型的文本分类方法。

背景技术

文本多标签分类和层次分类是在实际应用中经常需要解决的问题，也是文本分类任务重要的两个分支以及当前的研究热点。在实际应用中许多数据具有多义性，一个实例可能对应标签集中的多个类别标签，文本多标签分类的目的就是为文本到标签集建立起一对多的关联。相对于传统的单标签分类，多标签分类是一种更符合真实应用场景的方法。比如在公安业务场景中，案件的受理过程会产生大量案件的警情文本，一般需要人工来标注标签，以方便理解和检索，从而为后续案件研判和侦破提供数据服务。

实际应用往往需要对一个文本既进行多标签分类，又进行层次分类。与传统的单分类任务相比，多标签分类和层次分类任务更加复杂，现有研究重点关注如何对样本到标签之间的一对多映射进行建模；同时，由于多标签分类任务中的标签往往存在较强的语义关系，而层次分类标签之间存在父子或兄弟关系，可以充分利用标签之间的语义关系来提高分类效果。针对文本多标签分类和层次分类双重任务问题，目前的常规解决方案是分别训练一个多标签分类模型和一个层次分类模型，然后进行独立预测，但这种方案可能导致预测结果之间缺乏必要的语义关联。

发明内容

本发明提出了一种基于生成式多任务学习模型的文本分类方法，用于克服现有技术中多种分类模型中缺乏语义关联导致分类效果难以综合优化的缺陷，本发明利用多任务学习把多标签分类任务和层次分类任务整合到一个多任务分类模型之中，从而达到提升子任务分类性能目的。

为实现上述目的，本发明提供一种基于生成式多任务学习模型的文本分类方法，包括如下步骤：

S1.对训练集中的各文本语料按照多标签分类和层次分类分别进行标定各自构建真实标签集；

S2.基于多任务学习机制构建多任务分类模型，通过训练集根据共享编码器进行编码，根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码并得到训练分类标签；

S3.根据训练分类标签和真实标签计算损失值，并采用多标签分类任务和层次分类任务交替训练的方法对模型进行优化训练，获得优化分类模型；

S4.将待测试集的各文本语料输入优化模型获得预测分类标签。

采用本发明可以达到以下技术效果：

本发明首先构建训练集，对训练集中的文本语料进行预处理和分类标注，根据多标签分类标准和层次分类标准针对训练集分别构目标建标签集；基于多任务学习机制构建了一个多任务分类模型，通过训练集根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码，解码获得与编码时刻特征向量相关的当前时刻语义特征，用来衡量编码器中第i时刻的特征向量和解码时第t时刻的相关性，并进行训练；根据训练结果和真实标签集对多任务分类模型进行优化，获得优化多任务分类模型；将待测集中的数据(没有标定的文本语料)输入上述优化多任务分类模型，分别获得分类标签；上述模型在训练过程中通过多任务机制构建了多标签分类模型与层次分类模型之间的语义关联性，因此可以增强两个子任务预测结果之间的语义关联，从而达到提升子任务分类性能目的。

附图说明

图1为本发明一种基于生成式多任务学习模型的文本分类方法的工作流程示意图；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖南数定智能科技有限公司，未经湖南数定智能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910648695.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种心血管疾病非计划再住院风险预测方法
下一篇：投诉文本类别的预测方法、系统、设备和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于生成式多任务学习模型的文本分类方法有效

专利文献下载