[发明专利]文本多分类模型的生成方法、文本处理方法、设备及介质在审

申请号：	201910783719.X	申请日：	2019-08-23
公开（公告）号：	CN112417145A	公开（公告）日：	2021-02-26
发明（设计）人：	陈明;刘阳兴	申请（专利权）人：	武汉TCL集团工业研究院有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/04;G06N3/08
代理公司：	深圳市君胜知识产权代理事务所(普通合伙) 44268	代理人：	王永文;陈专
地址：	430000 湖北省武汉市东湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类模型生成方法处理设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及文本多分类模型的生成方法、文本处理方法、设备及介质；所述文本多分类模型的生成方法包括：获取训练数据，所述训练数据包括文本和真实标签，所述真实标签表示所述文本的分类；将文本输入文本分类模型，以得到预测标签，其中，所述预测标签表示所述文本的类别；根据所述文本、所述真实标签和所述预测标签调整所述文本分类模型的参数，并重新执行所述将所述文本输入文本分类模型的步骤，直至满足预设训练条件，以得到已训练的文本分类模型。通过本方法得到文本多分类模型，使得文本分类精度得到提高。

技术领域

本申请涉及文本分类技术领域，特别是涉及一种文本多分类模型的生成方法及文本处理方法。

背景技术

自然语言处理(Nature Language Processing，简称为NLP)是人工智能的一个子领域，通常分为四大类任务：序列标注，分类任务，关系判断，以及生成式任务，训练自然语言处理模型对提升自然语言处理的任务结果的精度有着重要作用，这是因为通过训练得到了合适的词向量，合适的词向量使自然语言处理的任务结果的精度得到改善。

传统的基于深度学习方法对多标签文本分类任务进行处理时，大部分是基于卷积神经网络(Convolutional Neural Networks，简称为CNN)或者循环神经网络(RecurrentNeural Network，简称为RNN)来对文本进行分类，或者基于非动态词向量或者词向量对文本进行分类，而词向量或者词向量并不能根据它的上下文去改变，信息比较单一，从而导致对文本分类精度不够高。

因此，现有技术有待改进。

发明内容

本发明要解决的技术问题是，提供一种文本多分类模型以及文本的处理方法，使得文本分类的精度提高。

第一方面，本发明实施例提供了一种文本多分类模型的生成方法，所述方法包括：

获取训练数据，所述训练数据包括文本和真实标签，所述真实标签表示所述文本的分类；

将文本输入文本分类模型，以得到预测标签，其中，所述预测标签表示所述文本的类别；

根据所述文本、所述真实标签和所述预测标签调整所述文本分类模型的参数，并重新执行所述将所述文本输入文本分类模型的步骤，直至满足预设训练条件，以得到已训练的文本分类模型。

所述文本分类模型包括：第一模块、第二模块、第三模块和第四模块；将文本输入文本分类模型，以得到预测标签包括：

将所述文本输入所述第一模块，得到所述文本的第一特征；

将所述第一特征分别输入所述第二模块和所述第三模块，得到所述第二输出和第三输出；

将所述第二输出和所述第三输出进行拼接，得到第四输出；

将所述第四输出输入所述第四模块，得到所述预测标签。