[发明专利]文本分类方法、装置、设备及存储介质有效

申请号：	202010162814.0	申请日：	2020-03-10
公开（公告）号：	CN111444340B	公开（公告）日：	2023-08-11
发明（设计）人：	王兴光;薛强;李鹏	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/335;G06F16/9535
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	贾允
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本分类方法，其特征在于，包括：

获取待分类文本；

将所述待分类文本输入到分类模型进行分类处理，得到所述待分类文本的预测结果，所述分类模型包括多个不同的向量提取模型和与每个所述向量提取模型一一对应的输出子模型，每个所述向量提取模型用于从所述待分类文本中提取不同的融合词向量，所述输出子模型用于对所述融合词向量进行分类得到所述预测结果，所述预测结果包括多个标签种类；所述向量提取模型包括BERT模型，所述分类模型按照如下方式构建：

获取历史文本数据，将所述历史文本数据分为训练集和验证集；

利用所述训练集和验证集按照训练学习算法初步构建得到所述多个BERT模型中的第一个BERT模型和与之对应的第一输出子模型，并得到验证结果；所述验证结果包括对历史文本数据预测正确的标签对应的概率；

基于所述验证结果中预测正确的标签删除所述验证集中预测正确的标签，得到新的验证集；所述新的验证集中包括未预测正确的标签；

利用所述训练集和所述新的验证集按照训练学习算法构建得到多个BERT模型中的第二BERT模型和与之对应的第二输出子模型，并得到新的验证结果；

返回对所述验证集进行删除处理得到新的验证集的步骤依次执行，直到构建得到多个BERT模型和每个所述BERT模型一一对应的输出子模型。

2.根据权利要求1所述的文本分类方法，其特征在于，所述向量提取模型包括BERT模型，所述将所述待分类文本输入到分类模型，得到所述待分类文本的预测结果，包括：

将所述待分类文本的字或词同步地输入到所述多个不同的BERT模型中的每一个，得到与每一个BERT模型相对应的融合词向量；

通过与每个BERT模型一一对应的输出子模型，对与每个BERT模型相对应的融合词向量进行分类处理，得到所述待分类文本的预测结果。

3.根据权利要求2所述的文本分类方法，其特征在于，每个所述BERT模型包括依次相连的多个注意力机制模型，对于每个所述BERT模型，将所述待分类文本的字或词输入到每个BERT模型，得到与每个BERT模型相对应的融合词向量包括以下步骤：

利用所述待分类文本的属性信息对所述待分类文本的字或词进行分隔处理，得到与所述属性信息相对应的初始词向量；

将所述初始词向量输入到所述多个注意力机制模型，得到与每个所述BERT模型相对应的所述融合词向量。

4.根据权利要求2所述的文本分类方法，其特征在于，每个所述输出子模型包括全连接层和激活函数，通过与每个BERT模型一一对应的输出子模型，对与每个BERT模型相对应的融合词向量进行分类处理，得到所述待分类文本的预测结果，包括：