[发明专利]一种文本分类方法、装置、设备及存储介质在审
申请号: | 202111063727.0 | 申请日: | 2021-09-10 |
公开(公告)号: | CN113886577A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 于翠翠;王伟;黄勇其;张黔 | 申请(专利权)人: | 润联软件系统(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/284;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 汪琳琳 |
地址: | 518000 广东省深圳市福田区梅林街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 设备 存储 介质 | ||
1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本数据;
将所述待分类文本数据进行关键词抽取,以得到字词信息,根据字词信息进行编码,得到对应的位置信息;
将所述字词信息和位置信息分别进行嵌入处理,并将经所述嵌入处理后得到的向量进行合并,得到文本矩阵;
所述文本矩阵经预训练的分类模型处理,得到第一标签概率分布和第二标签概率分布,所述预训练的分类模型中包括掩码多头注意力结构;
基于所述第一标签概率分布和第二标签概率分布,确定所述待分类文本数据的所属类别。
2.根据权利要求1所述的文本分类方法,其特征在于,所述文本矩阵经预训练的分类模型处理包括:
通过所述预训练的分类模型中的归一化层,对所述文本矩阵进行归一化处理,得到第一矩阵;
所述第一矩阵通过所述预训练的分类模型中的掩码多头注意力结构进行信息提取处理,得到包含有待分类文本数据上下文信息的第二矩阵;
将所述文本矩阵和所述第二矩阵进行残差连接,得到第三矩阵,再通过所述预训练的分类模型中的归一化层,对所述第三矩阵进行归一化处理,得到第四矩阵;
通过所述预训练的分类模型中的前馈网络层对所述第四矩阵进行映射处理,得到第五矩阵;
所述第五矩阵通过所述预训练的分类模型中的激活函数层处理,得到第六矩阵,并将所述第六矩阵与所述第四矩阵进行残差连接,得到第七矩阵,通过所述预训练的分类模型中的归一化层,对所述第七矩阵进行归一化处理,得到第八矩阵;
对所述第八矩阵分别进行两次线性变换,得到第一标签矩阵和第二标签矩阵;
通过所述分类模型中的Softmax层,对所述第一标签矩阵和第二标签矩阵进行映射,得到所述第一标签概率分布和第二标签概率分布。
3.根据权利要求2所述的文本分类方法,其特征在于,所述第一矩阵通过所述预训练的分类模型中的掩码多头注意力结构进行信息提取处理,得到包含有待分类文本数据上下文信息的第二矩阵包括:
将所述第一矩阵分别与预训练后得到的多批次的参数矩阵相乘,得到多批次的Q矩阵、K矩阵和V矩阵;
通过将每批的所述Q矩阵与所述K矩阵进行点乘,将点乘得到的第一结果再除以所述Q矩阵对应维度的开方,得到第二结果,将所述第二结果与掩码矩阵相加后再经Softmax计算,得到权重矩阵,所述掩码矩阵基于所述字词信息构建得到;
将所述权重矩阵与对应批次的所述V矩阵相乘,得到每批次第九矩阵;
通过将所有批次的第九矩阵进行拼接,并将拼接后的矩阵通过线性变换,得到所述第二矩阵。
4.根据权利要求1所述的文本分类方法,其特征在于,所述基于所述第一标签概率分布和第二标签概率分布,确定所述待分类文本数据的所属类别包括:
获取所述第一标签概率分布中概率最大值对应的标签,并判断所述概率最大值是否大于等于预设数值;
若所述概率最大值小于所述预设数值,则将所述第二标签概率分布中概率最大值对应的标签,作为所述待分类文本数据所属的类别,并将所述第二标签概率分布中概率最大值对应的标签保存至标签词表中;
若所述概率最大值大于等于所述预设数值,则将所述第一标签概率分布中概率最大值对应的标签,作为所述待分类文本数据所属的类别。
5.根据权利要求1所述的文本分类方法,其特征在于,所述将所述待分类文本数据进行关键词抽取包括:
利用结巴分词对所述待分类文本数据进行分词处理,得到对应的多个字词;
利用关键词抽取算法对多个所述字词进行关键词抽取,抽取预设比例的关键词,并用掩码代替所述多个字词中的所述关键词。
6.根据权利要求5所述的文本分类方法,其特征在于,所述将所述待分类文本数据进行关键词抽取,以得到字词信息,根据字词信息进行编码,得到对应的位置信息包括:
基于所述关键词抽取算法得到的所述关键词的权重,对所述关键词进行排序,且在每个所述关键词前设定标识符,得到关键词信息;
将包含所述掩码的多个字词组成的信息与关键词信息进行合并,得到字词信息;
根据所述字词信息,进行位置编码,得到对应的位置信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于润联软件系统(深圳)有限公司,未经润联软件系统(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111063727.0/1.html,转载请声明来源钻瓜专利网。