[发明专利]文本分类方法、装置、计算机设备及存储介质有效
申请号: | 201910853548.3 | 申请日: | 2019-09-10 |
公开(公告)号: | CN110597991B | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 缪畅宇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 计算机 设备 存储 介质 | ||
1.一种文本分类方法,其特征在于,所述方法包括:
获取至少两条待分类文本,每条所述待分类文本中包含至少一个词;
生成包含所述至少两条待分类文本的长文本;
对所述长文本进行向量映射,获得所述长文本中的各个词的原始词向量;
通过分类模型中的自注意力子模型中的自注意力编码器,对所述长文本中的各个词的原始词向量进行处理,获得所述长文本中的各个词的融合词向量,所述自注意力子模型用于在所述各个词的原始词向量中融合所述各个词之间的关联关系;
通过所述分类模型中的输出子模型对所述长文本中的各个词的融合词向量进行处理,获得所述至少两条待分类文本的分类结果;所述分类结果用于指示所述至少两条待分类文本中的目标文本;
其中,所述分类模型是通过训练数据集训练获得的模型,所述训练数据集中包含至少两条训练数据,每条所述训练数据包括由至少一个正样本文本和至少一个负样本文本组成的长文本样本,以及所述长文本样本的标注结果。
2.根据权利要求1所述的方法,其特征在于,所述生成包含所述至少两条待分类文本的长文本,包括:
对所述至少两条待分类文本进行首尾拼接,获得所述长文本。
3.根据权利要求1所述的方法,其特征在于,所述自注意力子模型中包含依次相连的至少两个自注意力编码器;
所述通过分类模型中的自注意力子模型中的自注意力编码器,对所述长文本中的各个词的原始词向量进行处理,获得所述长文本中的各个词的融合词向量,包括:
将所述长文本中的各个词的原始词向量输入所述至少两个自注意力编码器中的第一个自注意力编码器,获得所述至少两个自注意力编码器中的最后一个自注意力编码器输出的,所述长文本中的各个词的融合词向量。
4.根据权利要求3所述的方法,其特征在于,每个所述自注意力编码器中包含自注意力层和前向传播层;
所述将所述长文本中的各个词的原始词向量输入所述至少两个自注意力编码器中的第一个自注意力编码器,获得所述至少两个自注意力编码器中的最后一个自注意力编码器输出的,所述长文本中的各个词的融合词向量,包括:
通过目标自注意力编码器中的自注意力层对输入的所述各个词的词向量进行融合,获得融合后的所述各个词的词向量;所述目标自注意力编码器是所述至少两个自注意力编码器中的任意一个自注意力编码器;
通过所述目标自注意力编码器中的前向传播层对融合后的所述各个词的词向量进行前向传播处理,获得前向传播处理后的所述各个词的词向量;
将前向传播处理后的所述各个词的词向量输入所述分类模型中的下一层。
5.根据权利要求1所述的方法,其特征在于,所述输出子模型包括全连接层和激活函数;
所述通过所述分类模型中的输出子模型对所述长文本中的各个词的融合词向量进行处理,获得所述至少两条待分类文本的分类结果,包括:
通过所述全连接层对所述长文本中的各个词的融合词向量进行处理;
根据所述全连接层的处理结果获取所述至少两条待分类文本各自的句向量;
通过所述激活函数对所述至少两条待分类文本各自的句向量进行处理,获得所述分类结果。
6.根据权利要求5所述的方法,其特征在于,所述全连接层的处理结果包含所述长文本中的各个词的全连接处理向量;
所述根据所述全连接层的处理结果获取所述至少两条待分类文本各自的句向量,包括:
按照所述至少两条待分类文本中每个待分类文本的词在所述长文本中的位置,对所述长文本中的各个词的全连接处理向量进行划分,获得所述至少两条待分类文本各自的句向量。
7.根据权利要求1所述的方法,其特征在于,所述长文本样本是由至少一个正样本文本和至少一个负样本文本按照随机顺序首尾拼接获得的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910853548.3/1.html,转载请声明来源钻瓜专利网。