[发明专利]一种文本分类方法、装置及计算机设备有效
申请号: | 201910568634.X | 申请日: | 2019-06-27 |
公开(公告)号: | CN110362684B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 吴俊江;雷植程 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/38 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;贾允 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 计算机 设备 | ||
1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本以及预设类别标签向量;
对所述待分类文本进行分词处理,得到所述待分类文本的词序列;
确定所述词序列中词对应的词元素序列,以及所述词序列中词的词性和位置标识;
将所述词序列中的词、所述词元素序列中的词元素、所述词序列中词的词性和位置标识映射为对应的向量,得到所述待分类文本的词向量、词元素向量、词性向量和位置向量;
对所述待分类文本的词向量、词元素向量、词性向量和位置向量进行组合,得到所述待分类文本的特征向量;
基于文本分类模型的第一编码通道对所述待分类文本的特征向量进第一内容编码处理,得到第一内容编码向量;
基于文本分类模型的第二编码通道对所述第一内容编码向量进行第二内容编码处理,得到第二内容编码向量;
将所述第一内容编码向量和所述第二内容编码向量作为内容编码向量;
根据所述预设类别标签向量和所述内容编码向量,确定待解码向量;
基于所述文本分类模型的解码通道、目标条件向量和所述解码通道前一时刻所输出的目标类别标签向量对所述待解码向量解码,得到所述待分类文本的类别标签;所述目标条件向量为根据所述内容编码向量和所述解码通道前一时刻的隐层状态向量确定的向量。
2.根据权利要求1所述的文本分类方法,其特征在于,所述对所述待分类文本的词向量、词元素向量、词性向量和位置向量进行组合,得到所述待分类文本的特征向量包括:
根据所述词序列中词对应的词元素向量,确定所述词序列中词对应的词元素组合向量;
将所述词序列中每个词对应的词向量、词元素组合向量、词性向量和位置向量进行加和,得到第一特征向量;
确定所述词向量、词元素组合向量、词性向量和位置向量对应的权重值;
根据所述权重值对所述词序列中每个词对应的词向量、词元素组合向量、词性向量和位置向量进行加权求和,得到第二特征向量;
将所述第一特征向量和第二特征向量进行加和,得到所述待分类文本的特征向量。
3.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述预设类别标签向量和所述内容编码向量,确定待解码向量包括:
确定所述内容编码向量中的目标内容向量;
确定所述目标内容向量与所述预设类别标签向量的第一相似度;
对所述第一相似度进行归一化处理,得到所述预设类别标签向量的第一权重;
根据所述第一权重对所述预设类别标签向量进行加权求和,得到第一注意力度量向量;
根据所述第一注意力度量向量与所述目标内容向量,确定待解码向量。
4.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述内容编码向量和所述解码通道前一时刻的隐层状态向量确定所述目标条件向量包括:
获取前一时刻所述解码通道的隐层状态向量;
确定获取的所述隐层状态向量与所述内容编码向量的第二相似度;
对所述第二相似度进行归一化处理,得到第二权重;
根据所述第二权重对所述内容编码向量进行加权求和,得到第二注意力度量向量,所述第二注意力度量向量作为所述目标条件向量。
5.根据权利要求1所述的文本分类方法,其特征在于,所述基于文本分类模型的第二编码通道对所述第一内容编码向量进行第二内容编码处理,得到第二内容编码向量包括:
通过所述第二编码通道中的卷积神经网络编码器,对所述第一内容编码向量进行局部特征提取;
根据提取的所述局部特征确定所述第二内容编码向量;
其中,所述卷积神经网络编码器的卷积层包括至少一种卷积核。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910568634.X/1.html,转载请声明来源钻瓜专利网。