[发明专利]文本分类方法、装置、计算机设备及存储介质有效
申请号: | 201910853548.3 | 申请日: | 2019-09-10 |
公开(公告)号: | CN110597991B | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 缪畅宇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 计算机 设备 存储 介质 | ||
本申请是关于一种文本分类方法,涉及自然语言处理技术领域。该方法包括:生成包含至少两条待分类文本的长文本;通过自注意力子模型对长文本进行处理,获得长文本中的各个词的融合词向量,自注意力子模型用于在各个词的原始词向量中融合各个词之间的关联关系;通过输出子模型对长文本中的各个词的融合词向量进行处理,获得至少两条待分类文本的分类结果。本方案实现在基于多文本分类的人工智能场景下,对不同的待识别文本之间进行词的关联关系融合,在通过输出子模型进行分类的过程中,可以实现结合各个待分类文本之间的关联关系进行文本分类,扩展了文本分类的信息依据,提高了多文本分类的准确性。
技术领域
本申请实施例涉及自然语言处理技术领域,特别涉及一种文本分类方法、装置、计算机设备及存储介质。
背景技术
多文本分类是自然语言处理中的一项重要环节,广泛应用于情感分析、问答匹配、搜索引擎等场景。
多文本分类通常是指通过分类模型从多条文本中找出目标文本的应用。在相关技术中,用于多文本分类的分类模型通常由输出层以及并列的多组编码器组成,在进行文本分类时,通过多组编码器对多条文本并列进行编码,每组编码器负责编码一条文本,获得每条文本的句向量,然后通过输出层对多条文本的句向量进行统一处理,输出多条文本各自属于目标文本的概率(即分类结果)。
然而,相关技术中的方案通过多组编码器对多条文本并列进行编码,每条文本的句向量只表示对应当前文本的特征,导致句向量所携带的信息较为单薄,影响文本分类的准确性。
发明内容
本申请实施例提供了一种文本分类方法、装置、计算机设备及存储介质,可以提高文本分类的准确性,技术方案如下:
一方面,提供了一种文本分类方法,所述方法包括:
获取至少两条待分类文本,每条所述待分类文本中包含至少一个词;
生成包含所述至少两条待分类文本的长文本;
通过分类模型中的自注意力子模型对所述长文本进行处理,获得所述长文本中的各个词的融合词向量,所述自注意力子模型用于在所述各个词的原始词向量中融合所述各个词之间的关联关系;
通过所述分类模型中的输出子模型对所述长文本中的各个词的融合词向量进行处理,获得所述至少两条待分类文本的分类结果;所述分类结果用于指示所述至少两条待分类文本中的目标文本;
其中,所述分类模型是通过训练数据集训练获得的模型,所述训练数据集中包含至少两条训练数据,每条所述训练数据包括由至少一个正样本文本和至少一个负样本文本组成的长文本样本,以及所述长文本样本的标注结果。
另一方面,提供了一种文本分类装置,所述装置包括:
文本获取模块,用于获取至少两条待分类文本,每条所述待分类文本中包含至少一个词;
长文本生成模块,用于生成包含所述至少两条待分类文本的长文本;
第一模型处理模块,用于通过分类模型中的自注意力子模型对所述长文本进行处理,获得所述长文本中的各个词的融合词向量,所述自注意力子模型用于在所述各个词的原始词向量中融合所述各个词之间的关联关系;
第二模型处理模块,用于通过所述分类模型中的输出子模型对所述长文本中的各个词的融合词向量进行处理,获得所述至少两条待分类文本的分类结果;所述分类结果用于指示所述至少两条待分类文本中的目标文本;
其中,所述分类模型是通过训练数据集训练获得的模型,所述训练数据集中包含至少两条训练数据,每条所述训练数据包括由至少一个正样本文本和至少一个负样本文本组成的长文本样本,以及所述长文本样本的标注结果。
可选的,所述自注意力子模型中包含依次相连的至少两个自注意力编码器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910853548.3/2.html,转载请声明来源钻瓜专利网。