[发明专利]一种文本分类方法、装置及计算机设备有效
申请号: | 201910568634.X | 申请日: | 2019-06-27 |
公开(公告)号: | CN110362684B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 吴俊江;雷植程 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/38 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;贾允 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 计算机 设备 | ||
本发明公开了一种文本分类方法、装置及计算机设备,其中,文本分类方法包括:获取待分类文本以及预设类别标签向量;基于文本分类模型的编码通道对待分类文本进行内容编码处理,得到内容编码向量;根据预设类别标签向量和内容编码向量确定待解码向量;基于文本分类模型的解码通道、目标条件向量和所述解码通道前一时刻所输出的目标类别标签向量对待解码向量解码,得到待分类文本的类别标签;所述目标条件向量为根据内容编码向量和解码通道前一时刻的隐层状态向量确定的向量。本发明提升了捕获待分类文本与类别标签间关系以及类别标签与类别标签间关系的能力,使输出的待分类文本的类别标签更加准确,提升了文本分类的准确率。
技术领域
本发明涉及计算机技术领域,特别涉及一种文本分类方法、装置及计算机设备。
背景技术
相关技术中,将可能同时属于多个类别的文本称之为多标签文本,随着人工智能技术的发展,基于机器学习的多标签文本分类方法被广泛应用。
然而,现有技术一般把多标签任务分为多个单标签二元分类任务,使用待分类文本和类别标签的关系来进行分类,这种分类方法虽然能够捕获到待分类文本与类别标签间的关系,但是忽略了类别标签与类别标签之间的关系,从而导致文本分类的准确性差。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种文本分类方法、装置及计算机设备。所述技术方案如下:
一方面,提供了一种文本分类方法,所述方法包括:
获取待分类文本以及预设类别标签向量;
基于文本分类模型的编码通道对所述待分类文本进行内容编码处理,得到内容编码向量;
根据所述预设类别标签向量和所述内容编码向量,确定待解码向量;
基于所述文本分类模型的解码通道、目标条件向量和所述解码通道前一时刻所输出的目标类别标签向量对所述待解码向量解码,得到所述待分类文本的类别标签;所述目标条件向量为根据所述内容编码向量和所述解码通道前一时刻的隐层状态向量确定的向量。
另一方面,提供了一种文本分类装置,所述装置包括:
第一获取模块,用于获取待分类文本以及预设类别标签向量;
编码模块,用于基于文本分类模型的编码通道对所述待分类文本进行内容编码处理,得到内容编码向量;
第一确定模块,用于根据所述预设类别标签向量和所述内容编码向量,确定待解码向量;
解码模块,用于基于所述文本分类模型的解码通道、目标条件向量和所述解码通道前一时刻所输出的目标类别标签向量对所述待解码向量解码,得到所述待分类文本的类别标签;所述目标条件向量为根据所述内容编码向量和所述解码通道前一时刻的隐层状态向量确定的向量。
可选的,所述编码模块包括:
第一编码模块,用于基于文本分类模型的第一编码通道对所述待分类文本进行第一内容编码处理,得到第一内容编码向量;
第二编码模块,用于基于文本分类模型的第二编码通道对所述第一内容编码向量进行第二内容编码处理,得到第二内容编码向量;
第一组合模块,用于将所述第一内容编码向量和所述第二内容编码向量作为所述内容编码向量。
可选的,所述第一编码模块包括:
分词模块,用于对所述待分类文本进行分词处理,得到所述待分类文本的词序列;
第二确定模块,用于确定所述词序列中词对应的词元素序列,以及所述词序列中词的词性和位置标识;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910568634.X/2.html,转载请声明来源钻瓜专利网。