[发明专利]文本分类方法、装置、电子设备及存储介质在审
申请号: | 202010642661.X | 申请日: | 2020-07-06 |
公开(公告)号: | CN111930938A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 陈程;王贺;陈明 | 申请(专利权)人: | 武汉卓尔数字传媒科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06N3/04 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 刘欣;张颖玲 |
地址: | 430000 湖北省武汉市东湖新技术开发*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 电子设备 存储 介质 | ||
本发明实施例适用于自然语言处理技术领域,提供了一种文本分类方法、装置、电子设备及存储介质,其中,文本分类方法包括:确定待分类文本对应的词向量矩阵;所述词向量矩阵由至少两个词向量组成;所述至少两个词向量中的每个词向量对应所述待分类文本的分词结果中的一个分词;确定所述词向量矩阵对应的特征向量;所述特征向量表征的特征包括:与所述待分类文本中的分词的词序相关的特征以及与所述待分类文本中的分词的语义相关的特征;基于所述特征向量对所述待分类文本进行分类。
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种文本分类方法、装置、电子设备及存储介质。
背景技术
文本分类是自然语言处理的一个常见任务,文本分类指按照一定的分类体系或标准对文本进行分类标记。目前,相关技术通过文本分类模型来对文本进行分类,使用的文本分类模型的文本分类准确率不高。
发明内容
有鉴于此,本发明实施例提供一种文本分类方法、装置、电子设备及存储介质,以至少解决相关技术中文本分类模型的文本分类准确率不高的问题。
本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供了一种文本分类方法,该方法包括:
确定待分类文本对应的词向量矩阵;所述词向量矩阵由至少两个词向量组成;所述至少两个词向量中的每个词向量对应所述待分类文本的分词结果中的一个分词;
确定所述词向量矩阵对应的特征向量;所述特征向量表征的特征包括:与所述待分类文本中的分词的词序相关的特征以及与所述待分类文本中的分词的语义相关的特征;
基于所述特征向量对所述待分类文本进行分类。
上述方案中,所述确定所述词向量矩阵对应的特征向量时,所述方法包括:
将词向量矩阵输入第一设定模型,得到至少一个第一特征;
将所述至少一个第一特征输入第二设定模型,得到所述特征向量。
上述方案中,所述第一特征用于表征与所述待分类文本中的分词的词序相关的特征,并且所述第一设定模型基于双向长短时记忆网络Bi-LSTM模型训练得到,所述第二设定模型基于胶囊网络CapsNet模型训练得到;或者,
所述第一特征用于表征与所述待分类文本中的分词的语义相关的特征,并且所述第一设定模型基于CapsNet模型训练得到,所述第二设定模型基于Bi-LSTM模型训练得到。
上述方案中,所述确定所述词向量矩阵对应的特征向量时,所述方法包括:
将词向量矩阵输入第一设定模型,得到至少一个第一特征;所述第一特征表征所述待分类文本中的分词的词序相关的特征;
将词向量矩阵输入第三设定模型,得到至少一个第二特征;所述第二特征表征与所述待分类文本中的分词的语义相关的特征;
对所述至少一个第一特征和所述至少一个第二特征进行加权求和,得到词向量矩阵对应的特征向量。
上述方案中,所述第一设定模型基于Bi-LSTM模型训练得到,所述第三设定模型基于CapsNet模型训练得到。
上述方案中,所述确定待分类文本对应的词向量矩阵,包括:
对所述待分类文本进行分词,得到所述待分类文本的分词集合;
将所述分词集合输入第三模型,得到所述词向量矩阵;所述词向量矩阵中的词向量中包含了对应的分词的结构信息;所述结构信息表征与对应的分词在所述待分类文本中的文本位置相关的信息。
上述方案中,所述基于所述特征向量对所述待分类文本进行分类,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉卓尔数字传媒科技有限公司,未经武汉卓尔数字传媒科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010642661.X/2.html,转载请声明来源钻瓜专利网。