[发明专利]一种文本分类方法、装置、存储介质及终端设备在审
申请号: | 201811551426.0 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109726285A | 公开(公告)日: | 2019-05-07 |
发明(设计)人: | 徐波 | 申请(专利权)人: | 广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 麦小婵;郝传鑫 |
地址: | 510000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本特征向量 文本 文本分类 待分类文本 终端设备 新文本 计算机可读存储介质 预处理 神经网络模型 文本分类装置 标点符号 存储介质 分类文本 机器学习 数据增强 数学符号 文本获取 连接层 数据量 预设 预测 | ||
1.一种文本分类方法,其特征在于,包括:
对待分类文本中数据量小于预设阈值的文本进行数据增强,获得新文本;
对所述待分类文本和所述新文本进行预处理,获得处理后的文本;
根据所述处理后的文本的文本长度和符号个数获取所述处理后的文本的第一文本特征向量;其中,所述符号包括标点符号和数学符号;
基于预先训练的神经网络模型,根据所述处理后的文本获取第二文本特征向量;
基于全连接层和softmax层,根据所述第一文本特征向量和所述第二文本特征向量对所述待分类文本的类别进行预测。
2.如权利要求1所述的文本分类方法,其特征在于,所述对待分类文本中数据量小于预设阈值的文本进行数据增强,获得新文本,具体包括:
基于预先训练的第一翻译模型,根据所述待分类文本中数据量小于预设阈值的文本获取第一语种文本;
基于预先训练的第二翻译模型,根据所述第一语种文本获取所述新文本;其中,所述新文本对应的语种与所述数据量小于预设阈值的文本对应的语种相同。
3.如权利要求2所述的文本分类方法,其特征在于,所述第一翻译模型为中英翻译模型;所述第二翻译模型为英中翻译模型。
4.如权利要求1所述的文本分类方法,其特征在于,所述对所述待分类文本和所述新文本进行预处理,获得处理后的文本,具体包括:
对所述待分类文本和所述新文本进行结巴中文分词、去除停用词处理,获得所述处理后的文本。
5.如权利要求1所述的文本分类方法,其特征在于,所述神经网络模型包括循环神经网络、一维卷积神经网络和池化神经网络。
6.如权利要求5所述的文本分类方法,其特征在于,所述基于预先训练的神经网络模型,根据所述处理后的文本获取第二文本特征向量,具体包括:
获取所述处理后的文本中的每个词的fastText词向量;
基于所述循环神经网络,根据所述fastText词向量获取每个所述fastText词向量的上下文向量;
基于所述一维卷积神经网络,根据所述fastText词向量以及所述上下文向量获取文本特征矩阵;
基于所述池化神经网络,根据所述文本特征矩阵获取所述第二文本特征向量。
7.如权利要求1所述的文本分类方法,其特征在于,所述基于全连接层和softmax层,根据所述第一文本特征向量和所述第二文本特征向量对所述待分类文本的类别进行预测,具体包括:
对所述第一文本特征向量和所述第二文本特征向量进行连接,获取组合特征向量;
基于所述全连接层和所述softmax层,根据所述组合特征向量获取一维输出向量;其中,所述一维输出向量中的元素与预设的所述待分类文本的类别相对应;每一所述元素的大小表示所述待分类文本为对应类别的概率;
根据所述一维输出向量对所述待分类文本的类别进行预测。
8.一种文本分类装置,其特征在于,包括:
文本数据增强模块,用于对待分类文本中数据量小于预设阈值的文本进行数据增强,获得新文本;
文本预处理模块,用于对所述待分类文本和所述新文本进行预处理,获得处理后的文本;
第一文本特征向量获取模块,用于根据所述处理后的文本的文本长度和符号个数获取所述处理后的文本的第一文本特征向量;其中,所述符号包括标点符号和数学符号;
第二文本特征向量获取模块,用于基于预先训练的神经网络模型,根据所述处理后的文本获取第二文本特征向量;以及,
文本类别预测模块,用于基于全连接层和softmax层,根据所述第一文本特征向量和所述第二文本特征向量对所述待分类文本的类别进行预测。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至7中任一项所述的文本分类方法。
10.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1至7中任一项所述的文本分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司,未经广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811551426.0/1.html,转载请声明来源钻瓜专利网。