[发明专利]一种文本分类方法有效
申请号: | 201810599385.6 | 申请日: | 2018-06-12 |
公开(公告)号: | CN108829818B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 赵莉;姜松浩;张程;赵晓芳;段东圣;杜翠兰 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 | ||
1.一种构建文本分类模型的方法,包括以下步骤:
步骤1:根据文本信息的字、词语和句子的结构特征构建训练样本集,其中,所述训练样本集中的每一条样本数据对应一条文本信息关于词语的特征矩阵A、关于字的特征矩阵B和该条文本信息对应的类别向量O,O的维度与类别数量相同;
步骤2:以所述训练样本集中关于词语的特征矩阵A和关于字的特征矩阵B为输入,以对应的类别向量O为输出,训练深度学习模型,以获得文本分类模型;所述深度学习模型包括第一层双向循环神经网络、第二层双向循环神经网络和分类器,所述第一层双向循环神经网络用作词序列编码器和字序列编码器,以获得词的向量表示和字的向量表示,进而获得文本信息的句子向量si,所述第二层双向循环神经网络用作句子序列编码器,以获得句子向量si的高级特征向量,进而获得文本信息的高级特征向量表示v,所述分类器用于对文本信息的高级特征向量表示v进行分类,其中i为文本信息中句子的索引编号。
2.根据权利要求1所述的方法,其中,在步骤1中,根据以下子步骤构造一条文本信息的关于词语的特征矩阵A和关于字的特征矩阵B:
步骤21:将该条文本信息进行分词处理并将分词结果按顺序排列训练词语向量转换模型,获得该条文本信息关于词语的高维特征表示;
步骤22:将该条文本信息进行分字处理并将分字结果按顺序排列训练字向量转换模型,获得该条文本信息关于字的高维特征表示;
步骤23:根据获得的该条文本信息关于词语的高维特征表示和该条文本信息关于字的高维特征表示以及该条文本信息的字、词语和句子的结构特征构造关于词语的特征矩阵A和关于字的特征矩阵B。
3.根据权利要求2所述的方法,其中,所述词语向量转换模型为Word2Vec词嵌入模型,所述字向量转换模型为Word2Vec字嵌入模型。
4.根据权利要求1所述的方法,其中,在步骤2中通过以下子步骤获得一条文本信息的高级特征向量表示v:
步骤51:将该文本信息的关于词语的特征矩阵A输入到所述第一层双向循环神经网络进行训练,获得基于词向量的句子表示s1i;
步骤52:将该条文本信息的关于字的特征矩阵B输入到所述第一层双向循环神经网络进行训练,获得基于字向量的句子表示s2i;
步骤53:将s1i和s2i进行拼接,构成句子向量si;
步骤54:将句子向量si输入到所述第二层双向循环网络进行训练,获得该条文本信息的高级特征向量表示v。
5.根据权利要求4所述的方法,其中,对于基于词向量的句子表示s1i包含利用attention机制获得的句子中各个词语的重要性权重,对于基于字向量的句子表示s2i包含利用attention机制获得的句子中各个字的重要性权重。
6.根据权利要求4所述的方法,其中,在步骤54中,所述该条文本信息的高级特征向量表示v包含利用attention机制获得的该条文本信息中各个句子重要性的权重。
7.根据权利要求1所述的方法,其中,所述分类器为SoftMax模型、SVM或朴素贝叶斯。
8.根据权利要求1所述的方法,其中,所述第一层双向循环神经网络和所述第二层双向循环神经网络为双向GRU或双向LSTM。
9.一种文本的分类方法,包括:
步骤101:获取文本信息的关于词的特征向量表示和关于字的特征向量表示;
步骤102:将文本信息的关于词的特征向量表示和关于字的特征向量表示输入到根据权利要求1至8中任一项所获得的文本分类模型,以获得该文本信息的类别标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810599385.6/1.html,转载请声明来源钻瓜专利网。