[发明专利]一种文本分类方法有效

申请号：	201810599385.6	申请日：	2018-06-12
公开（公告）号：	CN108829818B	公开（公告）日：	2021-05-25
发明（设计）人：	赵莉;姜松浩;张程;赵晓芳;段东圣;杜翠兰	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	北京泛华伟业知识产权代理有限公司 11280	代理人：	王勇
地址：	100190 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种构建文本分类模型的方法，包括以下步骤：

步骤1：根据文本信息的字、词语和句子的结构特征构建训练样本集，其中，所述训练样本集中的每一条样本数据对应一条文本信息关于词语的特征矩阵A、关于字的特征矩阵B和该条文本信息对应的类别向量O，O的维度与类别数量相同；

步骤2：以所述训练样本集中关于词语的特征矩阵A和关于字的特征矩阵B为输入，以对应的类别向量O为输出，训练深度学习模型，以获得文本分类模型；所述深度学习模型包括第一层双向循环神经网络、第二层双向循环神经网络和分类器，所述第一层双向循环神经网络用作词序列编码器和字序列编码器，以获得词的向量表示和字的向量表示，进而获得文本信息的句子向量s_i，所述第二层双向循环神经网络用作句子序列编码器，以获得句子向量s_i的高级特征向量，进而获得文本信息的高级特征向量表示v，所述分类器用于对文本信息的高级特征向量表示v进行分类，其中i为文本信息中句子的索引编号。

2.根据权利要求1所述的方法，其中，在步骤1中，根据以下子步骤构造一条文本信息的关于词语的特征矩阵A和关于字的特征矩阵B：

步骤21：将该条文本信息进行分词处理并将分词结果按顺序排列训练词语向量转换模型，获得该条文本信息关于词语的高维特征表示；

步骤22：将该条文本信息进行分字处理并将分字结果按顺序排列训练字向量转换模型，获得该条文本信息关于字的高维特征表示；

步骤23：根据获得的该条文本信息关于词语的高维特征表示和该条文本信息关于字的高维特征表示以及该条文本信息的字、词语和句子的结构特征构造关于词语的特征矩阵A和关于字的特征矩阵B。

3.根据权利要求2所述的方法，其中，所述词语向量转换模型为Word2Vec词嵌入模型，所述字向量转换模型为Word2Vec字嵌入模型。

4.根据权利要求1所述的方法，其中，在步骤2中通过以下子步骤获得一条文本信息的高级特征向量表示v：

步骤51：将该文本信息的关于词语的特征矩阵A输入到所述第一层双向循环神经网络进行训练，获得基于词向量的句子表示s_1i；

步骤52：将该条文本信息的关于字的特征矩阵B输入到所述第一层双向循环神经网络进行训练，获得基于字向量的句子表示s_2i；

步骤53：将s_1i和s_2i进行拼接，构成句子向量s_i；

步骤54：将句子向量s_i输入到所述第二层双向循环网络进行训练，获得该条文本信息的高级特征向量表示v。

5.根据权利要求4所述的方法，其中，对于基于词向量的句子表示s_1i包含利用attention机制获得的句子中各个词语的重要性权重，对于基于字向量的句子表示s_2i包含利用attention机制获得的句子中各个字的重要性权重。

6.根据权利要求4所述的方法，其中，在步骤54中，所述该条文本信息的高级特征向量表示v包含利用attention机制获得的该条文本信息中各个句子重要性的权重。