[发明专利]基于点互信息的词向量模型和基于CNN的文本分类方法有效

申请号：	201810938236.8	申请日：	2018-08-16
公开（公告）号：	CN109189925B	公开（公告）日：	2020-01-17
发明（设计）人：	李万理;吴海明;薛云	申请（专利权）人：	华南师范大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/04;G06K9/62
代理公司：	44102 广州粤高专利商标代理有限公司	代理人：	江裕强
地址：	510006 广东省广州市番禺区***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	词向量矩阵文本特征提取模型文本分类互信息语义分类特征距离最近模型训练输入文本特征提取文本特征训练分类映射距离复杂度交叉熵预设捕捉挖掘全局统计
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开基于点互信息的词向量模型和基于CNN的文本分类方法。该方法包括：（1）通过基于点互信息的全局词向量方法训练词向量模型；（2）根据训练好的词向量模型，确定所述文本的词向量矩阵；（3）通过CNN提取词向量矩阵中的特征，并训练分类模型；（4）根据训练好的词向量模型和CNN特征提取模型对输入文本特征提取；（5）根据CNN特征提取模型获取的文本特征，通过softmax和交叉熵方法计算文本与预设类别的映射距离，取距离最近的为文本对应类别。该方法克服了Glove词向量在语义捕捉和统计共现矩阵上的不足，降低模型训练复杂度，能够准确地挖掘出文本的分类特征，适用于各种领域的文本分类，具有极大的实用价值。

技术领域

本发明涉及自然语言处理技术的文本分类领域，具体地说是一种基于点互信息的词向量模型和基于CNN(卷积神经网络)的文本分类方法。

背景技术

随着互联网技术的发展，万维网中的数据量与日俱增，其中有大量的数据是文本数据，这些数据涉及社会的各行各业，面对这样庞大体量的文本数据，如何做到数据的合理化分类成为一个重要的研究难题。对文本合理化、自动化分类，可以帮助人们解决很多难题，例如：垃圾信息判别、虚假信息发现等很多场合。近年来，为完成文本分类，那么文本的表示就显得至关重要，合理的文本表示可以获取准确的文本语义信息。

1.词向量技术背景

在自然语言表示方法中，词的向量化表示是重要的基础技术。传统的词向量化表示方法是创建一个词典并把每个词顺序编号，即独热码表示法。这种表示方法无法捕捉词语之间的语义相似度，而且极易发生维数灾难。为此，Hinton[1]在1986年提出词向量分布式表示方法，这种方法使用固定维数的向量来表示词语，用向量之间的距离表示词语的语义距离，起到降维作用的同时也打破了词语之间的语义鸿沟，使得词语之间的语义关系得到更好的描述。随着研究的不断深入，Bengio提出使用神经网络建立语言模型，同时得到词向量。这种模型能够使用神经网络进行无监督学习，捕捉词语之间的上下文关系，在训练网络模型的同时把词向量也作为参数一并训练得到。Bengio的模型虽然有效，但计算量巨大，为了降低计算复杂度，Miklov在此基础上提出了改进模型——word2vec并获得了更好的结果，同时把模型的复杂度由n×V降低到了n×log₂V，使得大规模词向量的训练变得更高效。尽管Miklov已经在词语的表示上取得了较好的结果，仍有许多学者对语言表示进行更深入的探究。其中，Pennington提出的Glove模型改进了word2vec模型中的目标函数，将全局统计信息——共现矩阵引入词向量的训练中，并在多个实验中取得了比word2vec更好的结果。

本方法为了改进Glove模型在语义捕捉以及统计共现矩阵上的不足，本文在其模型的基础上引入点互信息，构建全局点互信息矩阵，并训练得到最终的词向量。在多个与语义相关的数据集上进行的语义实验结果表明，基于全局点互信息矩阵的词向量能更好的表现语义关系。本文的主要贡献有：1、将全局点互信息矩阵引入词向量计算中，使词向量的统计信息更精准。2、改进了Glove模型的目标函数，去除了截断操作，因此能显著降低模型训练的计算量。

2.分类方法技术背景

文本分类常用技术分为基于情感词典的文本分类方法、基于机器学习的文本分类方法和基于深度学习的文本分类方法。这些方法主要的应用特点如下：

1)基于情感词典的文本分类方法

基于情感词典的方法是利用已有语义词典资源构建领域词典，再通过比对情感文本中所包含的正向情感词、负向情感词、，标记正、负整数值作为情感值，同时也要考虑一些特殊的词性规则、句法结构对情感判断的影响，如否定句、递进句、转折句等。

基于情感词典的文本分类方法容易实现，但该方法需较大规模的情感词典，且它是一个线性的模型，其性能有限。

2)基于机器学习的文本分类方法

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南师范大学，未经华南师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810938236.8/2.html，转载请声明来源钻瓜专利网。