[发明专利]基于点互信息的词向量模型和基于CNN的文本分类方法有效
申请号: | 201810938236.8 | 申请日: | 2018-08-16 |
公开(公告)号: | CN109189925B | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 李万理;吴海明;薛云 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06K9/62 |
代理公司: | 44102 广州粤高专利商标代理有限公司 | 代理人: | 江裕强 |
地址: | 510006 广东省广州市番禺区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词向量 矩阵 文本 特征提取模型 文本分类 互信息 语义 分类特征 距离最近 模型训练 输入文本 特征提取 文本特征 训练分类 映射距离 复杂度 交叉熵 预设 捕捉 挖掘 全局 统计 | ||
本发明公开基于点互信息的词向量模型和基于CNN的文本分类方法。该方法包括:(1)通过基于点互信息的全局词向量方法训练词向量模型;(2)根据训练好的词向量模型,确定所述文本的词向量矩阵;(3)通过CNN提取词向量矩阵中的特征,并训练分类模型;(4)根据训练好的词向量模型和CNN特征提取模型对输入文本特征提取;(5)根据CNN特征提取模型获取的文本特征,通过softmax和交叉熵方法计算文本与预设类别的映射距离,取距离最近的为文本对应类别。该方法克服了Glove词向量在语义捕捉和统计共现矩阵上的不足,降低模型训练复杂度,能够准确地挖掘出文本的分类特征,适用于各种领域的文本分类,具有极大的实用价值。
技术领域
本发明涉及自然语言处理技术的文本分类领域,具体地说是一种基于点互信息的词向量模型和基于CNN(卷积神经网络)的文本分类方法。
背景技术
随着互联网技术的发展,万维网中的数据量与日俱增,其中有大量的数据是文本数据,这些数据涉及社会的各行各业,面对这样庞大体量的文本数据,如何做到数据的合理化分类成为一个重要的研究难题。对文本合理化、自动化分类,可以帮助人们解决很多难题,例如:垃圾信息判别、虚假信息发现等很多场合。近年来,为完成文本分类,那么文本的表示就显得至关重要,合理的文本表示可以获取准确的文本语义信息。
1.词向量技术背景
在自然语言表示方法中,词的向量化表示是重要的基础技术。传统的词向量化表示方法是创建一个词典并把每个词顺序编号,即独热码表示法。这种表示方法无法捕捉词语之间的语义相似度,而且极易发生维数灾难。为此,Hinton[1]在1986年提出词向量分布式表示方法,这种方法使用固定维数的向量来表示词语,用向量之间的距离表示词语的语义距离,起到降维作用的同时也打破了词语之间的语义鸿沟,使得词语之间的语义关系得到更好的描述。随着研究的不断深入,Bengio提出使用神经网络建立语言模型,同时得到词向量。这种模型能够使用神经网络进行无监督学习,捕捉词语之间的上下文关系,在训练网络模型的同时把词向量也作为参数一并训练得到。Bengio的模型虽然有效,但计算量巨大,为了降低计算复杂度,Miklov在此基础上提出了改进模型——word2vec并获得了更好的结果,同时把模型的复杂度由n×V降低到了n×log2V,使得大规模词向量的训练变得更高效。尽管Miklov已经在词语的表示上取得了较好的结果,仍有许多学者对语言表示进行更深入的探究。其中,Pennington提出的Glove模型改进了word2vec模型中的目标函数,将全局统计信息——共现矩阵引入词向量的训练中,并在多个实验中取得了比word2vec更好的结果。
本方法为了改进Glove模型在语义捕捉以及统计共现矩阵上的不足,本文在其模型的基础上引入点互信息,构建全局点互信息矩阵,并训练得到最终的词向量。在多个与语义相关的数据集上进行的语义实验结果表明,基于全局点互信息矩阵的词向量能更好的表现语义关系。本文的主要贡献有:1、将全局点互信息矩阵引入词向量计算中,使词向量的统计信息更精准。2、改进了Glove模型的目标函数,去除了截断操作,因此能显著降低模型训练的计算量。
2.分类方法技术背景
文本分类常用技术分为基于情感词典的文本分类方法、基于机器学习的文本分类方法和基于深度学习的文本分类方法。这些方法主要的应用特点如下:
1)基于情感词典的文本分类方法
基于情感词典的方法是利用已有语义词典资源构建领域词典,再通过比对情感文本中所包含的正向情感词、负向情感词、,标记正、负整数值作为情感值,同时也要考虑一些特殊的词性规则、句法结构对情感判断的影响,如否定句、递进句、转折句等。
基于情感词典的文本分类方法容易实现,但该方法需较大规模的情感词典,且它是一个线性的模型,其性能有限。
2)基于机器学习的文本分类方法
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810938236.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微米毛细管通道中气液相界面移动距离获取方法
- 下一篇:墙面插座