[发明专利]基于点互信息的词向量模型和基于CNN的文本分类方法有效

专利信息
申请号: 201810938236.8 申请日: 2018-08-16
公开(公告)号: CN109189925B 公开(公告)日: 2020-01-17
发明(设计)人: 李万理;吴海明;薛云 申请(专利权)人: 华南师范大学
主分类号: G06F16/35 分类号: G06F16/35;G06N3/04;G06K9/62
代理公司: 44102 广州粤高专利商标代理有限公司 代理人: 江裕强
地址: 510006 广东省广州市番禺区*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 词向量 矩阵 文本 特征提取模型 文本分类 互信息 语义 分类特征 距离最近 模型训练 输入文本 特征提取 文本特征 训练分类 映射距离 复杂度 交叉熵 预设 捕捉 挖掘 全局 统计
【说明书】:

发明公开基于点互信息的词向量模型和基于CNN的文本分类方法。该方法包括:(1)通过基于点互信息的全局词向量方法训练词向量模型;(2)根据训练好的词向量模型,确定所述文本的词向量矩阵;(3)通过CNN提取词向量矩阵中的特征,并训练分类模型;(4)根据训练好的词向量模型和CNN特征提取模型对输入文本特征提取;(5)根据CNN特征提取模型获取的文本特征,通过softmax和交叉熵方法计算文本与预设类别的映射距离,取距离最近的为文本对应类别。该方法克服了Glove词向量在语义捕捉和统计共现矩阵上的不足,降低模型训练复杂度,能够准确地挖掘出文本的分类特征,适用于各种领域的文本分类,具有极大的实用价值。

技术领域

本发明涉及自然语言处理技术的文本分类领域,具体地说是一种基于点互信息的词向量模型和基于CNN(卷积神经网络)的文本分类方法。

背景技术

随着互联网技术的发展,万维网中的数据量与日俱增,其中有大量的数据是文本数据,这些数据涉及社会的各行各业,面对这样庞大体量的文本数据,如何做到数据的合理化分类成为一个重要的研究难题。对文本合理化、自动化分类,可以帮助人们解决很多难题,例如:垃圾信息判别、虚假信息发现等很多场合。近年来,为完成文本分类,那么文本的表示就显得至关重要,合理的文本表示可以获取准确的文本语义信息。

1.词向量技术背景

在自然语言表示方法中,词的向量化表示是重要的基础技术。传统的词向量化表示方法是创建一个词典并把每个词顺序编号,即独热码表示法。这种表示方法无法捕捉词语之间的语义相似度,而且极易发生维数灾难。为此,Hinton[1]在1986年提出词向量分布式表示方法,这种方法使用固定维数的向量来表示词语,用向量之间的距离表示词语的语义距离,起到降维作用的同时也打破了词语之间的语义鸿沟,使得词语之间的语义关系得到更好的描述。随着研究的不断深入,Bengio提出使用神经网络建立语言模型,同时得到词向量。这种模型能够使用神经网络进行无监督学习,捕捉词语之间的上下文关系,在训练网络模型的同时把词向量也作为参数一并训练得到。Bengio的模型虽然有效,但计算量巨大,为了降低计算复杂度,Miklov在此基础上提出了改进模型——word2vec并获得了更好的结果,同时把模型的复杂度由n×V降低到了n×log2V,使得大规模词向量的训练变得更高效。尽管Miklov已经在词语的表示上取得了较好的结果,仍有许多学者对语言表示进行更深入的探究。其中,Pennington提出的Glove模型改进了word2vec模型中的目标函数,将全局统计信息——共现矩阵引入词向量的训练中,并在多个实验中取得了比word2vec更好的结果。

本方法为了改进Glove模型在语义捕捉以及统计共现矩阵上的不足,本文在其模型的基础上引入点互信息,构建全局点互信息矩阵,并训练得到最终的词向量。在多个与语义相关的数据集上进行的语义实验结果表明,基于全局点互信息矩阵的词向量能更好的表现语义关系。本文的主要贡献有:1、将全局点互信息矩阵引入词向量计算中,使词向量的统计信息更精准。2、改进了Glove模型的目标函数,去除了截断操作,因此能显著降低模型训练的计算量。

2.分类方法技术背景

文本分类常用技术分为基于情感词典的文本分类方法、基于机器学习的文本分类方法和基于深度学习的文本分类方法。这些方法主要的应用特点如下:

1)基于情感词典的文本分类方法

基于情感词典的方法是利用已有语义词典资源构建领域词典,再通过比对情感文本中所包含的正向情感词、负向情感词、,标记正、负整数值作为情感值,同时也要考虑一些特殊的词性规则、句法结构对情感判断的影响,如否定句、递进句、转折句等。

基于情感词典的文本分类方法容易实现,但该方法需较大规模的情感词典,且它是一个线性的模型,其性能有限。

2)基于机器学习的文本分类方法

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810938236.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top