[发明专利]基于点互信息的词向量模型和基于CNN的文本分类方法有效
申请号: | 201810938236.8 | 申请日: | 2018-08-16 |
公开(公告)号: | CN109189925B | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 李万理;吴海明;薛云 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06K9/62 |
代理公司: | 44102 广州粤高专利商标代理有限公司 | 代理人: | 江裕强 |
地址: | 510006 广东省广州市番禺区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词向量 矩阵 文本 特征提取模型 文本分类 互信息 语义 分类特征 距离最近 模型训练 输入文本 特征提取 文本特征 训练分类 映射距离 复杂度 交叉熵 预设 捕捉 挖掘 全局 统计 | ||
1.基于点互信息的词向量模型和基于CNN的文本分类方法,其特征在于包括:
(S1)通过基于点互信息的全局词向量方法训练词向量模型;具体包括:
(1)输入中文维基百科数据集,对数据进行预处理,去除标点符号及空格;
(2)用中文分词工具对步骤(1)得到的数据集进行分词处理,将语料数据转化成词语序列;
(3)对步骤(2)得到的词进行词频统计,并将统计结果保存在硬盘中;
(4)对步骤(2)得到的词进行共现统计,按照设定的窗口大小对语料进行遍历,得到每两个词在窗口内的共现次数,并将结果以三元组的形式保存在硬盘中;
(5)对步骤(4)得到的三元组进行随机打乱,将随机打乱后的三元组保存在硬盘中;
(6)对步骤(2)中出现的所有词语,随机初始化词向量,并保存在内存中,方便程序读取和修改;
(7)对步骤(5)中得到的三元组进行完整的遍历,按照目标函数:对词向量使用梯度下降法进行调整,目标函数中wi和分别为中心词和上下文词对应的词向量,V表示词表中的所有词向量,
(8)不断地重复迭代步骤(7),直到结果收敛,即得到基于点互信息的词向量,将内存中的词向量保存在硬盘中;
于步骤(5)到步骤(8)中,对于拥有相似上下文的两个词wi和wj而言,wi和wj之间的关系可以通过与第三个词的关系来体现,对wi和wj间关系进行建模得到:
其中,wi和wj表示拥有相似上下文的两个中心词,为上下文词向量,而为wi和共同出现的概率;p(wi)、代表的分别是wi出现的概率、出现的概率、wj和共同出现的概率;
等式1)右边的比值为模型输出,代表想要预测的词语之间的关系;在保持初始模型输出不变的前提下,对初始模型的输入进行简化,以便建立可优化的目标函数;考虑到向量空间具有内在的线性结构,于是将输入函数形式限定为仅受两个中心词向量之差的影响,得到下式:
由于等式2)的右边为标量,通过复杂的线性或非线性变换,将输入向量转化为标量的形式;采用点乘的形式进行向量运算,刻画两词之间的关系,如下式:
为了将等式3)左边转化为比值的形式,结合连续性条件,上述等式左边函数方程的通解形式为F(x)=eax;考虑到能对词向量的范数进行归一化,直接取F(x)=ex,则有:
此时再令3),4)两式中分子分母对应相等,则可得:
即:
进一步有:
由此,对GloVe模型的目标函数进行修改,将原目标函数中的共现次数Xik替换为点互信息
GloVe模型的目标函数:
即新的目标函数为词向量模型的最终目标函数:
经过梯度下降法训练后得到目标词语的词向量即为wi,那么对每一个词语重复进行最终目标函数的运算即可得到所有词语的词向量;
(S2)根据训练好的词向量模型,确定所述文本的词向量矩阵;
(S3)通过卷积神经网络CNN提取词向量矩阵中的特征,并训练分类模型;(S4)根据训练好的词向量模型和CNN特征提取模型对输入文本特征提取;
(S5)根据CNN特征提取模型获取的文本特征,通过softmax和交叉熵方法计算文本与预设类别的映射距离,取距离最近的为文本对应类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810938236.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微米毛细管通道中气液相界面移动距离获取方法
- 下一篇:墙面插座