首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]基于点互信息的词向量模型和基于CNN的文本分类方法有效

申请号：	201810938236.8	申请日：	2018-08-16
公开（公告）号：	CN109189925B	公开（公告）日：	2020-01-17
发明（设计）人：	李万理;吴海明;薛云	申请（专利权）人：	华南师范大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/04;G06K9/62
代理公司：	44102 广州粤高专利商标代理有限公司	代理人：	江裕强
地址：	510006 广东省广州市番禺区***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	词向量矩阵文本特征提取模型文本分类互信息语义分类特征距离最近模型训练输入文本特征提取文本特征训练分类映射距离复杂度交叉熵预设捕捉挖掘全局统计
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于点互信息的词向量模型和基于CNN的文本分类方法，其特征在于包括：

(S1)通过基于点互信息的全局词向量方法训练词向量模型；具体包括：

(1)输入中文维基百科数据集，对数据进行预处理，去除标点符号及空格；

(2)用中文分词工具对步骤(1)得到的数据集进行分词处理，将语料数据转化成词语序列；

(3)对步骤(2)得到的词进行词频统计，并将统计结果保存在硬盘中；

(4)对步骤(2)得到的词进行共现统计，按照设定的窗口大小对语料进行遍历，得到每两个词在窗口内的共现次数，并将结果以三元组的形式保存在硬盘中；

(5)对步骤(4)得到的三元组进行随机打乱，将随机打乱后的三元组保存在硬盘中；

(6)对步骤(2)中出现的所有词语，随机初始化词向量，并保存在内存中，方便程序读取和修改；

(7)对步骤(5)中得到的三元组进行完整的遍历，按照目标函数：对词向量使用梯度下降法进行调整，目标函数中w_i和分别为中心词和上下文词对应的词向量，V表示词表中的所有词向量，

(8)不断地重复迭代步骤(7)，直到结果收敛，即得到基于点互信息的词向量，将内存中的词向量保存在硬盘中；

于步骤(5)到步骤(8)中，对于拥有相似上下文的两个词w_i和w_j而言，w_i和w_j之间的关系可以通过与第三个词的关系来体现，对w_i和w_j间关系进行建模得到：

其中，w_i和w_j表示拥有相似上下文的两个中心词，为上下文词向量，而为w_i和共同出现的概率；p(w_i)、代表的分别是w_i出现的概率、出现的概率、w_j和共同出现的概率；

等式1)右边的比值为模型输出，代表想要预测的词语之间的关系；在保持初始模型输出不变的前提下，对初始模型的输入进行简化，以便建立可优化的目标函数；考虑到向量空间具有内在的线性结构，于是将输入函数形式限定为仅受两个中心词向量之差的影响，得到下式：

由于等式2)的右边为标量，通过复杂的线性或非线性变换，将输入向量转化为标量的形式；采用点乘的形式进行向量运算，刻画两词之间的关系，如下式：

为了将等式3)左边转化为比值的形式，结合连续性条件，上述等式左边函数方程的通解形式为F(x)＝e^ax；考虑到能对词向量的范数进行归一化，直接取F(x)＝e^x，则有：

此时再令3)，4)两式中分子分母对应相等，则可得：

即：

进一步有：

由此，对GloVe模型的目标函数进行修改，将原目标函数中的共现次数X_ik替换为点互信息

GloVe模型的目标函数：

即新的目标函数为词向量模型的最终目标函数：

经过梯度下降法训练后得到目标词语的词向量即为w_i，那么对每一个词语重复进行最终目标函数的运算即可得到所有词语的词向量；

(S2)根据训练好的词向量模型，确定所述文本的词向量矩阵；

(S3)通过卷积神经网络CNN提取词向量矩阵中的特征，并训练分类模型；(S4)根据训练好的词向量模型和CNN特征提取模型对输入文本特征提取；

(S5)根据CNN特征提取模型获取的文本特征，通过softmax和交叉熵方法计算文本与预设类别的映射距离，取距离最近的为文本对应类别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南师范大学，未经华南师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810938236.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种微米毛细管通道中气液相界面移动距离获取方法
下一篇：墙面插座

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top