[发明专利]基于词向量和字向量混合模型的文本情感分析方法在审

专利信息
申请号: 202010379545.3 申请日: 2020-05-08
公开(公告)号: CN111651593A 公开(公告)日: 2020-09-11
发明(设计)人: 余伟阳;黄钰杰;王宝基;李晓华;李辉;张云飞 申请(专利权)人: 河南理工大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/242;G06F40/289;G06F40/30;G06N3/04;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 454000 河南*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 向量 混合 模型 文本 情感 分析 方法
【权利要求书】:

1.基于词向量和字向量混合模型的文本情感分析方法,其特征在于,所述文本情感分析方法包括以下步骤:

步骤1、对中文数据集进行预处理操作,利用Word2Vec同时训练词向量和字向量矩阵;

步骤2、将训练好的词向量矩阵x1:l和字向量矩阵w1:l作为双向长短期记忆网络的输入特征,学习文本的序列特征,并接入注意力层优化特征向量;

步骤3、将训练好的词向量矩阵x1:l和字向量矩阵w1:l作为卷积神经网络输入特征,进行卷积、池化操作学习文本的局部特征,并接入注意力机制获取文本的深层次特征;

步骤4、将引入注意力机制的卷积神经网络层提取到的特征sc和引入注意力机制的双向长短期记忆网络层提取到的特征向量sl进行融合,输入softmax分类层进行分类,积极为1,消极为0,并与文本标签进行对比计算,得出文本分类正确率。

2.根据权利要求1所述的基于词向量和字向量混合模型的文本情感分析方法,其特征在于,步骤1中,对中文数据集进行预处理操作,利用Word2Vec同时训练词向量和字向量矩阵,包括如下步骤:

步骤11、对文本进行预处理工作提升词向量的质量,包括去停用词,分词过程;

步骤12、词向量训练工作使用Google公司开源的Word2vec工具,使用Word2vec工具中的Skip-gram模型对字向量和词向量进行训练,将预处理过的语料训练成128维度的字向量和词向量,词向量矩阵和字向量矩阵分别表示为:

其中,代表连接运算符,l代表句子的长度,取定值为60,x1:l代表60×128的词向量矩阵,w1:l代表60×128的字向量矩阵。

3.根据权利要求1所述的基于词向量和字向量混合模型的文本情感分析方法,其特征在于,步骤2中,将训练好的词向量矩阵x1:l和字向量矩阵w1:l作为BiLSTM的输入特征,学习文本的序列特征,并接入注意力层优化特征向量,包括如下步骤:

步骤21、将转换过的词向量矩阵x1:l和字向量矩阵w1:l分别输入到双向长短期记忆网络进行训练,使用双向长短期记忆网络进行特征提取,获得文本的序列特征,提高网络的收敛性,得到双向长短期记忆网络字向量的隐层状态hwi和词向量的隐层状态hxi,将转换过的词向量矩阵x1:l输入到双向长短期记忆网络进行训练,得双向长短期记忆网络词向量的隐层状态hxi,公式表达为:

ft=σ(wfx1:l+ufht-1+bf)

it=σ(wix1:l+uiht-1+bi)

ot=σ(wox1:l+uoht-1+bo)

hxt=otΘtanh(ct)

其中,σ是sigmoid激活函数,输出在[0,1]之间,决定有多少信息可以通过,tanh是双曲正切函数,Θ运算符号代表矩阵相乘操作,遗忘门ft决定“忘记”在反向传播中不重要的信息,输入门it决定了待更新信息的多少,输出门ot决定从当前细胞状态ct输出到隐藏层状态hxt的内容。当前的细胞状态ct就是将过去的细胞状态ct-1和新的记忆进行合并,w(i)和u(i)代表数据处理过程中的权重,将转换过的字向量矩阵w1:l输入到双向长短期记忆网络进行训练,得到双向长短期记忆网络字向量的隐层状态hwi,公式表达为:

ft=σ(wfw1:l+ufht-1+bf)

it=σ(wiw1:l+uiht-1+bi)

ot=σ(wow1:l+uoht-1+bo)

hwt=otΘtanh(ct)

其中,σ是sigmoid激活函数,输出在[0,1]之间,决定有多少信息可以通过,tanh是双曲正切函数,Θ运算符号代表矩阵相乘操作,遗忘门ft决定“忘记”在反向传播中不重要的信息,输入门it决定了待更新信息的多少,输出门ot决定从当前细胞状态ct输出到隐藏层状态hwt的内容。当前的细胞状态ct就是将过去的细胞状态ct-1和新的记忆进行合并,w(i)和u(i)代表数据处理过程中的权重;

步骤22、将步骤21得到双向长短期记忆网络的字向量的隐层状态hwi和词向量的隐层状态hxi使用点乘的方式进行融合;:

hi=[hwi·hxi]

步骤23、将双向长短期记忆网络中的隐藏层状态hi非线性变换为ui

ui=tanh(wwhi+bw)

其中,ww和bw表示的是权重矩阵和权值向量;

步骤24、使用softmax函数对ui进行归一化操作,得到注意力矩阵,即双向长短期记忆网络的输出权重系数αi

其中,uw表示的是初始化权重矩阵;

步骤25、将步骤24得到的双向长短期记忆网络层的输出权重系数αi与步骤22得到的隐层状态hi相乘,得到引入注意力机制的双向长短期记忆网络层提取的特征向量sl

其中,αi表示的是输出权重系数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010379545.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top