[发明专利]一种基于上下文信息和卷积神经网络的文本情感分类方法在审
申请号: | 202010731311.0 | 申请日: | 2020-07-27 |
公开(公告)号: | CN111858939A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 陈福 | 申请(专利权)人: | 上海五节数据科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/953;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京盛凡智荣知识产权代理有限公司 11616 | 代理人: | 赵芳蕾 |
地址: | 201108 上海市闵行*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 上下文 信息 卷积 神经网络 文本 情感 分类 方法 | ||
1.一种基于上下文信息和卷积神经网络的文本情感分类方法,其特征在于,包括如下步骤:
步骤1:获取文本集合
D={D1,D2,…,DN}
及对应的情感标签集合Y={y1,y2,…,yN},Dt表示第t个文本,yt表示第t个文本的情感极性:如果Dt的情感为正面,则yt=1,如果Dt的情感为负面,则yt=2,如果Dt的情感为中性,则yt=3,1≤t≤N,N为文本集合D中的文本总数;
步骤2:对文本集合D中的每个文本Dt进行分词,并对分词结果进行去除停用词,从而获得第t个文本Dt所包含的词语序列di表示Dt中的第i个词语;1≤i≤mt,mt为去除停用词后Dt中包含的词语总数,也就是文本Dt的长度;
步骤3:取文本集合D中的最长文本长度为H,将每个文本的词语序列转换成固定长度{d1,d2,…,dH},如果mt<H,则在词语序列后面补H-mt个字符NULL;
步骤4:通过查表的方式得到文本Dt的词向量矩阵Vt=[v1,v2,…,vH]∈RH×p,其中vi∈Rp为词语di的词向量表示,其中p为词向量的维度,NULL对应的词向量为全0的p维向量;
步骤5:根据文本Dt的词向量矩阵Vt,计算文本Dt的上下文矩阵Ft;
步骤6:将文本Dt的词向量矩阵Vt和上下文矩阵Ft组合成3阶张量Bt∈RH×p×2;
步骤7:应用同一尺度的卷积核集合{w1,w2,…,wQ}和极大池化操作从文本Dt的3阶张量Bt中抽取Q维特征向量其中卷积核wi的大小为l×p×2,i=1,2,…,Q,l为卷积核窗口中词的数量;
步骤8:若有不同尺度大小的卷积核r种,每种尺度下卷积核有Q个,对每种尺度下的所有卷积核,应用步骤7都能抽取Q维的特征向量,将所有不同尺度的卷积核抽取的特征向量连接为特征向量s∈RQr;
步骤9:在特征向量s上应用全连接网络进一步抽取特征:
其中,Wfc与bfc为需要根据数据训练的权重参数,f为非线性变换函数,如sigmoid、tanh、RELU;
步骤10:在特征向量上应用softmax分类器,得到文本Dt属于类别yi的概率:
其中,α1,α2,α3,β1,β2,β3为softmax分类器的系数,需要通过模型训练得到,yi=1表示正面情感,yi=2表示负面情感,yi=3表示中性情感。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海五节数据科技有限公司,未经上海五节数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010731311.0/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置