[发明专利]一种面向目标的情感分类方法有效
申请号: | 201910568300.2 | 申请日: | 2019-06-27 |
公开(公告)号: | CN110287323B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 顾凌云;王洪阳;严涵 | 申请(专利权)人: | 成都冰鉴信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F16/33;G06F40/30 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 滕诣迪 |
地址: | 610041 四川省中国(四川)自由贸易*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 目标 情感 分类 方法 | ||
1.一种面向目标的情感分类方法,其特征在于:包括如下步骤:
步骤1:建立客户端服务器和中心服务器,客户端服务器用于收集文本信息,并将文本信息发送给中心服务器;
在中心服务器中建立预处理模块、GloVe模型模块、位置信息编码模块、注意力编码器和分类器模块;
步骤2:中心服务器获取到文本信息后,通过预处理模块对文本信息中带有主观情感色彩的文本数据进行预处理,分别表示出文本数据中的文本语句和目标序列,具体包括如下步骤:
步骤A1:建立中文停用词词典,根据中文停用词词典对文本数据中含有的停用词进行删除,同时根据中文停用词词典删除文本数据中包含的不完整文本数据,得到原语句数据;
步骤A2:将原语句数据中的带有感情色彩的语句作为待测目标,为待测目标建立目标序列,对目标序列进行提取,得到目标序列对应原语句数据的子序列;
步骤A3:对原语句数据和目标序列进行序列化操作,完成文本数据的序列化操作;
步骤3:GloVe模型模块使用GloVe词表征工具预训练一个语言模型,通过使用语言模型得到原语句数据和目标序列的字词向量的特征表示,捕捉单词之间的广泛的语义特征;
步骤4:位置信息编码模块对原语句数据中的上下文字词相对于目标序列做位置信息的编码,计算原语句数据中每个字词的位置权重,具体包括如下步骤:
步骤B1:规定距离目标序列越近的字词对其情感值的计算贡献越大,距离目标序列越远的字词对其情感值贡献越低;
步骤B2:计算上下文中每个字词相对目标序列的位置距离,得到位置距离信息,规定若一个目标序列由多个字词组成,且某上下文属于该目标序列,则该上下文与该目标序列的位置距离为0,通过位置距离信息计算所有上下文字词相对目标序列的位置权重;
步骤5:使用注意力编码器分别对原语句数据和目标序列的字向量进行编码,具体步骤如下:
步骤C1:将位置距离信息与原语句数据结合更新字词向量,使经过GloVe词表征工具编码的上下文中的每个字词向量均能体现其与目标序列的位置距离信息;
步骤C2:通过使用长短期网络和注意力机制完成文本语义的学习,包含以下步骤:
步骤Y1:使用Bi-LSTM从正向和反向分别学习文本字词的表示含义,将正向和反向学习得到的词向量分别结合起来,形成最后的文本字词向量;
步骤Y2:使用注意力编码器分别进一步学习文本语句和目标序列中各字词间的相互关系,得到最终的文本特征向量;
步骤6:分类器模块对最终的文本特征向量学习一个分类器,计算原语句数据的情感类别,具体步骤如下:
步骤D1:将最终的文本特征向量经过一层全连接神经网络,分别计算该文本针对目标序列所属正向、中立、负向的三个情感得分,取概率最大的一项作为情感分类的结果,具体计算公式如下:
scorej=Wp·F+bp,j∈[1,3];
其中,和是神经网络输入层与输出层之间神经元的参数,需要在模型的训练过程中不断变化最终达到收敛状态,scorej表示该文本属于标签j的得分,其中,j取值为1,2,3分别表示情感值:正向、中性、负向;
F表示文本特征向量,d代表两个单词在上下文窗口的距离,t代表target,表示目标序列;
步骤D2:通过Softmax归一化计算针对目标序列的文本情感类别,提取概率最大的情感标签作为该目标序列的文本情感值,其公式如下:
2.如权利要求1所述的一种面向目标的情感分类方法,其特征在于:在执行步骤A3时,首先对原语句数据和目标序列进行字符统计,建立一个字典库,字典库里面包含所有训练语料集的字词,查找原语句数据和目标序列中各字词在字典库中的下标索引,完成文本数据的序列化操作。
3.如权利要求1所述的一种面向目标的情感分类方法,其特征在于:在执行步骤3时,包括如下步骤:
步骤S1:预设一个语料库,根据语料库构建一个共现矩阵,共现矩阵中的每个元素代表某一个单词在上下文单词中的特定大小的上下文窗口内共同出现的次数,具体为根据两个单词在上下文窗口的距离d,定义一个用于计算权重的衰减函数;
步骤S2:构建字词向量和共现矩阵之间的近似关系,关系可以用如下公式表示:
其中,和是最终要求解的字词向量;bi和是两个字词向量的偏置项;i和j分别表示字词向量的编号,Xij为输出结果;
步骤S3:根据以下公式构造损失函数J:
损失函数J使用的是均方误差,同时添加一个权重函数f(x);
权重函数f(x)的公式如下:
其中,α取值为0.76;
经过GloVe词表征工具训练后得到语料库的字词向量表,设定字词向量表表示为
其中dv是字词向量的维度,|V|是上面构建的整个字典库的大小;
通过查找字词向量表将原语句数据中的字词映射为向量后,文本语句表示为同理,对目标序列中的字词在字词向量表中进行查找,得到向量化后的目标序列:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都冰鉴信息科技有限公司,未经成都冰鉴信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910568300.2/1.html,转载请声明来源钻瓜专利网。