[发明专利]一种基于多模型融合的社交媒体语料情感分析方法在审
申请号: | 202010030785.2 | 申请日: | 2020-01-13 |
公开(公告)号: | CN111259141A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 徐爽爽 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/55;G06K9/62;G06N3/04;G06N3/08;G06F16/951;G06F40/289 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 融合 社交 媒体 语料 情感 分析 方法 | ||
1.一种基于多模型融合的社交媒体语料情感分析方法,其特征在于:该方法共包含以下步骤,
步骤1数据预处理:
使用的数据是从社交平台通过爬虫获取,并过滤广告无关数据,只保留用带有用户主观性的博文数据,对过滤后的文本数据使用jieba分词器进行分词,分词后的数据存在很多无意义的数据,使用停用词表,将其过滤,采用哈工大的停用词表,得到经过数据预处理后的文本;为方便对图片数据的处理,将图片数据采用归一化的方式处理为256像素*256像素的图片;
步骤2对文本语料进行SO-PMI模型训练:
对步骤(1)中得到的文本进行词语的情感标记,同样分为积极、消极、中性三类;用于模型训练的文本数据占总数据的70%,测试验证数据占30%;首先,对已经分词且过滤停用词的数据,使用70%的处理过的情感词汇用于Word2vec工具,得到一个扩展的情感词典;基于语义定位的点互信息算法SO-PMI,利用词与词之间的距离以及情感词典来判断它们属于哪一类;之后考虑否定词,程度副词,感叹词,修辞句和情感图表的影响,权衡所有因素,计算出文本内容的情感倾向得到分类结果;
步骤3对图片数据进行CNN+LSTM模型训练:
在图片数据集的基础上,增加对图片的情感描述文本,利用这两个模态的数据提供更高精度的细粒度分类卷积做图像分类,CNN+LSTM做文本分类,两个分类结果合起来得到组后图像的情感含义解释;图像文本方面分类使用的是CNN模型,CNN模型由卷积层和全连接层构成;对于文本方面,采用深度结构化的联合嵌入方法,联合嵌入图像和细粒度的视觉描述;该方法学习了图像与文本的兼容函数,看作是多模态结构拼接嵌入的扩展;不使用双线性相容函数,而是使用深层神经编码器生成的有限元内积,最大限度地提高描述与匹配图像之间的相容性,同时最小化与其他类图像的相容性;
步骤4多模型融合:
通过步骤2、3步骤可以得到两种文本最后的文本情感的分类结果,然后通过加权的方式处理两部分判断最后的分类结果;最后的分类结果y=am+bn,其中m为纯文本判定的类别距离相似度,n为图像所得文本判定的类别距离相似度,然后根据MATLB工具的GeneticAlgorithm遗传学算法求解得到阈值a和b;
步骤5最终情感分析结果:
经过步骤4得到y=am+bn中a和b的值,输入文本类别相似度和图像文本相似度,输出图文分类值y,其值为1,-1以及0,且1为积极,-1为消极,0为中性分类结果。
2.根据权利要求1所述的一种基于多模型融合的社交媒体语料情感分析方法,其特征在于:
给定数据D=(vn,tn,yn),n=1,…,N,其中v∈V表示视觉信息,t∈T表示文本类型,y∈Y表示类标签,然后通过最小化经验风险来学习图像和文本分类器函数fυ:V→Y和ft:V→Y其中为0-1损失,然后定义函数F的兼容性使用特性可学的编码器的功能θ(V)图像和文本Φ(t)函数,其中,N表示数据维度,V表示图像集合,T表示文本集合,Y表示映射空间;下述三个公式是从数学角度对多模型融合的社交媒体语料情感分析方法的解释,其中公式(1.3)为图文融合函数,且F(v,t)为图文融合结果,θ(v)T为图像函数,Φ(t)为文本函数;公式(1.1)为图像最大期望平均函数,其中F(v,t)为公式(1.3),y为图像语料,t为文本语料,Y为y的映射空间;公式(1.2)为文本最大期望平均函数,其中F(v,t)为公式(1.3),y为图像语料,v为图像语料,Y为映射空间;
fv(v)=argmaxyEt~T(y)[F(v,t)],yεY (1.1)
ft(t)=argmaxyEv~T(y)[F(v,t)],yεY (1.2)
F(v,t)=θ(v)TΦ(t) (1.3)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010030785.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于区块链的物联网数据溯源方法
- 下一篇:一种废油收集器