[发明专利]一种基于概率情感词典的情感分析系统及方法有效
申请号: | 202010781151.0 | 申请日: | 2020-08-06 |
公开(公告)号: | CN111859925B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 信俊昌;王之琼;王司亓;隋玲;唐俊日;雷盛楠;汪宇;李嘉欣 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/289;G06N3/0464;G06V20/40;G06V10/774;G06V40/16;G06V10/80;G06V10/82 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李在川 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 概率 情感 词典 分析 系统 方法 | ||
1.一种基于概率情感词典的情感分析系统进行情感分析的方法,其特征在于,包括两个阶段:
第一阶段:多模态情感词典的构建,包括如下步骤:
步骤1:采用已知情感词典库,调用已有的第三方网站的文本情感词典库构建本系统的文本情感词典;
步骤2:导入已经进行过情感标注的图片训练集,提取图片像素点,统计图片像素值;并构建受限玻尔兹曼机RBM神经网络对图片进行特征提取,将提取的特征与已经标注的情感相结合,构建图片的情感词典;
步骤3:导入已进行情感标注的视频训练集并将其拆分成音频与视频图像,采用音频特征提取软件提取音频特征,并将提取的特征与已经标注的情感相结合,构建音频的情感词典;
步骤4:将步骤3中拆分后的图像导入到3D卷积神经网络3DCNN中进行行为识别,将行为识别提取的特征向量与已经标注的情感相结合,构建视频图像的情感词典;
第二阶段:多模态情感分析,包括如下步骤:
S1:导入数据,分析数据的模态构造并对数据的不同模态即文本、视频和图片进行拆分存储;
S2:将拆分后的文本数据,进行分词处理,并将分词后的文本数据进行存储;
S3:将拆分后的图片数据,导入深度置信网络中进行特征提取,将提取出的图片特征进行存储;
S4:将拆分后的视频数据即音频数据和视频图像数据,分别导入音频特征提取软件和3DCNN中进行特征提取,分别将提取的音频与视频图像特征进行存储;
S5:若数据信息文本、音频和图像三模态中某一模态的源数据缺失,为了防止因缺失某种模态导致最终情感值出现过大偏差,将未缺失的另外两种模态放入对抗生成网络中,输出对抗生成网络生成的情感特征数据,将补全后的文本、音频、图像的特征信息与情感词典进行匹配,计算权值;
将两种模态放入对抗生成网络中,输出对抗生成网络生成的情感特征数据的过程如下:
构建对抗生成网络中的生成模型以及判别模型,首先对两个模型网络进行训练,利用已进行情感标注的具有完整三模态的训练集数据对判别模型进行训练,使其能够分辨生成模型生成的数据的真伪;
将需要进行情感分析的目标数据导入生成网络中进行训练,若数据未缺失模态,则人为去除需要生成的单一模态后进行导入;若数据缺失某一种模态则直接导入;
输入噪音比较大的随机数据进入生成模型中,根据导入的两种模态的情感特征随机生成一组缺失模态的特征数据;
通过判别模型对生成的特征数据进行判别,当判别结果为造假信息时,生成数据重回生成模型中更新参数重新生成一组特征数据;
不断循环上述方法,更新生成数据直至判别模型无法分辨其真假,输出对抗生成网络生成的特征数据;
S6:若数据信息无缺失模态,依次假定三模态中某一模态缺失,按照S5对数据模态特征进行补全处理,并将对抗生成网络生成的情感特征与假定缺失的同种类情感特征进行融合共同分析,将文本、音频、图像的特征信息与情感词典进行匹配,计算权值;
S7:构建系统对数据信息的反语判别机制,将通过对抗生成网络生成的情感特征数据与源数据中的同类模态情感特征进行对比,若两者情感正负值不同,视为反语,并将源数据该模态的情感值取相反数值进行标识存储;若源数据中的同类模态缺失,则无法进行判断;
S8:将S5或S6中计算得出的文本情感值、音频情感值以及图像情感值综合计算三者平均值得出数据信息整体情感值,分析出多模态信息的整体情感为积极或者为消极。
2.根据权利要求1所述的基于概率情感词典的情感分析系统进行情感分析的方法,其特征在于,所述构建受限玻尔兹曼机RBM神经网络对图片进行特征提取的过程如下:
根据图片的像素点值设置深度置信网络中RBM的可见层神经元和隐层神经元,假设一个拥有M个像素的图片,设置第一个深度置信网络可见层有M个神经元,隐层有M/2个神经元,先将M个像素的图片输入到第一个RBM中训练,训练好之后得到隐层M/2个神经元的输出,等于提取了M/2个特征;把这个值保存下来之后输入第二个RBM,以此类推,根据构建RBM的个数将图片不断地进行特征提取,最终由多个RBM构成的深度置信网络输出总体结果,实现对图片的特征提取。
3.根据权利要求1所述的基于概率情感词典的情感分析系统进行情感分析的方法,其特征在于,所述音频特征提取软件为opensmile,通过配置config文件,提取所需的音频特征。
4.一种执行权利要求1所述的情感分析的方法的基于概率情感词典的情感分析系统,其特征在于,包括数据层、业务层、接口层和用户层;
所述数据层存储对于情感分析算法中所需要使用的不同模态下已标注过情感标签的训练集,以及用户待分析的视频数据;
所述业务层对数据存储层的数据进行训练和分析,包括图像特征提取模块、音频特征提取模块、文本特征提取模块和多模态情感分析模块;所述图像特征提取模块提取图片及从视频中拆分出来的视频图像的特征并存储;所述音频特征提取模块提取从视频中拆分出来的音频特征并存储;所述文本特征提取模块提取文本信息的特征并存储;
所述接口层包括待分析视频输入接口、情感分析结果可视化接口、应用系统调用接口和web应用调用接口;所述待分析视频输入接口将用户层的待分析视频传输至数据存储层进行存储;所述情感分解结果可视化接口将分析结果传输至用户层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010781151.0/1.html,转载请声明来源钻瓜专利网。