[发明专利]一种基于深度学习的自然语言情感识别方法在审
申请号: | 202010613189.7 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111813894A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 蔡淑娜;张素平;苏晓丹;孙玉龙;张林瑞;李志;吴皓;李泽清;符佳慧 | 申请(专利权)人: | 郑州信大先进技术研究院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06K9/62;G06N3/04 |
代理公司: | 郑州德勤知识产权代理有限公司 41128 | 代理人: | 张微微 |
地址: | 450000 河南省郑*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 自然语言 情感 识别 方法 | ||
本发明提供一种基于深度学习的自然语言情感识别方法,包括根据海量舆情数据进行文本特征提取模型doc2vec、图片特征提取模型CNNs和情感识别模型CNN的训练;采集新的舆情信息,对舆情数据进行清洗分类,将文本信息输入至doc2vec模型,进行文本特征提取;将图片数据输出至CNNs模型,进行图片情感特征的提取;采用基于核矩阵的特征层融合算法将前两步提取的文本和图片情感特征进行特征层融合;并将得到的融合特征输入情感识别模型,输出情感识别结果。
技术领域
本发明涉及自然语言处理技术领域,具体的说,涉及了一种基于深度学习的自然语言情感识别方法。
背景技术
近年来,我国互联网产业发展迅速,中国互联网络信息中心(CNNIC)第45次报告显示,截至2020年3月,我国网民规模为9.04亿,互联网普及率达64.5%,大部分网络应用的用户规模呈现较大幅度增长。作为一个开放型的平台,网络舆论环境鱼龙混杂,其中对社会发展有益的建议和观点,能够为公众提供便利,给人们带来正能量,而部分失实扭曲的舆论,如果不能进行及时有效的舆论引导和监管,会对民众和国家带来严重心理恐慌和安全威胁。
网络情感识别指通过一定的方法对网民发表在互联网中的观点和情感进行分析,并依据不同的标准划分为不同的类别。情感识别属于自然语言处理领域的重要研究内容之一,为政府民意调查、商家营销策略制定、互联网舆论引导和监管等提供了必不可少的技术支撑。目前学术界已针对网络情感识别提出了一些算法和技术,这些研究大都采用计算手段,在语料丰富、情感倾向明朗、分布均匀时识别精度表现良好,对网络情感识别、研判、引导起到了很好的效果。但面对现实中海量、复杂的舆情数据,传统方法有时会出现性能不稳、精度低等问题,亟待寻求新的技术方法突破现有困境。
但目前的网络情感识别算法大多基于文本这一单模态,而融合文本和图片多模态特征进行情感识别的研究还没被国内外该领域学者广泛关注。随着新媒体时代到来,网民更倾向于采用文本加配图的形式表达自己的情感,甚至有时相同的文本加不同的图片表达出完全相反的意思,因此忽略图片仅通过文本有时难以识别其真正情感,并且现有的基于文本这一单模态进行情感识别算法中大多采用word2vec模型,忽略了单词之间的排列顺序对句子或文本情感分析的影响,容易遗漏文本隐含信息。
为了解决以上存在的问题,人们一直在寻求一种理想的技术解决方案。
发明内容
本发明的目的是针对现有技术的不足,从而提供了一种基于深度学习的自然语言情感识别模型的训练方法以及一种基于深度学习的自然语言情感识别方法,以解决因图片情感被忽略以及以往算法模型不够优越而导致的情感识别不准确问题,有效提高针对图文多模态数据情感识别的准确度。
为了实现上述目的,本发明所采用的技术方案是:一种基于深度学习的自然语言情感识别模型的训练方法,包括:
S1,获取海量图文舆情数据,对于包含多张图片的一条舆情数据,选择其中一张最有情感代表性图片;对图文舆情数据进行预处理,包括去除停用词、对文本分词、移除文本中无意义符号、将表情符号转化为相应的情感词;
S2,将图文舆情数据分为训练集和验证集,并分别将训练集和验证集里的舆情数据划分为文本数据和图片数据;
S3,建立doc2vec模型,所述doc2vec模型采用的训练算法为Skip-Gram模型,其窗口长度window设置为5,文本特征维数size设置为100,训练词最小出现次数min_count设置为3,训练中最大迭代次数iter设置为5000;
对训练集和验证集里的文本数据进行预处理,利用训练集里的文本数据进行doc2vec模型的训练,并利用验证集里的文本数据进行doc2vec模型的验证;每一轮训练和每一轮验证均输出一个文本特征提取结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州信大先进技术研究院,未经郑州信大先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010613189.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于信号检测的跳伞机构弹出平台及方法
- 下一篇:一种换挡规律的确定方法及车辆