[发明专利]基于深度学习的文本情绪分析系统有效
申请号: | 201710093688.6 | 申请日: | 2017-02-21 |
公开(公告)号: | CN106919673B | 公开(公告)日: | 2019-08-20 |
发明(设计)人: | 施寒潇;厉小军;陈南南 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9535;G06F17/27;G06N3/08 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度学习的文本情绪分析系统,包括:信息采集模块、信息预处理模块、情绪分析模块以及信息展示模块,所述的信息采集模块用于采集各互联网资源网站中的评论信息,所述的信息预处理模块用于对采集到的评论信息进行分类、分词、词性标注以及情绪信息标注处理并存储,所述的情绪分析模块用于将处理后的评论信息经过词表示模型、句子模型以及篇章模型转化为短语向量,并将该短语向量输入到情绪分类模型进行情绪分析,所述的信息展示模块用于将情绪分析结果可视化地呈现。该系统能够对评论信息进行情绪倾向性分析,可视化地呈现给用户,进而为企业或政府等相关部门提供舆情分析结果或预警。 | ||
搜索关键词: | 基于 深度 学习 文本 情绪 分析 系统 | ||
【主权项】:
1.一种基于深度学习的文本情绪分析系统,其特征在于,包括:信息采集模块、信息预处理模块、情绪分析模块以及信息展示模块,所述的信息采集模块用于采集各互联网资源网站中的评论信息,所述的信息预处理模块用于对采集到的评论信息进行分类、分词、词性标注以及情绪信息标注处理并存储,所述的情绪分析模块用于将处理后的评论信息经过词表示模型、句子模型以及篇章模型转化为短语向量,并将该短语向量输入到情绪分类模型进行情绪分析,所述的信息展示模块用于将情绪分析结果可视化地呈现;所述的情绪分析模块包括:词向量文件,用于将预处理后的句子中的每个词语与该句子的情绪标签转化为相应的词向量;句子向量表示模块,用于将词向量转化为句子向量;篇章向量表示模块,用于将句子向量转化为篇章向量;情绪分析模型,用于对输入的篇章向量进行情绪分析,得到相应的情绪分析结果;其中,所述的词向量文件中的每个词对应的词向量是包含词性信息和情绪信息的,是训练C&W‑SP模型得到的,具体方法为:首先,添加获取句子的情感信息的情感抽取模块和获取句子中每个词的词性信息的词性标注模块于C&W模型上,得到C&W‑SP模型;然后,对数据集以句子为单位采用中科院汉语分词系统或结巴分词方法进行中文分词操作,得到由m个句子组成的分词数据集;接下来,将分词数据集中的每个句子的情绪标签标注于句子末端,将每个句子中每个词语的词性标签标注于该词语的后端,将该句子情感标签的词性标签标注于该情绪标签的后端,作为C&W‑SP模型训练集;最后,将C&W‑SP模型训练集输入到C&W‑SP模型中,以C&W‑SP模型损失函数最小化为目标,采用随机梯度下降和反向传播算法更新模型参数,得到该训练集中每个词对应的词向量,组成词向量文件;其中,C&W‑SP模型分为输入层、线性隐藏层、非线性隐藏层以及线性输出层,训练过程为:将训练集作为输入,通过滑动窗口的方式将窗口内每个词的n‑gram以及情感性信息和词性信息输入到模型进行训练,通过线性隐藏层和非线性隐藏层,输出一个二维标量[fcw,f1u],其中,fcw代表词性‑语义分数,f1u代表情感分数;C&W‑SP模型的损失函数为:lossC&W‑SP(t,tr)=α·losscw(t,tr)+(1‑α)·lossus(t,tr)其中,α为权重,losscw(t,tr)为C&W模型的损失函数,具体为:losscw(t,tr)=max(0,1‑fcw(t)+fcw(tr))lossus(t,tr)为情感损失函数,具体为:lossus(t,tr)=max(0,1‑δs(t)f1u(t)+δs(t)f1u(tr))δs(t)为反映句子情感倾向性的指示函数,其具体计算公式为:
给定训练语料库中的任一句子t,t=(wi‑(n‑1)/2,...,wi‑1,wi,wi+1,...,wi+(n‑1)/2),通过使用词典中的其他词wi′将句子中心位置的单词wi随机替换,被替换句子记为tr,fcw(t)为t的词性‑语义分数,fcw(tr)为tr的词性‑语义分数;f1u(t)为t的情感分数,f1u(tr)为tr的情感分数,g=gold polarity,即标准情感倾向,[1,0]表示积极,[0,1]表示消极;C&W‑SP模型训练的目标是以lossC&W‑SP(t,tr)最小,实际含义是原始句子的语言模型分数
比被替换句子的语言模型分数
至少高1,且原始句子的情感分数f1u(t)和被替换句子的情感分数f1u(tr)相一致。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710093688.6/,转载请声明来源钻瓜专利网。