[发明专利]一种基于深度信念网络的短文本特征优化及情感分析方法有效
申请号: | 201710360583.2 | 申请日: | 2017-05-21 |
公开(公告)号: | CN107193801B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 杜永萍;陈守钦;赵晓铮 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/279 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 信念 网络 文本 特征 优化 情感 分析 方法 | ||
本发明公开一种基于深度信念网络的短文本特征提取及情感分析方法,包括:步骤1、获取微博短文本语料集合、同义词典、语义递进关联词、微博表情词典、分词模型;步骤2、对短文本进行扩展重构;步骤3、短文本分词及预处理;步骤4,词语相似度计算模型构建;步骤5、短文本特征向量扩展;步骤6、对扩展后的候选特征集合基于深度信念网络的特征深度自适应抽取;步骤7、将深度信念网络获得特征集合利用机器学习分类算法进行分类训练,获得分类预测模型;步骤8、利用分类预测模型将测试数据集进行情感标注。本发明方法能够更有效的发现潜在特征语义信息,提高了情感特征提取的质量,从而提高了情感分类的准确度。
技术领域
本发明属于文字信息处理领域,尤其涉及一种基于深度信念网络的短文本特征提取及情感分析方法。
背景技术
情感分析的主要内容是发现文本所携带的主观性意见,包含信息主体的想法、爱好、情感表达等方面,是一个多学科融合的任务,涉及NLP(Natural LanguageProcessing)、IR(Information Retrieval)、AI(Artificial Intelligence)等众多领域。
短文本情感分析研究是伴随着国内外新型社交工具的出现而发展的新兴方向,相对于传统文本的观点和情感倾向分析,短文本由于内容简短,特征稀疏,语法表达随意,充斥着大量的表情元素等非标准表达词语及短句。传统文本情感分析方法可以借鉴但同时存在许多需要改进的方面,如何弥补现有方法的不足,提高短文本情感分类的准确度,是工业界及学术界研究的重点。
现有的特征提取算法主要有文档频率(Document Frequency,DF)、卡方检验(Chi-Square Statistic,CHI)、信息增益(Information Gain,IG)、TF*IDF(Term Frequency–Inverse Document Frequency)等算法。
文档频率:以某个特征项在某个类别中出现的文档数作为特征权值的标准,从而导致该方法的理论性不强,获得的结果与领域的关联性差。
卡方检验:在计算方法中只是关心词是否在文档中出现,而不关心出现的次数,因此该算法可能会夸大低频词的作用。
信息增益:信息增益考虑某个特征项对于整个语料库的信息量贡献,不能够针对某个类别进行特征选择,因此信息增益较为适合做全局的特征选择。
TF*IDF:可能会夸大TF值计算时,较长文档中较高频率特征项的作用,因此使用时常将TF值归一化。
综上,基于规则的情感分析方法不能有效的利用文本潜在的语义信息,传统机器学习特征提取的方法主要基于概率统计的方法,存在固有的缺陷,为了弥补这些方法的不足,本发明在扩展重构短文本的基础上引入深度学习工具深度信念网络,对短文本特征进行深度自适应学习,经过实验证明,该方法能够较好的发现并提取更高质量的潜在语义特征,较大幅度的提高情感分类的性能。
发明内容
本发明提供一种基于深度信念网络的短文本特征提取及情感分析方法,实现了基于深度学习算法-深度信念网络的短文本特征自适应抽取,并以此进行情感倾向判定,通过与传统特征提取方法进行对比发现,本方法能够更有效的发现潜在特征语义信息,提高了情感特征提取的质量,从而提高了情感分类的性能。
为实现上述目的,本发明采用如下的技术方案:
一种基于深度学习的新型短文本特征提取及情感分析方法包括以下步骤:
步骤1、获取微博短文本语料集合、同义词典、语义递进关联词、微博表情词典、分词模型。
步骤2、对短文本进行扩展重构,包括:
(2.1)将微博语料按照转发评论关系构建上下文关联树;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710360583.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:面板模组
- 下一篇:用于CAN总线故障处理的自动编码方法和系统