[发明专利]训练情感分类模型和文本情感极性分析的方法及系统在审
申请号: | 201510931457.9 | 申请日: | 2015-12-15 |
公开(公告)号: | CN105512687A | 公开(公告)日: | 2016-04-20 |
发明(设计)人: | 张建华;刘鹏 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08;G06F17/27 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 胡彬;孟金喆 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 情感 分类 模型 文本 极性 分析 方法 系统 | ||
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种训练情感分类模型的方法及 系统和一种文本情感极性分析的方法及系统。
背景技术
情感分析,又称倾向性分析,具体是可以对带有情感色彩的主观性文本进 行分析、处理、归纳和推理的过程。常见的情感分析有意见抽取、意见挖掘、 情感挖掘和主观分析等。
在金融信息分析方面,长期以来,投资者广泛地认可金融市场易受恐惧和 贪婪等人性驱使,但缺乏一种技术或数据来客观全面量化人们的具体情感。对 社交数据进行情感分析,为一直以来被金融市场非理性举动所困扰的投资者, 打开了一扇了解心灵世界的窗户,通过大众对市场信息的情感分析来预测市场 趋势。
在商品销售方面,当新商品上架一段时间后,对商品的评价针对一些属性 做情感分析,或者做混合属性的情感分析,然后对这些分析结果做总结,并对 有代表性的评价做情感呈现。对商家来说,可以省去大量的市场调查,也可以 用来分析用户体验,用以持续改进后期的产品。对用户来说,亦可以根据已买 完用户的评价来综合制定购买策略。
在企业舆情分析方面,通过对大量的公开社交数据,分析公众对企业自身 的一些相关热点的态度看法,并可以据此制定相应的公关策略。
在现有技术中,情感分析的步骤大体上是:
第一步,确定一个词是积极还是消极,是主观还是客观,主要依靠词典;
第二步,识别一个句子是积极还是消极,是主观还是客观;
第三步,从情感挖掘上升到意见挖掘。
传统情感分析通用的方法是对情感词典构建树,将要分析的内容做分词后 对里面的每个词通过词典树去查找,确定要分析的内容中正面词和负面词的个 数,再通过这两个数量的比较确定要分析的内容的极性,即积极或消极。这种 方法只考虑用单个情感词出现的数量或频率判断情感极性,而没考虑用词之间 共现的共性来做情感分析,为此人们尝试了很多情感分类模型。
在情感分析模型中,词是以向量的形式表示,最简单的就是one-hot representation,就是用一个很长的向量表示一个词,向量的长度为词典的大小, 向量的分量只有一个1,其它全是0,1的位置对应该词在词典中的索引。但是, 这种词向量容易受维度灾难的困扰。而将上面的词映射到一个新的空间中,并 以多维的连续实数向量进行表示,称为“WordRepresention”或“Word Embedding”。经过长期的实验,人们逐渐从原始的词向量稀疏表示法过渡到现 在的低维空间中的密集表示。因为用词向量稀疏表示法在解决实际问题时经常 会遇到维度灾难问题,并且语义信息无法表示,无法揭示词之间的潜在联系。
发明内容
针对上述情感分类模型的不足,本发明提供一种训练情感分类模型的方法 及系统和一种文本情感极性分析的方法及系统,通过神经网络模型,采用低维 空间表示词向量,可避免维度灾难问题,挖掘词与词之间的关联属性,提高向 量语义上的准确度。
第一方面,本发明实施例提供的一种训练情感分类模型的方法,包括:
从语料库中采集数据,获得原始数据;
对所述原始数据进行预处理,获得预处理数据;
通过神经网络模型,从所述预处理数据中提取词向量;
将所述词向量,按预设融合规则进行融合,生成句向量特征;
根据所述句向量特征,训练情感分类模型,得到训练后的情感分类模型。
第二方面,本发明实施例提供的一种文本情感极性分析的方法,包括:
从目标文本中提取句向量特征;
根据所述句向量特征和上述训练情感分类模型的方法得到的训练后的情感 分类模型,分析所述目标文本的情感极性。
第三方面,本发明实施例提供的一种训练情感分类模型的系统,包括:
数据采集单元,用于从语料库中采集数据,获得原始数据;
原始数据预处理单元,用于对所述原始数据进行预处理,获得预处理数据;
词向量提取单元,用于通过神经网络模型,从所述预处理数据中提取词向 量;
句向量特征生成单元,用于将所述词向量,按预设融合规则进行融合,生 成句向量特征;以及
情感分类模型训练单元,用于根据所述句向量特征,训练情感分类模型, 得到训练后的情感分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510931457.9/2.html,转载请声明来源钻瓜专利网。