[发明专利]一种基于计算机信息处理技术的中文文本情感分析方法有效
申请号: | 201510452024.5 | 申请日: | 2015-07-29 |
公开(公告)号: | CN104965822B | 公开(公告)日: | 2017-08-25 |
发明(设计)人: | 高琰;晁绪耀 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 长沙正奇专利事务所有限责任公司43113 | 代理人: | 马强,王娟 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于计算机信息处理技术的中文文本情感分析方法,将中文产品评论进行分词,利用词袋模型,产生产品评论的向量表示。每个评论的向量输入到深度学习中的受限玻尔兹曼机(RBM)的可视单元。通过这种RBM提取中文文本的情感特征,并将提取出来的情感特征输入到SVM进行文本情感分类。本发明可以提高特征的情感语义关联性,同时SVM可以提高中文产品评论情感分类的准确度。 | ||
搜索关键词: | 一种 基于 计算机信息 处理 技术 中文 文本 情感 分析 方法 | ||
【主权项】:
一种基于计算机信息处理技术的中文文本情感分析方法,其特征在于,包括以下步骤:1)输入中文产品评论文本集,用结巴分词中的精确模式进行中文分词,并确定词性,根据词性进行过滤,保留词性为名词、形容词、副词和连词的词汇,通过中文分词获得已分词后的语料集,对通过中文分词切分成词语的文本进行计算,得到每个词语在每条评论的权值,产生评论向量;2)采用受限玻尔兹曼机对上述评论向量进行特征选择;所述受限玻尔兹曼机由可见层V和隐藏层H构成,层中节点神经元是二元随机数,可见层的节点相互独立,隐藏层节点间相互独立;可见层节点与隐藏层节点之间的连接权值为W;上述步骤1)产生的评论向量输入可见层;3)受限玻尔兹曼机通过对比散度方法进行训练,初始化受限玻尔兹曼机的相关参数,迭代100次后,得到隐藏层节点hj=1在可见层v下的条件概率p(hj=1|v)和可见层节点vi=1在隐藏层h下的条件概率p(vi=1|h);其中,函数偏置量ai和bj初始值均为0;wij为可见层的节点vi与隐藏层的节点hj间的连接权重值,wij服从均值为0,标准差为1的正态分布;4)根据可见层节点vi=1在隐藏层h下的条件概率p(vi=1|h)对可见层节点vi进行重构;如果vi的重构值小于或等于0.01,则认为可见层节点vi不能表示高层结构,舍弃vi对应的词语;如果vi的重构值大于0.01,则将vi的重构值与输入值相减得到差异值;将每篇评论的最大情感特征数设为30,将差异值进行从小到大排列,前30个词vi的差异值比后面的词小,然后找出vi对应的中文词,并把这个词作为特征词;后面的词相对前面30个词对应的差值大,则将vi对应作为非特征词;如果在某评论中,重构值大于0.01的可见层节点的数量小于30,则这些可见层节点对应的词都全部保留做为特征词;保留的特征词共同构成每个评论的向量空间;5)将经步骤4)处理后新产生的评论向量输入到支持向量机中进行分类,获得每个评论向量的情感类别;所述情感类别为正向或负向。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510452024.5/,转载请声明来源钻瓜专利网。