[发明专利]一种基于计算机信息处理技术的中文文本情感分析方法有效

专利信息
申请号: 201510452024.5 申请日: 2015-07-29
公开(公告)号: CN104965822B 公开(公告)日: 2017-08-25
发明(设计)人: 高琰;晁绪耀 申请(专利权)人: 中南大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 长沙正奇专利事务所有限责任公司43113 代理人: 马强,王娟
地址: 410083 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于计算机信息处理技术的中文文本情感分析方法,将中文产品评论进行分词,利用词袋模型,产生产品评论的向量表示。每个评论的向量输入到深度学习中的受限玻尔兹曼机(RBM)的可视单元。通过这种RBM提取中文文本的情感特征,并将提取出来的情感特征输入到SVM进行文本情感分类。本发明可以提高特征的情感语义关联性,同时SVM可以提高中文产品评论情感分类的准确度。
搜索关键词: 一种 基于 计算机信息 处理 技术 中文 文本 情感 分析 方法
【主权项】:
一种基于计算机信息处理技术的中文文本情感分析方法,其特征在于,包括以下步骤:1)输入中文产品评论文本集,用结巴分词中的精确模式进行中文分词,并确定词性,根据词性进行过滤,保留词性为名词、形容词、副词和连词的词汇,通过中文分词获得已分词后的语料集,对通过中文分词切分成词语的文本进行计算,得到每个词语在每条评论的权值,产生评论向量;2)采用受限玻尔兹曼机对上述评论向量进行特征选择;所述受限玻尔兹曼机由可见层V和隐藏层H构成,层中节点神经元是二元随机数,可见层的节点相互独立,隐藏层节点间相互独立;可见层节点与隐藏层节点之间的连接权值为W;上述步骤1)产生的评论向量输入可见层;3)受限玻尔兹曼机通过对比散度方法进行训练,初始化受限玻尔兹曼机的相关参数,迭代100次后,得到隐藏层节点hj=1在可见层v下的条件概率p(hj=1|v)和可见层节点vi=1在隐藏层h下的条件概率p(vi=1|h);其中,函数偏置量ai和bj初始值均为0;wij为可见层的节点vi与隐藏层的节点hj间的连接权重值,wij服从均值为0,标准差为1的正态分布;4)根据可见层节点vi=1在隐藏层h下的条件概率p(vi=1|h)对可见层节点vi进行重构;如果vi的重构值小于或等于0.01,则认为可见层节点vi不能表示高层结构,舍弃vi对应的词语;如果vi的重构值大于0.01,则将vi的重构值与输入值相减得到差异值;将每篇评论的最大情感特征数设为30,将差异值进行从小到大排列,前30个词vi的差异值比后面的词小,然后找出vi对应的中文词,并把这个词作为特征词;后面的词相对前面30个词对应的差值大,则将vi对应作为非特征词;如果在某评论中,重构值大于0.01的可见层节点的数量小于30,则这些可见层节点对应的词都全部保留做为特征词;保留的特征词共同构成每个评论的向量空间;5)将经步骤4)处理后新产生的评论向量输入到支持向量机中进行分类,获得每个评论向量的情感类别;所述情感类别为正向或负向。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510452024.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top