[发明专利]一种对网络舆情信息进行情感分类的方法在审
申请号: | 201510359172.2 | 申请日: | 2015-06-25 |
公开(公告)号: | CN104899335A | 公开(公告)日: | 2015-09-09 |
发明(设计)人: | 刘念 | 申请(专利权)人: | 四川友联信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62;G06N3/08 |
代理公司: | 四川力久律师事务所 51221 | 代理人: | 王芸;林辉轮 |
地址: | 610015 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 舆情 信息 进行 情感 分类 方法 | ||
技术领域
本发明涉及自然语言处理领域,特别涉及一种对网络舆情信息进行情感分类的方法。
背景技术
互联网舆情,或者称为网络舆情,是一个伴随着近半个多世纪计算机信息技术的发展和近二十年互联网的出现和普及而逐渐浮出水面的一个全新概念。互联网舆情由两个概念结合而成--互联网(Internet)和舆情(Public Opinion)。
互联网的开放性、全球性、即时性、广泛性、海量性、互动性、平等性、低成本性和多媒体性等诸多特点决定了对于普通民众而言,遍布全球每一个角落的、触手可及的互联网是最佳的观点表达和传播媒介,愈来愈多的普通民众倾向于通过网络,而不是报纸(newspaper)、杂志(magazine)、广播(broadcast)或电视(television),来表达自己在自由言论方面的诉求。
根据针对我国的实际情况所展开的相关分析和研宄可知,我国国内的互联网舆情的表现形式和承载平台主要有以下四种:
(1)BBS论坛,包括社会论坛(天涯)、高校论坛(水木)、主题论坛(强国论坛)和地方论坛(深圳人)等等;
(2)博客,包括新浪博客、百度空间、搜狐博客、北邮人博客、腾讯空间等在内的各式各样的个人博客和名人博客;
(3)新闻及新闻跟帖,包括新浪新闻、搜狐新闻、腾讯新闻、网易新闻等大塑门户网站的新闻栏目及每条新闻后面的跟帖和回复;
(4)微博和社交网络,包括新浪微博、搜狐微博、新华微博、腾讯微博等微博和幵心网、人人网等SNS社交网络平台上网民的言论、评论、回复、转发、分享等内容。
近年来,网络舆情对政治生活秩序和社会稳定的影响与日俱增,一些重大的网络舆情事件使人们开始认识到网络对社会监督起到的巨大作用。同时,网络舆情突发事件如果处理不当,极有可能诱发民众的不良情绪,引发群众的违规和过激行为,进而对社会稳定构成威胁。此外企业自身的舆情信息的正负面性判别对于企业本身有着重要意义。对于网络舆情的上述特点,对现实中出现的各种网络舆论,应能做出及时反馈,防微杜渐,防患于未然。因此,必须利用现代信息技术对网络舆情予以分析,从而进行控制和引导。由于网上的信息量十分巨大,仅依靠人工的方法难以应对网上海量信息的收集和处理,需要自动化的网络舆情分析方法,及时应对网络舆情。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于对网络舆情信息进行情感分类的方法,采用汉语词法分析系统——ICTCLAS对文本进行分词,保留名词,动词和形容词来作为特征,以χ2统计来选择特征,然后用BP神经网络分类器进行情感分类。
为了实现上述发明目的,本发明提供了以下技术方案:
一种对网络舆情信息进行情感分类的方法,包括以下步骤:
(1)对网络舆情信息的文章进行中文分词;
(2)将分词后的词汇输入神经网络;
(3)计算出所述文章的正负面性完成情感分类。
优选的,所述中文分词采用ICTCLAC中文分词系统。
优选的,所述中文分词采用ICTCLAC中文分词系统对所述文章进行分词,保留名词、动词和形容词作为特征。
优选的,所述中文分词采用ICTCLAC中文分词系统对所述文章进行分词,保留名词、动词和形容词作为特征之后、输入神经网络之前还包括特征选择步骤。
优选的,所述特征选择步骤具体为:采用文档频率、χ2统计、信息增益或互信息方法,选择所需的特征作为神经网络的输入。
优选的,所述神经网络为BP神经网络。
优选的,所述BP神经网络为3层或大于3层的前馈型BP网络。
优选的,所述BP神经网络为经过训练的BP神经网络,所述训练步骤如下:
a.通过网络爬虫技术爬取网络舆情信息的文章;
b.对爬取的文章通过ICTCLAC中文分词系统进行分词;
c.分词后采用χ2统计法进行文本特征选择,选择所需的中文词汇;
d.将爬取的文章进行文章正负面性的人工判别,判别文章是正面的,负面的,还是中性的;
e.将χ2统计法后选择的中文词汇出现的数量作为神经网络的输入,文章正负面性的判别结果作为神经网络的输出,对神经网络进行训练,计算出神经网络的各层权值。
与现有技术相比,本发明的有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川友联信息技术有限公司,未经四川友联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510359172.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文件索引的建立方法及系统
- 下一篇:一种无类别标签的时间序列异常检测方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置