[发明专利]一种自适应的网络舆情识别方法无效
申请号: | 200910167639.8 | 申请日: | 2009-09-15 |
公开(公告)号: | CN101819573A | 公开(公告)日: | 2010-09-01 |
发明(设计)人: | 高辉;傅彦;佘莉;曾奉尧;周民 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自适应 网络 舆情 识别 方法 | ||
技术领域
本发明涉及网络信息处理技术领域,具体来讲,涉及一种网络舆情识别方法。
背景技术
网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的 有较强影响力、倾向性的言论和观点,主要通过BBS论坛、博客、新闻跟贴、 转贴等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和 随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。网 络舆情是一股强大的舆论力量,会反作用于热点事件并对社会发展和事态进程 产生一定的影响。如果引导不善,负面的网络舆情将对社会公共安全形成较大 威胁。对相关政府部门来说,如何准确的识别网络舆情信息并加于及时监测和 有效引导,对维护社会稳定、促进国家发展具有重要的现实意义,也是构建和 谐网络的应有内涵。
因此,对网络信息中的舆情信息进行及时准确的识别具有重要的意义,如何 将处在萌发状态的舆情信息识别出来具有至关重要的作用,甚至可以被认为是 网络舆情监控系统的核心。
目前国内的舆情监控系统大多侧重于从海量网络信息中发现热点话题为出 发点来实现对网络舆情的识别和监控,其热点话题发现的实现通常采用关键词 匹配、统计词频的方式,根据新闻出处权威度、发言时间密集程度等参数,识 别出给定时间段内的热门话题,再利用内容主题词和敏感词库进行综合语义分 析,识别出热门话题中的敏感话题。这些监控系统对于社会热门事件引起的网 络舆情的发现具有一定的效果,适合给有关机构提供分析和参考。但是由于热 点发现的速度一般比较慢,往往是需要流行了一段时间才能发现出来,而且发 现出来的热点话题也仅仅是印证当前社会的热点,容易失去网络舆情识别的时 效性,因此采用热点话题发现技术来识别网络舆情具有一定的滞后性,如何及 时准确地识别网络中的舆情信息成为一个亟待解决的问题。
发明内容
本发明的目的在于克服上述现有技术的不足,提供一种能及时准确地了解网 络舆论的网络舆情识别方法。
为实现本发明目的,本发明的网络舆情识别方法,包括以下步骤:
(1)、从互联网中采集网页文档并对其预处理,得到的信息文档存放到网页 数据库;
(2)、导出网页数据库中的信息文档进行文档向量化,对所有的信息文档进 行分类,结果分别写入舆情信息类别库、非舆情信息类别库和候选舆情信息类 别库,该步骤从内容方面识别已知舆情信息类别的信息文档;
(3)、分类失败的信息文档聚类,判断聚类结果所属类别并将其写入相应的 信息类别库;
(4)、对候选舆情信息类别库的信息文档进行行为识别,基于同一类别相关 文档之间的关系建立社会网络并对其进行社会网络分析,关系行为符合舆情行 为特征的识别为新的舆情,把新的舆情类别信息写入舆情信息类别库。
进一步,为使本发明获得更好的发明效果,在上述步骤1中,通过网络爬虫 从互联网中采集网页;通过信息提取单元对网页进行解析预处理,获取到的标 题、正文等信息组装成网页信息文档。
进一步,为使本发明获得更好的发明效果,在上述步骤2中,所述的信息文 档分类做法是:首先构建舆情信息类别库、非舆情信息类别库和候选舆情信息 类别库,然后基于各个信息类别库的分类模型对所有的信息文档分类,分类结 果写入相应信息类别库以更新其分类模型。
进一步,为使本发明获得更好的发明效果,在上述步骤3中,分类失败的剩 余文档按事件进行聚类;聚类结果通过卡方计算的方式判断其所属类别。
进一步,为使本发明获得更好的发明效果,在上述步骤4中,所述的行为 识别是通过社会网络分析的方式实现的,做法是定期对候选舆情类别库中的信 息文档进行检测,当某个事件小类的相关信息文档数量达到一定规模,抽取这 个事件的信息文档集合建立社会网络并分析社会网络参数,网络行为符合舆情 行为特征的则识别为舆情,识别结果写入舆情信息类别库以完善其分类模型。
进一步,为使本发明获得更好的发明效果,在上述步骤4中,所述的构建 社会网络是以图的形式来表述网络上信息文档之间的关系结构,所述的图可以 是有向图或者无向图。
本发明通过未知舆情事件发现技术和已知舆情信息类别识别技术相结合的 方式,可以在未知舆情事件萌发阶段就对其进行有效的识别,然后再采用已知 舆情信息类别识别技术对其进行监控,从而达到及时而又准确的识别网络舆情, 弥补了以往舆情识别方法采用热点话题发现技术识别网络舆情所带来的时间滞 后的不足。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910167639.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无人机便捷式充电装置
- 下一篇:一种基于超级电容的蓄电池混合储能系统