[发明专利]基于文本语义相关的网络舆情信息分析方法有效
申请号: | 201310482522.5 | 申请日: | 2013-10-15 |
公开(公告)号: | CN103544255B | 公开(公告)日: | 2017-01-11 |
发明(设计)人: | 陶宇炜;谢爱娟;熊长江;王娟琳 | 申请(专利权)人: | 常州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 213164 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 语义 相关 网络 舆情 信息 分析 方法 | ||
技术领域
本发明涉及网络信息技术领域,具体是一种基于文本语义相关的网络舆情信息分析方法。
背景技术
当今社会,互联网已经渗透到人们的日常生活中,微博、论坛、博客等即时通信工具已经成为人们获取信息,进而发表看法、传播信息的重要渠道。借助网络平台,舆情信息迅速传播,引起广泛关注,其传播的速度之快、范围之广、影响力之大,远非传统媒体可比,网络空间的匿名交互性、非时空限制性等特点,使网络舆情这股强大的社会舆论力量,对社会发展和稳定产生一定的冲击和影响。正面的网络舆情似“正能量”,推动和促进社会发展;负面的网络舆情对社会稳定形成负面效应,引发舆情危机。由此,加强网络舆情信息监测、分析、管理,对稳定社会秩序、构建和谐社会具有重要的现实意义。对网络舆情信息及时监测、正确判断决策、迅速及时回应,积极采取有效措施化解舆情危机,成为网络舆情管理工作的重点和难点问题。
发明内容
针对上述背景技术中网络舆情信息的特点和网络舆情信息管理中需要解决的问题,本发明提供一种基于文本语义相关的网络舆情信息分析方法。
本发明解决其技术问题所采用的技术方案是,一种基于文本语义相关的网络舆情信息分析方法。采用包括网络舆情信息采集模块、舆情信息萃取模块、舆情信息预处理模块、舆情信息挖掘模块、舆情信息分析模块和包含舆情信息数据库的网络舆情信息分析系统,并包括如下步骤:
a.网络舆情信息采集模块从网页中采集各种舆情信息,并存储到舆情信息数据库中;
b.舆情信息萃取模块和舆情信息预处理模块将步骤a采集的舆情信息进行初步过滤和切分,抽取文本所包含的内容信息,为舆情信息挖掘提供数据服务;
c.在步骤b基础上,舆情信息挖掘模块采用基于语义相似度的改进文本聚类分析方法,生成类别描述信息,筛选出聚类分析结果中包含的文本信息;利用基于特征统计的TFIDF词频特征计算方法统计类别特征,获取类别特征词,选择名词作为候选类别特征词,按照候选特征词权重排序,以权重值较大的候选特征词作为类别关键词,利用类别关键词之间的语义关系,形成分类结果;识别和建立新的网络舆情主题,检测、跟踪已有舆情主题的相关内容;
d.最后,舆情信息分析模块把舆情信息经过步骤c挖掘的数据进行OLAP多维统计分析,分析舆情主题内容关注度、舆情主题情感倾向等舆情评测指标。
在步骤a中,所述舆情信息采集模块,是对网络舆情信息源进行采集,与一般的网络爬虫不同的是,它不仅要完成网页的爬取,而且要将网页内容进行格式化处理,提取舆情的主题和内容,所得数据存入txt格式或html格式文件,并存储到舆情信息数据库;网络舆情信息采集模块采用分时访问、定时更换IP地址和模拟浏览器进行单点登录三种技术结合进行防屏蔽。网络舆情信息采集模块采用分时访问、定时更换IP地址和模拟浏览器进行单点登录三种技术结合进行防屏蔽。网络舆情信息采集模块执行的具体步骤为:所述舆情信息采集模块执行的具体步骤为,从预先定义的主题相关网页的URL开始,获取网页中的文本信息,并从当前网页中抽取新的URL放入队列中,直到满足条件的舆情信息采集完毕,URL队列为空为止;将采集到的网页文本信息按照字段分类存储到舆情信息数据库中,提供舆情信息萃取模块调用。
所述舆情信息萃取模块,是清除网页中的无关内容,如网页中的广告、导航信息、图片、版权说明等噪声数据,提取对舆情分析有用的正文部分的元信息,对文本进行重构,将具有主题代表性的信息聚集在一起;所述舆情信息预处理模块,是对采集的舆情信息源经过所述舆情信息萃取模块萃取后,进行中文分词处理、过滤停用词、命名实体识别、词性标注、语法解析和特征词提取,建立正序索引和倒排索引;建立文本特征语义网络图,以文本中包含的实体E作为图的节点,两个实体之间的语义关系作为图的有向边,实体之间的语义关系结合词频信息作为节点的权重,有向边的权重表示实体关系在文本中的重要程度,所述实体E包括事物实体NE、事件实体VE、事件关系实体RE;统计文本的词频和文本频率信息,然后进行特征词抽取,选取体现文本特征的词表示该文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州大学,未经常州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310482522.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于电光晶体的激光线宽腔外调制器
- 下一篇:一种视频源名称处理方法及装置