[发明专利]基于文本语义相关的网络舆情信息分析方法有效
申请号: | 201310482522.5 | 申请日: | 2013-10-15 |
公开(公告)号: | CN103544255B | 公开(公告)日: | 2017-01-11 |
发明(设计)人: | 陶宇炜;谢爱娟;熊长江;王娟琳 | 申请(专利权)人: | 常州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 213164 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于文本语义相关的网络舆情信息分析系统,包括以下模块:网络舆情信息采集模块,从网页中采集蕴含丰富的各种舆情信息;舆情信息萃取模块和舆情信息预处理模块将采集的舆情信息进行初步过滤和切分,提取正文部分的元信息,建立文本的特征语义网络图,并进行加权计算和特征抽取,为舆情信息挖掘提供服务。舆情信息挖掘模块,采用基于语义相似度的改进文本聚类分析方法,将文本进行归类;舆情信息分析模块,把舆情信息经过挖掘的数据进行OLAP多维统计,分析舆情评测指标,为相关舆情信息决策提供支持。本发明解决文本中词语语义信息不完整的问题,高效实现大规模网络环境下对动态数据的聚类分析和热点话题发现。 | ||
搜索关键词: | 基于 文本 语义 相关 网络 舆情 信息 分析 方法 | ||
【主权项】:
基于文本语义相关的网络舆情信息分析方法,其特征在于:采用包括网络舆情信息采集模块、舆情信息萃取模块、舆情信息预处理模块、舆情信息挖掘模块、舆情信息分析模块和包含舆情信息数据库的网络舆情信息分析系统,并包括如下步骤:a.网络舆情信息采集模块从网页中采集各种舆情信息,并存储到舆情信息数据库中;b.舆情信息萃取模块和舆情信息预处理模块将步骤a采集的舆情信息进行初步过滤和切分,抽取文本所包含的内容信息,为舆情信息挖掘提供数据服务;c.在步骤b基础上,舆情信息挖掘模块采用基于语义相似度的改进文本聚类分析方法,生成类别描述信息,筛选出聚类分析结果中包含的文本信息;利用基于特征统计的TFIDF词频特征计算方法统计类别特征,获取类别特征词,选择名词作为候选类别特征词,按照候选特征词权重排序,以权重值较大的候选特征词作为类别关键词,利用类别关键词之间的语义关系,形成分类结果;识别和建立新的网络舆情主题,检测、跟踪已有舆情主题的相关内容;d.最后,舆情信息分析模块把舆情信息经过步骤c挖掘的数据进行OLAP多维统计分析,分析舆情主题内容关注度、舆情主题情感倾向等舆情评测指标;在步骤a中,所述舆情信息采集模块,是对网络舆情信息源进行采集,不仅要完成网页的爬取,而且要将网页内容进行格式化处理,提取舆情的主题和内容,所得数据存入txt格式或html格式文件,并存储到舆情信息数据库;网络舆情信息采集模块采用分时访问、定时更换IP地址和模拟浏览器进行单点登录三种技术结合进行防屏蔽。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州大学,未经常州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310482522.5/,转载请声明来源钻瓜专利网。
- 上一篇:基于电光晶体的激光线宽腔外调制器
- 下一篇:一种视频源名称处理方法及装置