[发明专利]一种互联网舆情信息的分类处理方法无效
申请号: | 200810147719.2 | 申请日: | 2008-11-28 |
公开(公告)号: | CN101414300A | 公开(公告)日: | 2009-04-22 |
发明(设计)人: | 高辉;傅彦;陈旭 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/06 |
代理公司: | 北京市路盛律师事务所 | 代理人: | 温利平 |
地址: | 611731四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 舆情 信息 分类 处理 方法 | ||
技术领域
本发明属于互联网信息发布监控技术领域,具体来讲,涉及一种互联网舆情信息的分类处理方法。
背景技术
随着互联网技术的快速发展,人们可以更方便地在线浏览网页,阅读新闻,同时也能发布帖子和评论,编辑个人网页。用户对信息的产生,传播和消费等对互联网的发展发挥着重要作用。
由于互联网传播的虚拟性、隐蔽性、发散性、渗透性和随意性,互联网舆情以“内容威胁”的形式逐渐对社会公共安全构成威胁。舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络的开放性和虚拟性使得互联网舆情具有以下特点:1、直接性,通过BBS,新闻点评和博客网站,网民可以立即发表意见;2、突发性,网络舆论的形成迅速,一个热点事件加上一种情绪化的意见,可以成为点燃一片舆论的导火索;3、偏差性,由于发言者身份隐蔽,并且缺少规则限制和有效监督,网络自然成为一些网民发泄情绪的空间;此外在现实生活中遇到挫折,对社会问题片面认识等等,都会利用网络宣泄。因此,互联网舆情形成迅速,对社会影响巨大,不仅受到国内外各级管理部门密切关注,也受到社会各界的高度重视,不少国家通过立法的方式从法律和行政制度上采取相应措施进行管理。鉴于互联网具有的开放性,个人对互联网的使用又具有相当的自由性,因此从技术的角度对互联网舆情信息进行分类处理,对互联网舆情信息的分析及预测具有重要意义。
互联网舆情信息常规分类方法分为两类:一是基于知识的分类方法;二是基于统计的分类方法。基于知识的分类方法需要知识库作为支撑,另外,由于知识提取、更新、维护以及自我学习等方面存在的种种问题,使得它适用面较窄。基于统计的分类方法由于不苛求复杂的语言学知识和领域知识,在实际应用中收到的良好效果,成为目前最流行的文本分类方法。现有广泛应用的基于统计的模型有向量空间模型,贝叶斯模型等。
G.Salton等人在20世纪60年代提出的向量空间模型(VSM)把文本表示为以特征词的权重为分量的向量,作为向量空间的一个点,然后通过计算向量间的距离决定文本类别的归属。由于把文本分类简化为空间向量的运算,使得问题的复杂性大大降低。
传统基于向量空间模型的文本分类处理方法存在如下缺点:一是简单将模型中的“项”取为文本中的特征词,而特征词之间具有一定的相关性,因此会导致向量之间距离的计算不够准确,从而造成文本分类效果不理想;二是局限于惯用的相似性度量的分类模式,简单将文本对应一个高维空间上的特征向量,相似度计算量巨大。
发明内容
本发明的目的在于克服上述现有技术的不足,提供一种分类更为准确、计算量更小的互联网舆情信息的分类处理方法。
为实现上述目的,本发明的互联网舆情信息的分类处理方法,包括以下步骤:
(1)、将互联网舆情信息分为M类,从互联网网站下载、提取舆情信息,人工将其分为M类舆情信息中的一种,并以文本文件的格式保存在相应的文件目录中,每类选取f个的舆情信息文本作为训练文本;
(2)、采用汉字分词系统对每个训练文本进行分词,根据词性,从分出词语中选取名词和动词作为候选特征词进行筛选,提取代表该类舆情信息的g个特征词,从而得到所有训练文本的G个特征词,其中G=M×g;
(3)、获取主成分分析变换矩阵
按步骤(2)得到G个特征词在每个训练文本中出现的词频,向量化每一个训练文本,得到N个G维的向量xi=(xi,1,xi,2,…,xi,G),1≤i≤N,构成训练文本的向量矩阵(TM)N×G,其中,N=M×f;
计算N个训练文本在每一个维度上的均值:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810147719.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:大众运输工具的乘车导引方法
- 下一篇:一种车辆行驶中的安全预警方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置