[发明专利]一种互联网舆情信息的分类处理方法无效

申请号：	200810147719.2	申请日：	2008-11-28
公开（公告）号：	CN101414300A	公开（公告）日：	2009-04-22
发明（设计）人：	高辉;傅彦;陈旭	申请（专利权）人：	电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06N3/06
代理公司：	北京市路盛律师事务所	代理人：	温利平
地址：	611731四川省***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种互联网舆情信息的分类处理方法，选取已分类的舆情信息文本作为训练文本并分词，选取名词和动词并进行筛选，提取得到特征词将训练文本向量化，然后得到PCA变换特征矩阵、BP神经网络模型、决策树规则。利用PCA变换特征矩阵将待分类舆情信息文本的向量矩阵的向量降维，然后根据BP神经网络模型对其进行变换，得到与分类数量相同维数的输出向量，再用决策树规则进行匹配，若有，则待分类舆情信息文本属于该规则所标记的舆情信息分类。由于PCA变换将高维相关的特征词空间转化为低维正交的特征空间，解决了分类不准确的缺点；同时利用决策树规分类无需比较数据之间的相似性，能够在相对短的时间内处理大量数据源。
搜索关键词：	一种互联网舆情信息分类处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1、一种互联网舆情信息的分类处理方法，其特征在于，包括以下步骤：(1)、将互联网舆情信息分为M类，从互联网网站下载、提取舆情信息，人工将其分为M类舆情信息中的一种，并以文本文件的格式保存在相应的文件目录中，每类选取f个的舆情信息文本作为训练文本；(2)、采用汉字分词系统对每个训练文本进行分词，根据词性，从分出词语中选取名词和动词作为候选特征词进行筛选，提取代表该类舆情信息的g个特征词，从而得到所有训练文本的G个特征词，其中G＝M×g；(3)、获取主成分分析变换矩阵按步骤(2)得到G个特征词在每个训练文本中出现的词频，向量化每一个训练文本，得到N个G维的向量xi＝(xi，1，xi，2，…，xi，G)，1≤i≤N，构成训练文本的向量矩阵(TM)N×G，其中，N＝M×f；计算N个训练文本在每一个维度上的均值：其中mj为N个训练文本向量在第j维上的均值，xi，j表示第i个向量xi在第j维上的值，1≤j≤G。计算G个特征词之间的协方差矩阵C：其中xi，k，xj，l分别为向量xi和xj在第k与l维上的值，mk，ml分别为样本在第k维和第l维上的均值，1≤i，j≤N，1≤k，l≤G，协方差矩阵C为对称矩阵，即有C(i，j)＝C(j，i)；计算协方差矩阵C特征值λi及其对应的特征向量ui(i＝1，2，...，G)，并按特征值的大小降序排列，即λ1>λ2>...>λG；选取前r个特征值λi对应的主成分特征向量u1，u2，...，ur，得到主成分分析变换特征矩阵A＝(u1，u2，...，ur)T，其中(4)、获取BP神经网络模型的网络权值矩阵w与偏移值b将训练文本的向量矩阵(TM)N×G乘以主成分分析变换特征矩阵A的转置矩阵(AT)G×1，得到经主成分分析变换后的向量矩阵(TM_PCA)N×1，将其中的N个r维行向量作为BP神经网络模型的N个输入向量，将每一个训练文本对应一个表示该训练文本所属舆情信息分类的M维输出向量，训练BP神经网络，当BP神经网络渐趋稳定时，保存训练好的神经网络模型参数，即网络权值矩阵w与偏移值b，获得获取BP神经网络模型；(5)、获取决策树规则集利用步骤(4)得到的神经网络模型，将训练文本的向量矩阵(TM)N×G经主成分分析变换后得到的向量矩阵(TM_PCA)N×r作为神经网络模型N个输入向量，计算得到对应的N个M维的神经网络模型输出向量，构成BP神经网络输出矩阵(TM_PCA_BP)N×M；在矩阵(TM_PCA_BP)N×M中每一行都对应一个M维的神经网络输出向量，根据每一行对应训练文本所属的舆情信息分类，将每一个M维神经网络输出向量增加一维表示该训练文本所属的舆情信息分类，这N个M+1维向量构成了决策树样本矩阵(Sample)N×(M+1)；矩阵(Sample)N×(M+1)中N个向量在第l(1≤l≤M)维上有k个不同的数x1，x2，...，xk，对于其中的每个数x(1≤J≤k)，将N个向量在第i维上的值分为两类，小于xi的为一类，不超过xj的为另一类，第一类和第二类中分别有n1和n2个值，按如下公式求出N个行向量在第i维上基于xJ(1≤J≤k)的熵值：将k个熵值中最大熵值对应的数xJ，记为max Sl，计算N个向量在前M维上的最大熵值对应的数，得到一个熵值数组S＝{max S1，max S2，...，max SM}。根据熵值数组S对矩阵(Sample)N×(M+1)，中个N行向量在前M维上的值进行离散化，如果在第i维上的值大于等于max Si，则离散化为1，否则离散化为0；然后利用C4. 5决策树算法建立基于离散化后矩阵(Sample)N×(M+1)的决策树分类模型，得到决策树规则集Rule；(6)、从互联网网站下载、提取舆情信息，并以文本格式保存，作为待分类舆情信息文本，其个数为F；(7)、采用汉字分词系统对每个待分类舆情信息文本进行分词，按步骤(2)得到G个特征词在每个待分类舆情信息文本中出现的词频，向量化每一个待分类舆情信息文本，得到F个G维的向量xi＝(xi，1，xi，2，…，xi，G)，1≤i≤F，构成待分类舆情信息文本的向量矩阵(T)F×G；将待分类舆情信息文本的向量矩阵(T)F×G乘以步骤(3)得到的主成分分析变换特征矩阵A的转置矩阵(AT)G×r，得到经主成分分析变换后的向量矩阵(T_PCA)F×r；将主成分分析变换后的向量矩阵(T_PCA)F×r中的F个r维向量作为步骤(4)获取BP神经网络模型的F个输入向量，计算出F个输入向量对应的F个M维的神经网络输出向量；根据步骤(5)获得的熵值数组S对F个M维神经网络输出向量的每一维进行离散化；将离散化后的每一个M维神经网络输出向量与步骤(5)中得到的决策树规则集Rule中的决策树规则进行匹配，若有，则待分类舆情信息文本属于该规则所标记的舆情信息分类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200810147719.2/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种互联网舆情信息的分类处理方法无效

专利文献下载