[发明专利]一种互联网舆情信息的分类处理方法无效

专利信息
申请号: 200810147719.2 申请日: 2008-11-28
公开(公告)号: CN101414300A 公开(公告)日: 2009-04-22
发明(设计)人: 高辉;傅彦;陈旭 申请(专利权)人: 电子科技大学
主分类号: G06F17/30 分类号: G06F17/30;G06N3/06
代理公司: 北京市路盛律师事务所 代理人: 温利平
地址: 611731四川省*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种互联网舆情信息的分类处理方法,选取已分类的舆情信息文本作为训练文本并分词,选取名词和动词并进行筛选,提取得到特征词将训练文本向量化,然后得到PCA变换特征矩阵、BP神经网络模型、决策树规则。利用PCA变换特征矩阵将待分类舆情信息文本的向量矩阵的向量降维,然后根据BP神经网络模型对其进行变换,得到与分类数量相同维数的输出向量,再用决策树规则进行匹配,若有,则待分类舆情信息文本属于该规则所标记的舆情信息分类。由于PCA变换将高维相关的特征词空间转化为低维正交的特征空间,解决了分类不准确的缺点;同时利用决策树规分类无需比较数据之间的相似性,能够在相对短的时间内处理大量数据源。
搜索关键词: 一种 互联网 舆情 信息 分类 处理 方法
【主权项】:
1、一种互联网舆情信息的分类处理方法,其特征在于,包括以下步骤:(1)、将互联网舆情信息分为M类,从互联网网站下载、提取舆情信息,人工将其分为M类舆情信息中的一种,并以文本文件的格式保存在相应的文件目录中,每类选取f个的舆情信息文本作为训练文本;(2)、采用汉字分词系统对每个训练文本进行分词,根据词性,从分出词语中选取名词和动词作为候选特征词进行筛选,提取代表该类舆情信息的g个特征词,从而得到所有训练文本的G个特征词,其中G=M×g;(3)、获取主成分分析变换矩阵按步骤(2)得到G个特征词在每个训练文本中出现的词频,向量化每一个训练文本,得到N个G维的向量xi=(xi,1,xi,2,…,xi,G),1≤i≤N,构成训练文本的向量矩阵(TM)N×G,其中,N=M×f;计算N个训练文本在每一个维度上的均值:其中mj为N个训练文本向量在第j维上的均值,xi,j表示第i个向量xi在第j维上的值,1≤j≤G。计算G个特征词之间的协方差矩阵C:其中xi,k,xj,l分别为向量xi和xj在第k与l维上的值,mk,ml分别为样本在第k维和第l维上的均值,1≤i,j≤N,1≤k,l≤G,协方差矩阵C为对称矩阵,即有C(i,j)=C(j,i);计算协方差矩阵C特征值λi及其对应的特征向量ui(i=1,2,...,G),并按特征值的大小降序排列,即λ1>λ2>...>λG;选取前r个特征值λi对应的主成分特征向量u1,u2,...,ur,得到主成分分析变换特征矩阵A=(u1,u2,...,ur)T,其中(4)、获取BP神经网络模型的网络权值矩阵w与偏移值b将训练文本的向量矩阵(TM)N×G乘以主成分分析变换特征矩阵A的转置矩阵(AT)G×1,得到经主成分分析变换后的向量矩阵(TM_PCA)N×1,将其中的N个r维行向量作为BP神经网络模型的N个输入向量,将每一个训练文本对应一个表示该训练文本所属舆情信息分类的M维输出向量,训练BP神经网络,当BP神经网络渐趋稳定时,保存训练好的神经网络模型参数,即网络权值矩阵w与偏移值b,获得获取BP神经网络模型;(5)、获取决策树规则集利用步骤(4)得到的神经网络模型,将训练文本的向量矩阵(TM)N×G经主成分分析变换后得到的向量矩阵(TM_PCA)N×r作为神经网络模型N个输入向量,计算得到对应的N个M维的神经网络模型输出向量,构成BP神经网络输出矩阵(TM_PCA_BP)N×M;在矩阵(TM_PCA_BP)N×M中每一行都对应一个M维的神经网络输出向量,根据每一行对应训练文本所属的舆情信息分类,将每一个M维神经网络输出向量增加一维表示该训练文本所属的舆情信息分类,这N个M+1维向量构成了决策树样本矩阵(Sample)N×(M+1);矩阵(Sample)N×(M+1)中N个向量在第l(1≤l≤M)维上有k个不同的数x1,x2,...,xk,对于其中的每个数x(1≤J≤k),将N个向量在第i维上的值分为两类,小于xi的为一类,不超过xj的为另一类,第一类和第二类中分别有n1和n2个值,按如下公式求出N个行向量在第i维上基于xJ(1≤J≤k)的熵值:将k个熵值中最大熵值对应的数xJ,记为max Sl,计算N个向量在前M维上的最大熵值对应的数,得到一个熵值数组S={max S1,max S2,...,max SM}。根据熵值数组S对矩阵(Sample)N×(M+1),中个N行向量在前M维上的值进行离散化,如果在第i维上的值大于等于max Si,则离散化为1,否则离散化为0;然后利用C4. 5决策树算法建立基于离散化后矩阵(Sample)N×(M+1)的决策树分类模型,得到决策树规则集Rule;(6)、从互联网网站下载、提取舆情信息,并以文本格式保存,作为待分类舆情信息文本,其个数为F;(7)、采用汉字分词系统对每个待分类舆情信息文本进行分词,按步骤(2)得到G个特征词在每个待分类舆情信息文本中出现的词频,向量化每一个待分类舆情信息文本,得到F个G维的向量xi=(xi,1,xi,2,…,xi,G),1≤i≤F,构成待分类舆情信息文本的向量矩阵(T)F×G;将待分类舆情信息文本的向量矩阵(T)F×G乘以步骤(3)得到的主成分分析变换特征矩阵A的转置矩阵(AT)G×r,得到经主成分分析变换后的向量矩阵(T_PCA)F×r;将主成分分析变换后的向量矩阵(T_PCA)F×r中的F个r维向量作为步骤(4)获取BP神经网络模型的F个输入向量,计算出F个输入向量对应的F个M维的神经网络输出向量;根据步骤(5)获得的熵值数组S对F个M维神经网络输出向量的每一维进行离散化;将离散化后的每一个M维神经网络输出向量与步骤(5)中得到的决策树规则集Rule中的决策树规则进行匹配,若有,则待分类舆情信息文本属于该规则所标记的舆情信息分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200810147719.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top