[发明专利]一种互联网舆情信息的分类处理方法无效

专利信息
申请号: 200810147719.2 申请日: 2008-11-28
公开(公告)号: CN101414300A 公开(公告)日: 2009-04-22
发明(设计)人: 高辉;傅彦;陈旭 申请(专利权)人: 电子科技大学
主分类号: G06F17/30 分类号: G06F17/30;G06N3/06
代理公司: 北京市路盛律师事务所 代理人: 温利平
地址: 611731四川省*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 互联网 舆情 信息 分类 处理 方法
【权利要求书】:

1.一种互联网舆情信息的分类处理方法,其特征在于,包括以下步骤:

(1)、将互联网舆情信息分为M类,从互联网网站下载、提取舆情信息,人工将其分为M类舆情信息中的一种,并以文本文件的格式保存在相应的文件目录中,每类选取f个的舆情信息文本作为训练文本;

(2)、采用汉字分词系统对每个训练文本进行分词,根据词性,从分出词语中选取名词和动词作为候选特征词进行筛选,对每一类舆情信息提取代表该类舆情信息的g个特征词,从而得到所有训练文本的G个特征词,其中G=M×g;

(3)、获取主成分分析变换矩阵

按步骤(2)得到G个特征词在每个训练文本中出现的词频,向量化每一个训练文本,得到N个G维的向量xi=(xi,1,xi,2,...,xi,G),1≤i≤N,构成训练文本的向量矩阵(TM)N×G,其中,N=M×f;

计算N个训练文本在每一个维度上的均值:

mj=1NΣi=1Nxi,j,]]>

其中为N个训练文本向量在第j维上的均值,xi,j表示第i个向量xi在第j维上的值,1≤j≤G。

计算G个特征词之间的协方差矩阵C:

C(k,l)=1NΣi,j=1N(xi,k-mk)(xj,l-ml)]]>

其中xi,k,xj,l分别为向量xi和xj在第k与l维上的值,分别为样本在第k维和第l维上的均值,1≤i,j≤N,1≤k,l≤G,协方差矩阵C为对称矩阵,即有C(i,j)=C(j,i);

计算协方差矩阵C特征值λi及其对应的特征向量ui(i=1,2,...,G),并按特征值的大小降序排列,即λ1>λ2>...>λG;选取前r个特征值λi对应的主成分特征向量u1,u2,...,ur,得到主成分分析变换特征矩阵A=(u1,u2,...,ur)T,其中

r=min{t|λ1+λ2+...+λ1λ1+λ2+...+λG80%};]]>

(4)、获取BP神经网络模型的网络权值矩阵w与偏移值b

将训练文本的向量矩阵(TM)N×G乘以主成分分析变换特征矩阵A的转置矩阵(AT)G×r,得到经主成分分析变换后的向量矩阵(TM_PCA)N×r,将其中的N个r维行向量作为BP神经网络模型的N个输入向量,将每一个训练文本对应一个表示该训练文本所属舆情信息分类的M维输出向量,训练BP神经网络,当BP神经网络渐趋稳定时,保存训练好的神经网络模型参数,即网络权值矩阵w与偏移值b,获取BP神经网络模型;

(5)、获取决策树规则集

利用步骤(4)得到的神经网络模型,将训练文本的向量矩阵(TM)N×G经主成分分析变换后得到的向量矩阵(TM_PCA)N×r作为神经网络模型N个输入向量,计算得到对应的N个M维的神经网络模型输出向量,构成BP神经网络输出矩阵(TM_PCA_BP)N×M

在矩阵(TM_PCA_BP)N×M中每一行都对应一个M维的神经网络输出向量,根据每一行对应训练文本所属的舆情信息分类,将每一个M维神经网络输出向量增加一维表示该训练文本所属的舆情信息分类,这N个M+1维向量构成了决策树样本矩阵(Sample)N×(M+1)

矩阵(Sample)N×(M+1)中N个向量在第i(1≤i≤M)维上有k个不同的数x1,x2,...,xk,对于其中的每个数xj(1≤j≤k),将N个向量在第i维上的值分为两类,小于xj的为一类,不超过xj的为另一类,第一类和第二类中分别有n1和n2个值,按如下公式求出N个行向量在第i维上基于xj(1≤j≤k)的熵值:

I(xj)=-n1N*log2(n1N)-n2N*log2(n2N)]]>

将k个熵值中最大熵值对应的数xj,记为maxSi,计算N个向量在前M维上的最大熵值对应的数,得到一个熵值数组S={max S1,max S2,...,maxSM};根据熵值数组S对矩阵(Sample)N×(M+1)中N个行向量在前M维上的值进行离散化,如果在第i维上的值大于等于maxSi,则离散化为1,否则离散化为0;

然后利用C4.5决策树算法建立基于离散化后矩阵(Sample)N×(M+1)的决策树分类模型,得到决策树规则集Rule;

(6)、从互联网网站下载、提取舆情信息,并以文本格式保存,作为待分类舆情信息文本,其个数为F;

(7)、采用汉字分词系统对每个待分类舆情信息文本进行分词,按步骤(2)得到G个特征词在每个待分类舆情信息文本中出现的词频,向量化每一个待分类舆情信息文本,得到F个G维的向量xi=(xi,1,xi,2,...,xi,G),1≤i≤F,构成待分类舆情信息文本的向量矩阵(T)F×G

将待分类舆情信息文本的向量矩阵(T)F×G乘以步骤(3)得到的主成分分析变换特征矩阵A的转置矩阵(AT)G×r,得到经主成分分析变换后的向量矩阵(T_PCA)F×r

将主成分分析变换后的向量矩阵(T_PCA)F×r中的F个r维向量作为步骤(4)获取BP神经网络模型的F个输入向量,计算出F个输入向量对应的F个M维的神经网络输出向量;

根据步骤(5)获得的熵值数组S对F个M维神经网络输出向量的每一维进行离散化;将离散化后的每一个M维神经网络输出向量与步骤(5)中得到的决策树规则集Rule中的决策树规则进行匹配,若有,则待分类舆情信息文本属于匹配决策树规则所标记的舆情信息分类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810147719.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top