[发明专利]一种海量微博数据的分布式分类装置及方法有效

专利信息
申请号: 201210583886.8 申请日: 2012-12-28
公开(公告)号: CN103020712B 公开(公告)日: 2013-04-03
发明(设计)人: 王国仁;信俊昌;聂铁铮;赵相国;丁琳琳 申请(专利权)人: 东北大学
主分类号: G06N5/00 分类号: G06N5/00
代理公司: 沈阳东大知识产权代理有限公司 21109 代理人: 梁焱
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种海量微博数据的分布式分类装置及方法,属于数据挖掘技术领域。该装置采用分布式结构,根据ELM的处理方法,每个从控制机将自身处理的用于生成最终微博数据分类器的中间结果发送给主控制机,主控制机接收所有从控制机发送来的中间结果后,根据ELM的原理,得到最终的微博数据分类器,利用产生的微博数据分类器实现对微博数据的分类。克服了以往的利用极限学习机技术仅能应用于集中式环境,无法适应大规模训练样本集的ELM分类的缺陷,使得处理和分析海量微博数据成为可能,令应用中积累的海量微博数据的效用得到充分发挥,起到了更好的为应用服务的效果。
搜索关键词: 一种 海量 数据 分布式 分类 装置 方法
【主权项】:
一种海量微博数据的分布式分类方法,采用海量微博数据的分布式分类装置实现,该装置采用分布式结构,包括一台主控制机和至少一台从控制机,且每个从控制机均与主控制机互联,主控制机和每个从控制机相互通信,所有从控制机间相互独立;所述的从控制机包括:向量器:用于将从控制机中带有分类结果的每条微博训练数据转换成向量表示的形式,其中包括每条微博数据的数据部分的特征向量xi和分类结果部分ti;剥离器:用于剥离向量器处理后的微博数据训练集中的所有微博数据的特征向量矩阵Xi和分类结果矩阵Ti;转换器:利用极限学习机ELM的原理,用于将剥离器抽取的特征向量矩阵Xi转换成ELM中的隐层输出矩阵Hi;前项计算器:利用极限学习机ELM的原理,用于根据隐层输出矩阵Hi,计算中间结果HiTHi,并提交给主控制机;后项计算器:利用极限学习机ELM的原理,用于根据隐层输出矩阵Hi和微博数据集中分类结果矩阵Ti,计算中间结果HiTTi,并提交给主控制机;所述的主控制机包括:前项累加器:用于合并各个从控制机提交的中间结果HiTHi,得到汇总结果HTH;后项累加器:用于合并各个从控制机提交的中间结果HiTTi,得到汇总结果HTT;参数生成器:利用极限学习机ELM的原理,用于根据汇总的前项累加器和后项累加器输出的结果,计算输出节点的权重向量参数β;分类生成器:根据参数生成器得到的参数β构建微博数据的分类装置,用于对待测试的微博数据进行分类;所述的每个从控制机是将自身处理的、用于生成最终微博数据分类器的中间结果发送给主控制机,主控制机接收所有从控制机发送来的中间结果后,根据ELM的原理,得到最终的微博数据分类器;其特征在于:包括以下步骤:步骤1:微博训练数据集的准备;微博训练数据集的准备包括对抓取原始的微博数据和人工对微博数据进行标注两个部分;采用如下两种方式:第一种方式是由主控制机抓取所需处理的原始微博数据,并为每一条训练数据进行人工标注,表示这些微博数据的分类结果,然后将这些微博数据分配到相应的从控制机;第二种方式是由主控制机与每个从控制机通信,通知每个从控制机需要抓取的微博数据的信息,每个从控制机自身抓取原始微博数据,并为自身抓取的原始微博数据进行人工标注,表示这些微博数据的分类结果;步骤2:主控制机将所需参数初始化,并发送给所有的从控制机;利用极限学习机ELM的原理,由主控制机预先随机生成参数,包括:隐层节点个数L、输入节点的权重向量w1,w2,...,wL、隐层节点的偏移量b1,b2,...,bL,并将这些参数发送到所有的从控制机;步骤3:每个从控制机对各自的局部微博数据集进行处理,并将处理结果发送给主控制机,由主控制机生成微博数据分类器;步骤3‑1:微博数据向量化;将带有分类结果部分的每条微博训练数据进行向量化,其中包括每条微博数据的数据部分的特征向量xi和分类结果部分ti;步骤3‑2:微博数据的剥离;对于每个从控制机微博数据训练集中的经过特征提取的微博数据集,剥离这些数据的特征向量部分和分类结果部分,形成每个从控制机的微博数据训练集的特征向量矩阵Xi和分类结果矩阵Ti,即使得每个从控制机均生成各自的局部微博数据集(Xi,Ti),其中,Xi为微博数据集的特征矩阵,Ti为微博数据集的分类结果矩阵;步骤3‑3:每个从控制机根据各自的局部微博数据集生成中间结果,并发送给主控制机;具体如下:每个从控制机ni根据接收的输入节点的权重向量w1,w2,...,wL和第i个隐层节点的阈值b1,b2,...,bL,以及局部微博训练数据集(Xi,Ti),计算构建分类器所需的中间结果,并将中间结果提交给主控制机;步骤3‑3‑1:将局部微博数据集的特征矩阵Xi转化为ELM的隐层输出矩阵Hi;步骤3‑3‑2:根据隐层输出矩阵Hi,计算中间结果Ui=HiTHi;步骤3‑3‑3:根据隐层输出矩阵Hi和局部训练数据集的分类结果矩阵Ti,计算中间结果Vi=HiT Ti;步骤3‑4:主控制机接收并汇总各个从控制机的中间结果;根据汇总的中间结果按照ELM的计算原理,计算输出节点的权重向量参数β,进而求得微博数据分类器;所述的计算输出节点的权重向量参数β,具体如下:步骤3‑4‑1:合并各个从控制机提交的中间结果Ui,得到汇总结果U=∑Ui=∑HiTHi=HTH;步骤3‑4‑2:合并各个从控制机提交的中间结果Vi,得到汇总结果V=∑Vi=∑HiTTi=HTT;步骤3‑4‑3:根据汇总的U和V计算输出节点的权重向量参数β:<mrow><mi>&beta;</mi><mo>=</mo><msup><mrow><mo>(</mo><mfrac><mi>I</mi><mi>&lambda;</mi></mfrac><mo>+</mo><msup><mi>H</mi><mi>T</mi></msup><mi>H</mi><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><msup><mi>H</mi><mi>T</mi></msup><mi>T</mi><mo>=</mo><msup><mrow><mo>(</mo><mfrac><mi>I</mi><mi>&lambda;</mi></mfrac><mo>+</mo><mi>U</mi><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><mi>V</mi></mrow>其中,I是单位阵,λ是用户指定的参数,(·)‑1是矩阵求逆运算;进而确定微博数据分类器的公式如下:f(x)=h(x)β式中,f(x)表示待分类微博数据的分类结果,h(x)表示待分类微博数据的隐层输出向量;步骤4:微博数据的自动分类;微博数据的自动分类可以采取两种方式:第一种方式为主控制机继续抓取微博数据,运用步骤3生成的微博数据分类器直接输出待分类的微博数据的分类结果,第二种为主控制机将步骤3生成的微博数据分类器发送给各个从控制机,然后各个从控制机运用分类器对自身的待分类的微博数据进行分类,求得分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210583886.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top