[发明专利]具有增减量功能的海量微博数据分布式分类装置及方法有效
申请号: | 201310732005.9 | 申请日: | 2013-12-26 |
公开(公告)号: | CN103729431B | 公开(公告)日: | 2017-01-18 |
发明(设计)人: | 王国仁;信俊昌;聂铁铮;赵相国;丁琳琳 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 沈阳东大知识产权代理有限公司21109 | 代理人: | 梁焱 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明一种具有增减量功能的海量微博数据分布式分类装置及方法,属于数据挖掘技术领域,本发明克服了以往的利用极限学习机技术仅能分布式地处理海量微博数据而不能有效地处理微博数据更新的缺陷,良好地解决了针对海量微博数据中数据频繁更新的问题,充分利用了海量微博数据的效用,起到了更好的为应用服务的效果。 | ||
搜索关键词: | 具有 增减 功能 海量 数据 分布式 分类 装置 方法 | ||
【主权项】:
一种具有增减量功能的海量微博数据分布式分类装置,其特征在于,包括多个从控制机和一个主控制机,所述的从控制机包括向量器、剥离器、转换器、后项计算器和前项计算器;所述的主控制机包括前项缓存器、后项缓存器、更新前项累加器、更新后项累加器、前项整合器、后项整合器、参数生成器和分类生成器;其中,向量器:用于将标注后的文本字段进行特征提取,并将提取的特征和标注类型表示成向量形式,并将该向量发送至剥离器;所述的标注后的文本字段为:采集某一微博平台产生的数据,确定采集的微博数据中的文本内容字段,对文本字段进行人工标注分类而获得的文本字段;剥离器:用于对向量化后的文本字段进行剥离,获得所有文本字段的特征矩阵和分类结果矩阵,并将文本字段的特征矩阵发送至转换器,将分类结果矩阵发送至后项计算器;转换器:用于将特征矩阵中的元素进行归一化处理,并在极限学习机选择一个激励函数,将归一化处理后的特征矩阵中的元素代入所选择的激励函数中,获得极限学习机的隐层输出矩阵,并将隐层输出矩阵发送至后项计算器和前项计算器;所述的极限学习机:采用主控制机对所需参数进行初始化处理,即采用主控制机随机生成极限学习机内部参数,包括:隐层节点个数、输入节点的权重向量和隐层节点的偏移量,并将初始化处理后的参数发送至从控制机,以用于从控制机采用极限学习机方法对微博数据进行处理;前项计算器:用于根据获得的隐层输出矩阵,获得第一中间结果,所述的第一中间结果为隐层输出矩阵的转置矩阵与自身的乘积,当采集原始微博数据时,将获得的第一中间结果发送至前项缓存器,当采集更新微博数据时,将获得的第一中间结果发送至更新前项累加器;后项计算器:用于根据获得的隐层输出矩阵和微博数据训练集的分类结果矩阵,获得第二中间结果,所述的第二中间结果为隐层输出矩阵的转置矩阵与分类结果矩阵的乘积,当采集原始微博数据时,将获得的第二中间结果发送至后项缓存器,当采集更新微博数据时,将获得的第二中间结果发送至更新后项累加器;前项缓存器:用于计算并存储所有从控制机发送的第一中间结果的总和,并把总和发送至前项整合器;后项缓存器:用于计算并存储所有从控制机发送的第二中间结果的总和,并把总和发送至后项整合器;更新前项累加器:用于计算并存储所有从控制机发送的更新微博数据第一中间结果的总和,并把总和发送至前项整合器;更新后项累加器:用于计算并存储所有从控制机发送的更新微博数据第二中间结果的总和,并把总和发送至后项整合器;前项整合器:当微博数据量发生变化时,用于将前项缓存器存储的所有从控制机发送的原始数据的第一中间结果和更新前项累加器存储的所有从控制机发送的更新微博数据的第一中间结果进行合并,获得汇总微博数据的第一中间结果并发送至参数生成器;当微博数据量未发生变化时,用于直接将前项缓存器存储的第一中间结果发送至参数生成器;后项整合器:当微博数据量发生变化时,用于将后项缓存器存储的所有从控制机发送的原始微博数据的第二中间结果和更新后项累加器存储的所有从控制机发送的更新微博数据的第二中间结果进行合并,获得汇总微博数据的第二中间结果并发送至参数生成器;当微博数据量未发生变化时,用于直接将后项缓存器存储的第二中间结果发送至参数生成器;参数生成器:用于根据获得的汇总微博数据的第一中间结果和汇总微博数据的第二中间结果,计算获得极限学习机输出节点的权重向量参数并发送至分类生成器;参数生成器根据获得的汇总微博数据的第一中间结果和汇总微博数据的第二中间结果,计算获得极限学习机输出节点的权重向量参数,具体如下:当采集的微博数据量增加时,输出节点的权重向量参数公式如下:β+=(Iλ+H+TH+)-1H+TT+=(Iλ+U+)-1V+---(1)]]>其中,β+表示微博数据量增加时输出节点的权重向量参数;I是单位阵,λ是用户指定的参数,λ>0,(·)‑1是矩阵求逆运算,U+表示微博数据量增加时汇总微博数据的第一中间结果;V+表示微博数据量增加时汇总微博数据的第二中间结果;H+表示微博数据量增加时汇总后的隐层输出矩阵;T+表示微博数据量增加时汇总后的分类结果矩阵;+表示增量;当微博数据量减少或者过期时,输出节点的权重向量参数公式如下:β-=(Iλ+H-TH-)-1H-TT-=(Iλ+U-)-1V----(2)]]>其中,β‑表示微博数据量减少时输出节点的权重向量参数;U‑表示微博数据量减少时汇总微博数据的第一中间结果;V‑表示微博数据量减少时汇总微博数据的第二中间结果;H‑表示微博数据量减少时汇总后的隐层输出矩阵;T‑表示微博数据量减少时汇总后的分类结果矩阵;‑表示减量;参数生成器根据前项整合器发送的数据和后项整合器发送的数据,计算获得极限学习机输出节点的权重向量参数,公式如下:β=(Iλ+HTH)-1HTT1=(Iλ+U)-1V---(3)]]>其中,β表示微博数据量未发生变化时输出节点的权重向量参数;H表示汇总后的隐层输出矩阵;T1表示汇总后的分类结果矩阵;V表示微博数据量未发生变化时的第二中间结果;U表示微博数据量未发生变化时的第一中间结果;分类生成器:当建立分类器时,用于根据获得的输出节点的权重向量参数和待分类微博数据的隐层输出向量,确定微博数据分类函数,即完成微博数据分类器的构建;微博数据分类函数,公式如下:f(x)=h(x)β± (4)其中,f(x)表示待分类微博数据的分类结果,h(x)表示待分类微博数据的隐层输出向量,β±表示微博数据量增加或减少时输出节点的权重向量参数;当对被测微博数据进行分类检测时,用于根据微博数据分类函数和被测微博数据隐层输出向量,确定该被测微博数据的类型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310732005.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种色母粒原料自动控制添加装置
- 下一篇:平膜法聚酯热收缩膜铸片快速成型装置