[发明专利]具有增减量功能的海量微博数据分布式分类装置及方法有效
申请号: | 201310732005.9 | 申请日: | 2013-12-26 |
公开(公告)号: | CN103729431B | 公开(公告)日: | 2017-01-18 |
发明(设计)人: | 王国仁;信俊昌;聂铁铮;赵相国;丁琳琳 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 沈阳东大知识产权代理有限公司21109 | 代理人: | 梁焱 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 增减 功能 海量 数据 分布式 分类 装置 方法 | ||
技术领域
本发明属于数据挖掘技术领域,具体涉及一种具有增减量功能的海量微博数据分布式分类装置及方法。
背景技术
目前,互联网上每时每刻都会产生大量的信息,这些信息的表现形式多种多样,其中微博平台产生的信息量也在迅速增加。任何人都可以成为微博用户,并且任何人都可以随时在任何支持微博的客户端上发表和读取信息,使得微博数据的更新速度也非常迅速。为此,如何采取适当的措施与技术,从海量的微博数据中挖掘有用的信息,同时能够有效地处理不断更新的微博数据,对未来事物做出预测性的判断已经成为当前数据挖掘领域研究的热点与难点问题。
如今微博数据中包含了大量的微博用户情感信息,例如观点分析、商品评价、民意检测等方面,这些信息表明了微博用户对某个事件、商品、人物等的观点和看法,这些情感信息具有很高的研究和应用价值,也就使得针对微博数据的情感分析获得了广泛的关注,具有了广阔的应用前景。
在现有的针对海量微博数据的相关研究中,分布式的处理方法仅仅能够达到处理海量规模的微博数据的目的,然而在大数据环境下的很多实际应用中,往往存在频繁的数据更新,例如新数据的不断产生,旧数据的过期等问题,采用现有的分布式处理方法很难应对大数据的频繁更新所带来的挑战。
发明内容
针对现有技术存在的不足,本发明一种具有增减量功能的海量微博数据分布式分类装置及方法,以达到对不断更新的微博数据进行有效地处理和分析,提高数据处理快速性和准确性,更好的为应用服务。
一种具有增减量功能的海量微博数据分布式分类装置,包括多个从控制机和一个主控制机,所述的从控制机包括向量器、剥离器、转换器、后项计算器和前项计算器;所述的主控制机包括前项缓存器、后项缓存器、更新前项累加器、更新后项累加器、前项整合器、后项整合器、参数生成器和分类生成器;其中,
向量器:用于将标注后的文本字段进行特征提取,并将提取的特征和标注类型表示成向量形式,并将该向量发送至剥离器;
剥离器:用于对向量化后的文本字段进行剥离,获得所有文本字段的特征矩阵和分类结果矩阵,并将文本字段的特征矩阵发送至转换器,将分类结果矩阵发送至后项计算器;
转换器:用于将特征矩阵中的元素进行归一化处理,并在极限学习机选择一个激励函数,将归一化处理后的特征矩阵中的元素代入所选择的激励函数中,获得极限学习机的隐层输出矩阵,并将隐层输出矩阵发送至后项计算器和前项计算器;
前项计算器:用于根据获得的隐层输出矩阵,获得第一中间结果,所述的第一中间结果为隐层输出矩阵的转置矩阵与自身的乘积,当采集原始微博数据时,将获得的第一中间结果发送至前项缓存器,当采集更新微博数据时,将获得的第一中间结果发送至更新前项累加器;
后项计算器:用于根据获得的隐层输出矩阵和微博数据训练集的分类结果矩阵,获得第二中间结果,所述的第二中间结果为隐层输出矩阵的转置矩阵与分类结果矩阵的乘积,当采集原始微博数据时,将获得的第二中间结果发送至后项缓存器,当采集更新微博数据时,将获得的第二中间结果发送至更新后项累加器;
前项缓存器:用于计算并存储所有从控制机发送的第一中间结果的总和,并把总和发送至前项整合器;
后项缓存器:用于计算并存储所有从控制机发送的第二中间结果的总和,并把总和发送至后项整合器;
更新前项累加器:用于计算并存储所有从控制机发送的更新微博数据第一中间结果的总和,并把总和发送至前项整合器;
更新后项累加器:用于计算并存储所有从控制机发送的更新微博数据第二中间结果的总和,并把总和发送至后项整合器;
前项整合器:
当微博数据量发生变化时,用于将前项缓存器存储的原始数据的第一中间结果和更新前项累加器存储的更新微博数据的第一中间结果进行合并,获得汇总微博数据的第一中间结果并发送至参数生成器;
当微博数据量未发生变化时,用于直接将前项缓存器存储的第一中间结果发送至参数生成器;
后项整合器:
当微博数据量发生变化时,用于将后项缓存器存储的原始微博数据的第二中间结果和更新后项累加器存储的更新微博数据的第二中间结果,获得汇总微博数据的第二中间结果并发送至参数生成器;
当微博数据量未发生变化时,用于直接将后项缓存器存储的第二中间结果发送至参数生成器;
参数生成器:用于根据获得的汇总微博数据的第一中间结果和汇总微博数据的第二中间结果,计算获得极限学习机输出节点的权重向量参数并发送至分类生成器;
分类生成器:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310732005.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种色母粒原料自动控制添加装置
- 下一篇:平膜法聚酯热收缩膜铸片快速成型装置