[发明专利]一种面向大数据的分布式主题发现方法及系统有效

专利信息
申请号: 201310526790.2 申请日: 2013-10-30
公开(公告)号: CN103593418B 公开(公告)日: 2017-03-29
发明(设计)人: 吴新宇;何清;庄福振;敖翔 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京律诚同业知识产权代理有限公司11006 代理人: 祁建国,梁挥
地址: 100190 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种面向大数据的分布式主题发现系统及方法,包含三个并行处理过程,每个过程均由映射、组合、化简三个功能模块中的一个或多个组合而成,对每个输入文档的特征向量进行正规化,并且对构成该文档的每个词在本文档中出现次数进行计数;在映射功能模块端将每个文档作为一个原始类并对文档频率计数,在组合模块端对映射模块端产生的原始类进行本地聚类,生成局部类,在化简模块端对来自多个远端物理节点组合产生的局部类进行聚类,生成全局类;对第二个映射/化简过程产生全局类的内部关键词进行打分和排序,输出用户所需的K个高分关键词表达主题。从而处理TB级数据,并且计算能力线性上升,真正实现分布式计算,提高性能和效率。
搜索关键词: 一种 面向 数据 分布式 主题 发现 方法 系统
【主权项】:
一种面向大数据的分布式主题发现系统,其特征在于,该分布式主题发现系统在运行时共包含三个并行处理过程,映射、组合、化简三个功能模块中的一个或多个组合执行每个过程,其中:映射模块,用于将任务的输入数据分割成多个固定大小的数据片段,随后将每个数据片段进一步分解成一批键值对<K1,V1>;分布式主题发现系统自动将该键值对<K1,V1>依次传入用户编写的处理函数中,生成计算的中间结果键值对<K2,V2>;接着分布式主题发现系统自动将中间结果键值对<K2,V2>按照键K2进行排序,将K2值相同的键值对的V2放在一起形成一个新的列表,形成<K2,list(V2)>的元组,list表示值的列表,作为组合模块的输入;组合模块,当映射模块生成的数据过大时,组合模块将映射模块产生的<K2,list(V2)>元组作为输入,使用用户编写的处理函数对输入数据进行组合和压缩,生成<K3,list(V3)>的元组,作为化简模块的输入;化简模块,用于接收来自多个远端物理节点的组合模块产生的<K3,list(V3)>元组作为输入;化简模块对不同来源的<K3,list(V3)>元组按照K3的值进行排序,使来自不同远端物理节点的拥有相同K3的<K3,list1(V3)>,<K3,list2(V3)>,<K3,list3(V3)>元组合并成为一个<K3,list(all V3)>全局元组,list1,list2,list3代表来自三个不同远端物理节点的组合模块产生的元组,将此全局元组作为输入使用用户编写的处理函数对输入数据进行化简等处理,生成输出结果键值对<K4,V4>,分布式主题发现系统自动将输出结果写入分布式文件系统中,形成最终结果文件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310526790.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top