[发明专利]数据处理方法及装置在审
申请号: | 201510615762.7 | 申请日: | 2015-09-24 |
公开(公告)号: | CN105160014A | 公开(公告)日: | 2015-12-16 |
发明(设计)人: | 谭良;王闪 | 申请(专利权)人: | 四川师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 张玲 |
地址: | 610000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,具体而言,涉及数据处理方法及装置。
背景技术
“大数据”是我们这个时代的核心特征,它代表着信息技术的发展进入了一个新的时代。随着新一代信息技术的创新和应用普及,大数据已经在互联网、金融、医疗、交通、零售等多个领域得到了广泛的应用。种类广泛、数量庞大、产生更新速度不断加快的大数据蕴含着前所未有的巨大价值,同时也带来了巨大的技术挑战。Web网页大数据是大数据的主要数据来源之一,在海量的、动态的Web数据中获取有用知识的数据挖掘不仅在互联网行业广泛应用,而且对其他行业也产生了重大的影响。
当前,Web数据正在以一种惊人的速度增长,移动互联网、物联网和云计算等技术的发展使得各种类型的Web数据正在源源不断地从各行各业迅速产生。据市场调研公司IDC的预测:到2020年全球的数据总量将超过40ZB。据统计,百度每天需要处理的网页数据达到10PB-100PB。因此,很多行业提供的存储系统容量逐渐从数十GB发展到数百TB,甚至数PB。企业所面临的数据备份与恢复的时间需求却越来越多,管理数据的成本越来越高,数据存储的空间消耗也越来越大。然而,研究发现,存储系统所保存的数据中高达60%是冗余的,而且随着时间的推移越来越多。其中,大量数据的重复存储必然会带来存储空间浪费和处理时间增加的问题,最终导致大数据分析成本升高,为企业或个人带来压力。
为了改善上述问题,重复数据删除技术已经受到了越来越多的企业和研究机构的关注,知名存储企业EMC、HP、NEC、Microsoft以及Symantec等都推出了重复数据删除相关的产品,而很多国内外研究机构,如Princeton大学、Minnesota大学、California大学以及国内的华中科技大学、清华大学、国防科技大学、华南理工大学等都对重复数据删除技术做了深入研究,并取得了许多有价值的研究成果。
重复数据删除技术(DataDe-duplication)也被称为智能数据压缩或者单一实例存储,通过识别相同的数据,将相同的数据只保留唯一的一个副本,以此达到消除数据冗余、降低存储容量需求的目的。目前,国内外针对重复数据删除的研究主要集中在数据库记录以及文件存储系统中。
发明人经研究发现,现今重复数据删除技术的研究成果虽然涉及到各种重复数据检测方法以及针对大规模Web数据的统一模型,但是,均无法在Web大数据清理阶段进行重复数据清理。
发明内容
有鉴于此,本发明实施例的目的在于提供一种数据处理方法及装置,以改善现有技术中无法在Web大数据清理阶段进行重复数据清理的问题。
为了实现上述目的,本发明采用的技术方案如下:
第一方面,本发明实施例提供了一种数据处理方法,包括:
建立待处理网站数据源的网页对象数据模型,所述网页对象数据模型中包括所述待处理网站数据源中各页面所包含的数据信息;
对所述待处理网站数据源中各页面所包含的数据信息进行抽取,根据抽取出的数据信息建立网页数据信息模型;
根据所述网页数据信息模型抽取出所述待处理网站数据源中各页面的数据项和描述对象,并根据抽取的各页面的描述对象和数据项对各页面进行分类;
根据各页面的数据项计算出每个页面的相似哈希值,判断同一类页面中各页面之间的相似哈希值之间的差值是否满足预设阈值,如果是,则判定为重复数据,对重复数据进行清理。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述网页对象数据模型为:
Wj={L,O,B}
其中,L表示页面的所在栏目和结构信息;O表示页面所描述的对象;B表示页面所包含的数据信息,所述数据信息中包含通过信息抽取和语义分析提取的k个数据项,k为正整数。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述网页数据信息模型为:
B={D1<T,E,V,w>,D2<T,E,V,w>,…,Dk<T,E,V,ω>}
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川师范大学,未经四川师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510615762.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息搜索方法及装置
- 下一篇:一种异构数据库的管理方法及系统