[发明专利]一种确定相似文件的方法及装置有效
申请号: | 200710166548.3 | 申请日: | 2007-11-05 |
公开(公告)号: | CN101184091A | 公开(公告)日: | 2008-05-21 |
发明(设计)人: | 陈涛 | 申请(专利权)人: | 深圳市迅雷网络技术有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L9/32 |
代理公司: | 北京同达信恒知识产权代理有限公司 | 代理人: | 刘松 |
地址: | 518057广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 相似 文件 方法 装置 | ||
技术领域
本发明涉及计算机及通信领域,特别是涉及确定相似文件的方法及装置。
背景技术
互联网的主要应用之一就是资源共享,用户可通过互联网获得需要的信息和数据。
现有技术之一是单资源下载。早期的下载软件,例如产品Microsoft InternetExplorer自带的文件下载功能,只能从单一的地址下载。例如,用户点击网页上的统一资源定位(Uniform Resource Locator,URL)地址http://down.XXX.net/文件1,以下载文件1。那么下载软件只会尝试连接基于超文本传送协议(HyperText Transfer Protocol,http)的服务器down.XXX.net并获取服务器上文件1的数据,当文件的所有数据获取完毕,则下载成功。该方法存在一些缺陷,当用户集中下载某个文件时服务器压力过大;如果服务器上指定的文件被移动或删除,或者服务器暂时连接不上,则文件无法下载;或者,当服务器的带宽不足或者网络繁忙时,下载速度非常缓慢。
现有技术之二是多资源下载。多资源下载技术很好的解决了单资源下载出现的问题。用户在下载某个文件时不再仅仅从原始资源下载,而是并发的连接多台服务器,从多个资源下载同一文件。当然实现多资源下载的前提是,在多个服务器上保存相同的文件,建立文件名与服务器的对应关系。根据文件名查找到存有该文件的多个服务器,并从这多个服务器下载同一文件的数据。另外由于P2P概念的引入,存放文件的地址不一定在服务器上,也可以在客户端上。下载文件的效率相比于单资源下载的方式得到了大幅度提高。
用户总是希望下载速度越快越好,因此希望在所述多资源下载方式的基础上,能够进一步提高下载效率。
发明内容
本发明实施例提供一种确定相似文件的方法及装置,用于获得相似文件,以及从相似文件中获得需要的数据,提高下载数据的效率。
一种确定相似文件的方法,包括以下步骤:
获得两个文件的相关信息并确定两个文件的内容数据不完全相同;
分别获得所述两个文件相同长度的数据对应的内容签名;
将所述两个文件中一个文件对应的内容签名分别与另一个文件对应的内容签名进行比较,并确定存在比较结果一致的内容签名;
确定所述两个文件相似。
一种下载文件的方法,包括以下步骤:
确定需要下载第一文件;
获得第一文件中分块数据的内容签名,并确定第二文件对应有与第一文件中相同的分块数据的内容签名;
确定从第二文件中下载所述相同的分块数据。
一种用于确定相似文件的装置,包括:
接口模块,用于获得两个文件的相关信息;
查找模块,用于分别获得所述两个文件相同长度的数据对应的内容签名;
判断模块,用于根据两个文件的相关信息确定两个文件的内容数据不完全相同,以将所述两个文件中一个文件对应的内容签名分别与另一个文件对应的内容签名进行比较,并确定存在比较结果一致的内容签名,进一步确定所述两个文件相似。
一种用于下载文件的装置,包括:
接口模块,用于确定需要下载第一文件;
查找模块,用于获得第一文件中分块数据的内容签名,并确定第二文件对应有与第一文件中相同的分块数据的内容签名;
控制模块,用于确定从第二文件中下载所述相同的分块数据。
本发明实施例通过对分块数据的内容签名的比较确定相似的文件,避免了采用原始数据比较造成的操作繁琐。并且,本发明实施例将确定的相似文件应用在文件的下载中,可为用户提供较多的下载数据源,使下载的效率更高。
附图说明
图1为本发明实施例中二叉树的示意图;
图2为本发明实施例中二维数组及二维列表的示意图;
图3为本发明实施例中确定相似文件的主要方法流程图;
图4为本发明实施例中相似文件信息的示意图;
图5为本发明实施例中确定相似文件的具体方法流程图;
图6为本发明实施例中三个文件中各分块数据的示意图;
图7为本发明实施例中一种数据库结构的示意图;
图8为本发明实施例中下载文件的主要方法流程图;
图9为本发明实施例中下载文件的具体方法流程图;
图10为本发明实施例中用于确定相似文件的装置结构图;
图11为本发明实施例中用于下载文件的装置结构图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市迅雷网络技术有限公司,未经深圳市迅雷网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710166548.3/2.html,转载请声明来源钻瓜专利网。