[发明专利]文件分类查找方法无效
申请号: | 02100839.6 | 申请日: | 2002-01-30 |
公开(公告)号: | CN1360267A | 公开(公告)日: | 2002-07-24 |
发明(设计)人: | 陈华;李晓明 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京华一君联专利事务所 | 代理人: | 余长江 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 分类 查找 方法 | ||
技术领域:本发明涉及信息检索技术,主要针对的是文件查询。
背景技术:目前的文件查询技术很大程度上模仿了网页查询技术,但文件查询与网页查询存在本质上的区别。网页查询可以分析网页的内容,而文件查询不太可能把每个远程文件下载到本地进行内容分析;即使可以下载到本地,由于文件格式的多样性,对于非文档文件也难于分析其中的内容。唯一可以用于文件查询的数据是文件的文件名和文件属性,因此目前包括Ftp搜索引擎以及Windows文件查找的文件查询系统都仅仅实现了针对文件名的查询和文件属性的过滤。但是这种面向文件名的查询方式不能提供面向特定主题的搜索,不能挖掘文件名无法表示文件内容的文件,而且对用户在了解查询目标方面要求过多。要解决这些问题,某些专用的搜索引擎提供了一些解决方案。比如Napster网站音乐MP3文件搜索引擎分析每个MP3文件的作者和标题等信息,据此进行分类并提供对内容的查询。但是这种技术必须读取(或下载)每个文件以分析其中的内容,同时系统必须对所有查询需要支持的文件类型提供单独的数据处理过程。因此这种方法的代价极其高昂,而且下载所有文件并进行分析使得整个数据搜集过程十分漫长,影响了查询效果,同时这种方法可以处理的文件类型也十分有限。
发明内容:为此我们提供了一种解决方案,目的是在不打开文件分析文件内容的前提下实现文件的分类和对内容的查询,并使得查询系统简单化。这种查询技术是对已经成形的文件查询系统的补充,目的是利用分类功能来提高文件查询的查全率与查准率,弥补传统文件查询技术的缺陷,实现面向主题、面向内容的查询,挖掘普通查询系统里的隐藏数据,提出文件查询新的应用方式。
本发明的内容与技术方案如下:
本发明的文件查找方法包括基于文件扩展名、目录和查询频率的三种文件分类查询方法。它们一起加以组合构成了完整的基于分类的文件查找技术。
1、基于文件名的文件格式分类查询
为了分析用户用于查询的匹配字符串的类型分布,我们统计了FTP搜索引擎的84万次的用户输入的匹配串,得到查询匹配串类型分布图图1。图中I表示单关键字类型比例,II表示仅仅扩展名类型比例,III表示全文件名类型比例。由图1可见,大部分的用户查询时都是仅仅输入一个关键字,而无法提供具体的扩展名。对于普通用户而言,扩展名是一个比较难理解的东西,例如电影文件,可能的扩展名为“.rm”、“.mpeg”、“.dat”等等,为了查找电影而要求用户提供扩展名会使得普通用户对查询系统望而却步。但是,用户不提供扩展名而在整个数据库里查询就有很多不符合用户需要的查询结果,比如查询某个程序的下载地址确得到了该程序的源代码下载地址,从而使得查准率不高。因而普通用户查询文件的时候可能需要的是某种类型的文件,而不是特定扩展名的文件,例如用户可能希望查询到音乐文件,但并没有限定是“.mp3”文件还是“.au”文件。即使用户知道扩展名的情况下,为了查到一首歌的所有的下载地址,必须为这首歌指定多个扩展名,否则就可能漏掉许多的下载地址,而这往往很麻烦,实现上也不容易。
为了解决记忆扩展名对普通用户的负担以及实现在一个大类别里的文件查询,可以将所有文件分为几种简单的文件格式类型,用户查询时只需指定他需要的文件格式类型而不用指定具体的扩展名就可查询。文件格式类型按常识可以分为图像、声音、视频、压缩、文档、程序、源代码、目录和“其他”等等几大类别。查询系统给每个文件格式类别编号,并定义大量属于这个类别的“著名的扩展名”。因为文件格式的区别在于文件的扩展名,查询系统不可能打开每个文件来检测它的实际上的文件格式,所以使用“著名的扩展名”作为文件格式分类的标准。“著名的扩展名”来源于大众对该扩展名属于什么类型文件的普遍承认,比如“.doc”、“.ppt”、“.txt”、“.pdf”应当属于文档类型的文件。如果某个文件使用了“.doc”作为扩展名,但它的文件格式不是普遍承认的“.doc”格式的,这种情况在系统里是不予考虑的。对于一种扩展名属于多种类别的情况,取其最常见的类别。当查询系统获得一个文件条目时,利用其扩展名得到它对应的文件格式类别,保存在文件条目的属性中。当用户查询指定文件格式类型的文件时,就可以用用户选定的类型编号与文件属性里的类型编号作比较,从文件名匹配得到结果中过滤出文件名匹配同时又是指定文件格式类型的查询结果。按文件格式分类示意图如图2,图中I表示按文件格式分类前的部分文件,II表示按文件格式分类后分成的三类文件;音乐、视频和文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/02100839.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:真人头像三维模型建立系统
- 下一篇:高掺量粉煤灰烧结制品