[发明专利]文件搜索系统及方法无效
申请号: | 201010605164.9 | 申请日: | 2010-12-24 |
公开(公告)号: | CN102567364A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 李忠一;叶建发;卢秋桦;卢俊锜 | 申请(专利权)人: | 鸿富锦精密工业(深圳)有限公司;鸿海精密工业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518109 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 搜索 系统 方法 | ||
技术领域
本发明涉及一种文件搜索系统及方法。
背景技术
全文检索技术(Full Text Search),或简称为搜索技术,已被广泛的应用搜寻引擎中。通过让使用者输入关键词,到全文数据库中找出所有包含关键词的文件,进而大大节省使用者从大量文件中(如数百万笔文件)搜寻特定文件的时间。然而,现在大部分的全文检索技术有以下缺点。
其一,当使用者想要搜寻某个脑海中模糊且不具体的概念时,很难下达准确的关键词搜索。例如,使用者想要了解“云端并行计算”的架构,对云端计算有一定了解的使用者当然会加入“hadoop”、“Map/Reduce”等关键词做搜寻,但对没基础知识的一般使用者而言,他可能必须先输入云端计算进行第一次检索,并从检索内容中找到“hadoop”、“Map/Reduce”等与云端计算有关连的词汇才能做第二次搜索,导致平白浪费不少时间。
其二,即便是使用者准确地下达关键词做搜索,但也只能找出包含有该关键词的文件,其它未包含该关键词但概念上与该关键词相关联的文件无法回馈给使用者。例如,即使使用者输入“hadoop”做搜索,想找出跟云端并行计算有关的文件,但却无法找到仅有出现“hbase”、“zookeeper”等词汇的文件,即便这些文件跟“hadoop”有高度相关,但因为文件内没有出现关键词“hadoop”,因此无法检索到该文件。
其三,搜寻结果的排序完全没有参考到关键词的概念而仅仅是关键词本身,这样很容易会导致使用者高度感兴趣的文章却被系统排到最后面。例如,使用者输入“云端计算”关键词,但某篇文章只出现“云端计算”一次,其余段落都在讨论云端计算下的研究项目,这篇文章可能是使用者想知道的信息,却因为关键词出现次数过少而被排到后面,导致使用者必须浏览完前面几项的结果才能找到这篇文件。
上述全文检索技术的缺点会降低使用者在使用全文检索系统时的效率,并且使用传统的全文检索技术获得的搜索结果不全面,可能出现遗漏。
发明内容
鉴于以上内容,有必要提供一种文件搜索系统,其可获取全面的搜索结果,并对搜索结果进行排序,将用户感兴趣的搜索结果显示在最前面。
鉴于以上内容,还有必要提供一种文件搜索方法,其可获取全面的搜索结果,并对搜索结果进行排序,将用户感兴趣的搜索结果显示在最前面。
一种文件搜索系统,应用于计算装置中,该系统包括:
接收模块,用于接收用户输入的搜索表达式;
分词模块,用于将所述搜索表达式拆解成一个或多个核心词条;
扩展模块,用于对拆解出的每个核心词条作相关词条扩展;
搜索模块,用于将扩展出的相关词条与拆解出的核心词条加入查询项目;
所述搜索模块,还用于根据所述查询项目执行搜索任务,获取一个文件集;及
排序模块,用于计算该文件集中的每个文件与查询项目的相似度,并根据计算出的相似度对该文件集进行排序,以所述排序显示该文件集。
一种文件搜索方法,运行于计算装置中,该方法包括如下步骤:
接收用户输入的搜索表达式;
将所述搜索表达式拆解成一个或多个核心词条;
对拆解出的每个核心词条作相关词条扩展;
将扩展出的相关词条与拆解出的核心词条加入查询项目;
根据所述查询项目执行搜索任务,获取一个文件集;及
计算该文件集中的每个文件与查询项目的相似度,并根据计算出的相似度对该文件集进行排序,以所述排序显示该文件集。
前述方法可以由电子设备(如电脑)执行,其中该电子设备具有附带了图形用户界面(GUI)的显示屏幕、一个或多个处理器、存储器以及保存在存储器中用于执行这些方法的一个或多个模块、程序或指令集。在某些实施例中,该电子设备提供了包括无线通信在内的多种功能。
用于执行前述方法的指令可以包含在被配置成由一个或多个处理器执行的计算机程序产品中。
相较于现有技术,所述的文件搜索系统及方法,其可获取全面的搜索结果,并对搜索结果进行排序,将用户感兴趣的搜索结果显示在最前面,提高了使用者在使用全文检索系统时的效率。
附图说明
图1是服务器与客户端电脑的系统架构图。
图2是本发明服务器的结构示意图。
图3是文件搜索系统的功能模块图。
图4是本发明文件搜索方法的较佳实施例的流程图。
图5是一个文件集的具体实例。
图6是根据图5中的文件集获取的词条-文档矩阵的示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鸿富锦精密工业(深圳)有限公司;鸿海精密工业股份有限公司,未经鸿富锦精密工业(深圳)有限公司;鸿海精密工业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010605164.9/2.html,转载请声明来源钻瓜专利网。