[发明专利]文件搜索系统及方法无效
申请号: | 201010605164.9 | 申请日: | 2010-12-24 |
公开(公告)号: | CN102567364A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 李忠一;叶建发;卢秋桦;卢俊锜 | 申请(专利权)人: | 鸿富锦精密工业(深圳)有限公司;鸿海精密工业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518109 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 搜索 系统 方法 | ||
1.一种文件搜索系统,应用于计算装置中,其特征在于,该系统包括:
接收模块,用于接收用户输入的搜索表达式;
分词模块,用于将所述搜索表达式拆解成一个或多个核心词条;
扩展模块,用于对拆解出的每个核心词条作相关词条扩展;
搜索模块,用于将扩展出的相关词条与拆解出的核心词条加入查询项目;
所述搜索模块,还用于根据所述查询项目执行搜索任务,获取一个文件集;及
排序模块,用于计算该文件集中的每个文件与查询项目的相似度,并根据计算出的相似度对该文件集进行排序,以所述排序显示该文件集。
2.如权利要求1所述的文件搜索系统,其特征在于,所述分词模块将所述搜索表达式拆解成一个或多个核心词条包括:
根据所述搜索表达式中关键字的输入顺序,将所述搜索表达式与一个相关词条字典中的每个相关词条进行比对,找出最长的匹配词条作为拆解后的核心词条;及
如果在相关词条字典中找不到最长的匹配词条,则根据关键字的输入顺序,将所述搜索表达式与一个核心词条字典中的每个词条进行比对,找出最长的匹配词条作为拆解后的核心词条。
3.如权利要求1所述的文件搜索系统,其特征在于,所述相似度是指:每个文件的文件向量与查询项目向量的夹角的余弦值。
4.如权利要求1所述的文件搜索系统,其特征在于,所述排序模块计算该文件集中的每个文件与查询项目的相似度包括:
从所述文件集内容中移除停用词,以获取一个词条-文档矩阵;
将该词条-文档矩阵做奇异值分解,获取一个字向量矩阵、一个对角矩阵及一个文件向量矩阵;
将分解成的字向量矩阵、对角矩阵和文件向量矩阵降阶到k维向量空间,获取降阶处理后的字向量矩阵、对角矩阵和文件向量矩阵;
将查询项目映射到降阶的k维向量空间,获取查询项目向量;
对降阶处理后的对角矩阵开根号,得到一个比例缩放矩阵;
将查询项目向量以及降阶处理后的文件向量矩阵皆乘上比例缩放矩阵做缩放处理,得到缩放查询项目向量以及缩放文件向量矩阵;
利用向量内积,计算缩放查询项目向量与缩放文件向量矩阵中每个缩放文件向量在k维向量空间的夹角;及
根据缩放文件向量与缩放查询项目向量的夹角由小到大的顺序,对所有缩放文件向量排序,再将缩放文件向量映射到原本的文件,获取重新排序的文件集。
5.如权利要求4所述的文件搜索系统,其特征在于,所述k维向量空间为二维向量空间。
6.一种文件搜索方法,运行于计算装置中,其特征在于,该方法包括如下步骤:
接收用户输入的搜索表达式;
将所述搜索表达式拆解成一个或多个核心词条;
对拆解出的每个核心词条作相关词条扩展;
将扩展出的相关词条与拆解出的核心词条加入查询项目;
根据所述查询项目执行搜索任务,获取一个文件集;及
计算该文件集中的每个文件与查询项目的相似度,并根据计算出的相似度对该文件集进行排序,以所述排序显示该文件集。
7.如权利要求6所述的文件搜索方法,其特征在于,所述将所述搜索表达式拆解成一个或多个核心词条的步骤包括:
根据所述搜索表达式中关键字的输入顺序,将所述搜索表达式与一个相关词条字典中的每个相关词条进行比对,找出最长的匹配词条作为拆解后的核心词条;及
如果在相关词条字典中找不到最长的匹配词条,则根据关键字的输入顺序,将所述搜索表达式与一个核心词条字典中的每个词条进行比对,找出最长的匹配词条作为拆解后的核心词条。
8.如权利要求6所述的文件搜索方法,其特征在于,所述相似度是指:每个文件的文件向量与查询项目向量的夹角的余弦值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鸿富锦精密工业(深圳)有限公司;鸿海精密工业股份有限公司,未经鸿富锦精密工业(深圳)有限公司;鸿海精密工业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010605164.9/1.html,转载请声明来源钻瓜专利网。