[发明专利]一种基于云存储的电力全文检索方法及系统有效
申请号: | 201110054382.2 | 申请日: | 2011-03-08 |
公开(公告)号: | CN102156711A | 公开(公告)日: | 2011-08-17 |
发明(设计)人: | 曹汝滨;吴凯峰;张荣;孙雪芬;徐杰锋;肖政;方东煦;李云;吴铧明 | 申请(专利权)人: | 国网信息通信有限公司;北京天云融创科技有限公司;北京友友天宇系统技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 100761 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 存储 电力 全文 检索 方法 系统 | ||
技术领域
本发明涉及全文检索技术,尤其涉及一种基于云存储的电力全文检索方法及系统。
背景技术
全文检索技术是上世纪50年代末出现的一种信息检索技术,它是一种面向全文和提供全文的检索技术,这种检索技术不需对文献进行标引就可以实现检索。它可以将原文中任何有意义的字或词作为检索项目,并由其指向原文的有关页面或链接。全文检索技术是发现信息、分析和过滤信息、信息代理、信息安全控制等应用的主要技术基础。
在电力企业生产和管理工作中,工作人员经常面对海量的标准信息,而电力信息资源专业性强,电力专业术语有时又和日常用语代表意义不同,例如“EMS”在生活中是快递的意思,而在电力系统中表示“能量管理系统”的英语缩写。
因此,当前主流的全文检索系统并不能完全满足电力专业用户的需求,用户一般只希望输入很少量的信息就能检索到自己需要的电力相关信息,但当前的搜索引擎由于较低的查准率大都会返回大量的匹配信息让用户筛选,并不能针对用户的特定情况返回用户希望得到的准确的结果。
现有技术中还没有专门为电力专业用户提供的进行全文检索的方法和系统。
发明内容
有鉴于此,本发明要解决的技术问题是,提供一种基于云存储的电力全文检索方法及系统,能够实现对于电力关键词的全文检索,且提高了检索效率。
为此,本发明实施例采用如下技术方案:
一种基于云存储的电力全文检索方法,包括:
获取查询信息,确定查询信息的特征向量;
根据查询信息的特征向量获取特征向量相似度大于预设相似度阈值的文档,将获取到的文档存储于临时数据库中,所述临时数据库设置在云存储系统中;
根据预设的电力主题词表的分词词库对临时数据库中各个文档进行分词处理,将得到的分词结果按照倒排结构进行存储,得到索引数据库,所述索引数据库也设置在云存储系统中;
获取用户的搜索信息,从索引数据库中查找得到与所述搜索信息关联性最大的预设数量个文档,将所述文档返回给用户所在的客户端。
确定查询信息的特征向量包括:
确定查询信息中的关键词,并且,确定各个关键词的权重;
根据所述关键词以及关键词的权重确定查询信息的特征向量。
根据查询信息的特征向量获取特征向量相似度大于预设相似度阈值的文档包括:
确定各个文档的特征向量;
根据各个文档的特征向量以及查询信息的特征向量分别计算各个文档与查询信息之间的特征向量相似度;
获取特征向量相似度大于预设相似度阈值的文档。
在确定各个文档的特征向量时,关键词w在文档i中的权重通过以下公式进行计算:
其中,fwi为关键词w在文档i中出现的频率;N为外部信息源中文档的数目;nw为外部信息源中包含词条w的文档的个数;Wi为文档i中所有关键词的个数。
还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网信息通信有限公司;北京天云融创科技有限公司;北京友友天宇系统技术有限公司,未经国网信息通信有限公司;北京天云融创科技有限公司;北京友友天宇系统技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110054382.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:实现自适应垂直划分的关系型数据库的方法及系统
- 下一篇:任务管理方法