[发明专利]一种基于关键词的WEB服务器扩展检索方法有效
申请号: | 201110089889.1 | 申请日: | 2011-04-11 |
公开(公告)号: | CN102110174A | 公开(公告)日: | 2011-06-29 |
发明(设计)人: | 叶蕾;邹国奇;刘春伟 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 重庆博凯知识产权代理有限公司 50212 | 代理人: | 张先芸 |
地址: | 400044 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关键词 web 服务器 扩展 检索 方法 | ||
技术领域
本发明属于计算机与通信技术领域,尤其涉及一种基于关键词的WEB服务器扩展检索方法。
背景技术
互联网与计算机网络技术的发展给人们带来了前所未有的方便,其蕴涵的大量共享资源,已成为人类获得信息的重要途径之一。互联网络中的文本信息的数量不断增加,个人和组织拥有的文档数量也越来越多。随着人们对信息获取所要求的准确性和全面性,从而如何从海量的信息资源中快速的检索出满足用户所需的信息已成为亟需解决的问题。
近几十年来,文本检索的研究取得了很大进展,典型的有决策树、K近邻、朴素贝叶斯和向量空间模型中基于特征向量与向量机、潜在语义分析(Latent Semantic Analysis,简称LSA)等。但大多数方法存在严重的鲁棒性问题,这些文本检索系统都是基于词频统计的向量空间模型(Vector Space Model,简称VSM)的改进或推广,其基本思想是用向量之间的距离来逼近文本之间的语义相似性,VSM的优点是将文本和检索简化为词项及权重集合的向量表示,从而把检索操作变成向量空间上的向量运算,从而使得检索简便快捷,适合于大规模文档库的文本检索。基于现有VSM模型的互联网络检索模式,是将海量的信息以文本的形式存储在WEB服务器的信息文本数据库中,用户使用计算机客户端输入药检所的关键词并通过互联网络向WEB服务器发送检索请求,WEB服务器的检索请求解析程序解析获得关键词,并通过搜索引擎检索信息文本数据库,获得与关键词相匹配的项检索结果返回至发送检索请求的客户端,完成信息检索。
但是,VSM模型假定的关键词仅唯一地代表一个概念或语义单元,这种基于关键词频统计的文本处理方法,其两个文本的相似度取决于它们包含的公共词语的数量,而无法体现语义信息。然而,在很多情况下,人们需要检索的信息是包含关键词所体现的语义信息的,例如外地游客需要查询陌生城市中的住宿地点,输入关键词“住宿”,实际上该游客需要查询的内容包括了旅社、宾馆、酒店等各种与“住宿”相关的信息,针对这种情况,现有的检索技术是难以满足用户检索需求的,因此用户只能够针对含有相同语义的不同关键词进行反复的检索,以从中搜寻自己需要的信息,非常麻烦。
发明内容
针对现有技术中存在的上述问题,本发明综合考虑到人们对于语义信息检索的灵活性需求,提出一种基于关键词的WEB服务器扩展检索方法,通过该方法增强WEB服务器的语义扩展检索性能。
为实现上述目的,本发明采用了如下的技术手段:
一种基于关键词的WEB服务器扩展检索方法,包括如下步骤:
1)在WEB服务器的检索请求解析程序与搜索引擎之间设置关键词扩展程序;所述关键词扩展程序由扩展信息注册线程、扩展条件生成线程、扩展信息解析线程以及关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表组成;
2)通过扩展信息注册线程,将关联词对应关系、拼音与汉字对应关系、英文与汉字对应关系、同义词对应关系、错别字对应关系和缩写词对应关系分别存入或更新到关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表中;
3)当WEB服务器收到来自客户端的检索请求时,检索请求解析程序解析检索请求获得检索的关键词以及扩展条件选项,所述扩展条件选项用于指定关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别、缩写词映射表中的一项或几项映射表作为扩展条件;扩展条件生成线程将扩展条件选项所选择各项映射表生成为一份扩展条件映射总表;扩展信息解析线程查询扩展条件映射总表中的各项映射表,获得与关键词相对应的扩展词;搜索引擎则根据检索请求解析程序解析获得的关键词以及扩展信息解析线程查询获得的对应的扩展词检索信息文本数据库,获得分别与关键词及其对应的扩展词相匹配的各项检索结果,并将所述检索结果返回至发送检索请求的客户端。
上述的基于关键词的WEB服务器扩展检索方法中,进一步,所述关联词对应关系,是针对一个候选词,建立一个包含该候选词的文本库,通过基于广义jaccard系数的相似度算法从所述文本库中计算与该候选词相关度,取相关度排列前三的三个词作为与该候选词对应的关联词;由此获得关联词对应关系。
进一步,所述拼音与汉字对应关系根据汉语词典获得。
进一步,所述英文与汉字对应关系根据英汉对照词典获得。
进一步,所述同义词对应关系根据同义词词典获得。
相比于现有技术,本发明具有如下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110089889.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种永磁直线同步电机仿真方法
- 下一篇:备份、恢复多业务数据库的方法及装置