[发明专利]一种检索方法、装置和系统有效
申请号: | 200910135276.X | 申请日: | 2009-05-12 |
公开(公告)号: | CN101887436A | 公开(公告)日: | 2010-11-17 |
发明(设计)人: | 邢飞;董静;郭宁;侯磊;张勤 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检索 方法 装置 系统 | ||
技术领域
本发明涉及网络数据处理领域,特别涉及一种检索方法、装置和系统。
背景技术
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。从用户的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入关键词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。用户输入的关键词语可以成为查询数据,即是用户通过查询数据来查询自己感兴趣的相关内容。
在实际应用中,用户输入的查询数据有时候并不能检索到相关的内容,例如,当用户的查询数据为“黑色联想thinkpad笔记本X60”时,由于输入的查询关键词过长,搜索引擎无法检索到与其完全匹配的查询结果,因此,浏览器就会返回检索无结果,当查询数据变为“联想thinkpad笔记本X60”,由于输入的查询关键词缩短了,检索就会出现相关结果,因此,现有技术中存在一种基于规则的检索方法,首先对查询数据进行分词,然后根据分词后每个词的词性,例如:是名词还是形容词,类型,例如:产品类型、品牌、型号等,以及这些词本身的信息,根据需要总结一定的规则,例如,某一条规则为:两个产品类型词相邻,则后者权重更高。例如,“手机充电器”,则可以理解为“充电器”的权重更高。通过上述基于一系列规则的查询改写方法,可以将原始的查询数据改写成新的查询数据,再由搜索引擎的服务器依据新的查询数据进行检索。
从上述过程中可以看出,搜索引擎在检索的时候,是采用基于一定的规则对查询数据进行改写的方法,因为每一次的改写操作都需要基于相关的规则,因为规则是工作人员预先制定的,而用户在浏览器上输入的查询数据有无数种,这就使得单纯的依据规则改写查询数据的方式错误率较高,同时也存在歧义,所以对查询数据进行改写的结果有时并不精确,基于并不准确的改写查询数据检索到的结果也可能并不是用户所需要的,就降低了用户对于搜索引擎的使用体验。
总之,目前需要本领域技术人员迫切解决的一个技术问题就是:如何能够创新的提出一种检索方法,以解决现有技术中基于规则进行查询数据的改写之后再进行检索操作,导致的检索结果不准确的问题。
发明内容
本申请所要解决的技术问题是提供一种检索方法,用以解决现有技术中需要基于规则进行查询数据的改写,导致的检索结果不准确的问题,进一步的,还能够提升相关性和召回率。
本申请还提供了一种检索装置,用以保证上述方法在实际中的实现及应用。
为了解决上述问题,本申请公开了一种检索方法,包括:
针对当前查询数据,改写数据系统在预置的数据库中匹配获得与所述当前查询数据相关的候选查询数据;
改写数据系统提取所述当前查询数据和候选查询数据的特征,所述特征用于描述所述当前查询数据和候选查询数据的匹配结果;
改写数据系统根据所述匹配结果判断是否需要改写所述当前查询数据,如果是,则根据所述匹配结果对所述当前查询数据进行改写;
搜索引擎按照所述改写后的当前查询数据进行检索。
优选的,所述改写数据系统在预置的数据库中匹配获得候选查询数据,具体为:
改写数据系统在预置的数据库中匹配获取至少两个候选查询数据,
所述改写数据系统根据所述匹配结果判断是否需要改写所述当前查询数据,具体包括:
改写数据系统根据所述匹配结果为所述特征赋值,每一个特征对应一个特征值;
改写数据系统按照预置规则对所述特征值进行处理,得到与所述至少两个候选查询数据对应的至少两个匹配结果值;
改写数据系统判断所述至少两个匹配结果值中最大的匹配结果值是否大于某一阈值。
优选的,所述改写数据系统在预置的数据库中匹配获取候选查询数据,具体为:
改写数据系统在预置的数据库中匹配获取一个候选查询数据,
所述改写数据系统根据所述匹配结果判断是否需要改写所述当前查询数据,具体包括:
改写数据系统根据所述匹配结果为所述一个候选查询数据与所述当前查询数据的特征赋值;
改写数据系统按照预置规则对所述特征值进行处理,得到与所述一个候选查询数据对应的一个匹配结果值;
改写数据系统判断所述一个匹配结果值是否大于某一阈值。
优选的,所述改写数据系统按照预置规则对所述特征值进行处理,具体包括:
改写数据系统按照线性加权的方式对所述特征值进行处理,或者按照最大熵模型将所述特征值转换为所述匹配结果值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910135276.X/2.html,转载请声明来源钻瓜专利网。