[发明专利]一种搜索方法和装置有效
申请号: | 201010287639.4 | 申请日: | 2010-09-19 |
公开(公告)号: | CN102402561A | 公开(公告)日: | 2012-04-04 |
发明(设计)人: | 王全礼;肖巍;钟延辉 | 申请(专利权)人: | 中国移动通信集团四川有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 王一斌;王琦 |
地址: | 610041 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 方法 装置 | ||
技术领域
本发明涉及搜索技术领域,更具体地,涉及一种搜索方法和装置。
背景技术
在现有的搜索引擎中模糊搜索是用户输入关键词,搜索服务器采用Levenshtein距离算法来计算用户输入的关键词与索引文件中词的相似度。与用户输入的关键词距离最近的索引文件中词称为最佳关键词。由用户输入关键词得到最佳关键词,搜索服务器根据最佳关键词在数据库中搜索获得最佳关键词对应的索引文件。
Levenshtein距离算法计算从一个字符转换到另一个字符串所需的最少插入、删除和替换的字符个数。目前通过Levenshtein距离算法来获取索引文件中词与用户输入的关键词之间的编辑距离,编辑距离越小表示索引文件中词与用户输入的关键词相似度越佳。Levenshtein距离算法主要应用英文字符和字符串的计算,对中文和其它语言文字支持较低。因此,应用于非英文字符的Levenshtein距离算法精确性较低。
专利申请《推荐搜索引擎关键词》(申请号200580042218.2)提出通过分析用户输入的关键字和存储的历史关键字记录来生成最佳关键字集合,从而提高返回结果集的精确性。但用户未存储历史关键字则无法保证返回结果集的精确性。
综上,现有技术中存在关键词搜索精确性低的问题。
发明内容
本发明实施例提出一种搜索方法,提高了关键词搜索的精确性。
本发明实施例还提出一种搜索装置,提高了关键词搜索的精确性。
本发明实施例的技术方案如下:
一种搜索方法,该方法包括:
预处理用户输入的关键词,得到待搜索关键词;
将待搜索关键词对应的数字向量进行标准化处理得到待搜索关键词对应的特征向量;
依据所述特征向量采用协同神经网络模式识别得到序参量,由序参量在数据库中获取最佳关键词。
所述预处理包括,对所述用户输入的关键词进行切词处理。
当所述用户输入的关键词长度超过预先设置的阈值长度,所述预处理进一步包括,修改所述用户输入的关键词;然后,对修改后的关键词进行切词处理。
所述标准化处理包括,查询国标码库将所述待搜索关键词转换为数字向量;对所述数字向量进行对齐处理后,再进行零均值处理和归一化处理得到所述特征向量。
所述依据所述特征向量采用协同神经网络模式识别得到序参量包括依据所述特征向量采用协同神经网络模式识别与原型向量数据库中的原型向量匹配,得到所述序参量。
所述依据所述特征向量采用协同神经网络模式得到序参量包括,根据所述特征向量的维数将原型向量数据库的原型向量的维数分为多个子类,依据所述特征向量采用协同神经模式识别与每个子类中的原型向量匹配,得到所述序参量。
所述根据所述特征向量的维数将原型向量数据库的原型向量的维数分为多个子类包括,所述原型向量的维数与所述特征向量的维数的比值向上取整为所述子类的数目。
当所述序参量等于1,所述由序参量在数据库中获取最佳关键词包括,由所述序参量直接在数据库中获取所述最佳关键词。
当所述序参量小于1,所述由序参量在数据库中获取最佳关键词包括,由大于预先设置阈值的所述序参量在数据库中获取所述最佳关键词。
一种搜索装置,包括预处理模块、标准化模块和模式识别模块,
预处理模块,用于预处理用户输入的关键词,得到待搜索关键词;
标准化模块,用于标准化处理待搜索关键词得到待搜索关键词对应的特征向量;
模式识别模块,用于依据所述特征向量采用协同神经网络模式识别得到序参量,由序参量在数据库中获取最佳关键词。
所述预处理模块包括切词单元,
切词单元,用于对用户输入的关键词进行切词处理。
所述预处理模块进一步包括修改单元,
修改单元,用于当所述用户输入的关键词长度超过预先设置的阈值长度,修改所述用户输入的关键词;
所述切词单元,进一步用于对所述修改单元输出的用户输入的关键词进行切词处理。
所述标准化模块包括查询单元、对齐单元和处理单元,
查询单元,用于查询国标码库将所述待搜索关键词转换为所述数字向量;
对齐单元,用于对齐处理所述数字向量;
处理单元,用于对所述对齐处理后的数字向量向后进行零均值处理和归一化处理得到所述特征向量。
所述模式识别模块包括模式识别单元和搜索单元,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团四川有限公司,未经中国移动通信集团四川有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010287639.4/2.html,转载请声明来源钻瓜专利网。