[发明专利]检索应用中基于拼音的检索条件纠错提示处理方法有效
申请号: | 201210228101.5 | 申请日: | 2012-06-30 |
公开(公告)号: | CN103514236B | 公开(公告)日: | 2017-06-09 |
发明(设计)人: | 刘磊;熊小鹏 | 申请(专利权)人: | 重庆新媒农信科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 重庆博凯知识产权代理有限公司50212 | 代理人: | 张先芸 |
地址: | 401121 重庆市北部新区高新*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检索 应用 基于 拼音 条件 纠错 提示 处理 方法 | ||
技术领域
本发明涉及计算机通信网络技术和检索应用技术领域,具体涉及一种检索应用中基于拼音的检索条件纠错提示处理方法。
背景技术
在信息化社会中,搜索引擎作为获取信息的主要方式之一,自其问世以来便引起人们的普遍关注。搜索引擎是指以网络的各种信息资源为对象,以信息检索的方式提供用户所需信息的数据服务系统,其通过特定的计算机应用程序定时在互联网上搜集信息,并对搜集到的信息提取、整合、建立索引之后,为用户提供检索服务。随着信息量的爆炸式增长,大众化搜索引擎的使用率持续提高,人们对搜索引擎的人机交互性能的要求也随之提高,因此,业界逐渐关注搜索引擎的容错技术。搜索引擎容错技术是指用户在输入关键字进行检索时,如果搜索引擎在返回结果中计算出与此关键词相似的另一形式词条得到大量的搜索结果,用户将会在搜索结果页面看到系统推测提供的关键词项。目前,搜索引擎支持的用户检索错误主要包括:同音别字错误、模糊音别字错误等。同音别字错误是指由于用户在输入正确拼音(不包括声调)后由于粗心或无法确定字形而选择与目标检索词具有相同拼音的错误汉字。模糊音别字错误是指由于地域特色等原因使用户输入目标检索词的相似拼音的错误汉字。
现有技术中,搜索引擎容错式检索的常用解决方案通常是基于统计的纠错提示处理,即通过特定算法(例如N-gram)计算作为检索条件的词条与提示词库中所有提示词的匹配度,从而获取较优的纠错提示结果返回给用户。但这种纠错提示处理方式,要检索到匹配的纠错提示结果,需要遍历匹配整个提示词库中所有的提示词,匹配次数过多导致了纠错提示处理的整体耗时较长,纠错提示处理效率和响应速度较低,影响了用户对纠错提示功能的使用体验感。
发明内容
针对现有技术中存在的上述不足,本发明提供一基于拼音的检索条件纠错提示处理方法,一方面的目的在于针对拼音输入法输入汉字检索条件时出现的输入错误提供纠错提示,以实现搜索引擎容错式检索;另一方面的目的在于,提升搜索引擎对检索条件的纠错提示处理效率和响应速度。
为实现上述目的,本发明采用了如下技术手段:
基于拼音的检索条件纠错提示处理方法,包括:在用户输入检索条件时,若作为检索条件的词条不是提示词库中的提示词,则获取作为检索条件的词条并转化为对应的拼音字符串,从预先建立的提示词拼音字典树中查找与作为检索条件的词条对应的拼音字符串相匹配的拼音字符路径,将相匹配的拼音字符路径末节点预设的同音指针所指向的词表中记录的提示词作为纠错提示结果,返回给用户。
作为进一步优化方案,所述“在用户输入检索条件”之前,还包括:预先建立提示词拼音字典树;所述提示词拼音字典树包含有提示词库中各个提示词对应的拼音字符串所构成的拼音字符路径;所述提示词拼音字典树中,在每一个提示词对应的拼音字符串所构成的拼音字符路径的末节点,预设有用于指向记录有该提示词的词表的同音指针。
作为一种可选择方案,所述提示词对应的拼音字符串通过查询预设的汉字-拼音对照字典获得。
作为进一步优化方案,所述“将相匹配的拼音字符路径末节点预设的同音指针所指向的词表中记录的提示词作为纠错提示结果”的同时,还包括:还将相匹配的拼音字符路径末节点预设的模糊音指针所指向的词表中记录的提示词作为纠错提示结果,返回给用户。
作为进一步优化方案,所述“在用户输入检索条件”之前,还包括:预先建立提示词拼音字典树;所述提示词拼音字典树包含有提示词库中各个提示词对应的拼音字符串所构成的拼音字符路径以及各个提示词对应的模糊音字符串所构成的拼音字符路径;所述提示词拼音字典树中,在每一个提示词对应的拼音字符串所构成的拼音字符路径的末节点,预设有用于指向记录有该提示词的词表的同音指针;在每一个提示词对应的模糊音字符串所构成的拼音字符路径的末节点,预设有用于指向记录有该提示词的词表的模糊音指针。
作为一种可选择方案,所述提示词对应的模糊音字符串通过查询预设的汉字-模糊音对照字典获得;或者,所述提示词对应的模糊音字符串通过查询汉字-拼音对照字典以及拼音-模糊音对照关系表获得。
作为进一步优化方案,所述提示词拼音字典树中,对于同一个提示词,该提示词对应的拼音字符串所构成的拼音字符路径的末节点预设的同音指针所指向的词表,以及该提示词对应的模糊音字符串所构成的拼音字符路径的末节点预设的模糊音指针所指向的词表,为同一个词表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆新媒农信科技有限公司,未经重庆新媒农信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210228101.5/2.html,转载请声明来源钻瓜专利网。