[发明专利]确定搜索引擎中输入字符串正确性的方法及装置有效
申请号: | 200910076846.2 | 申请日: | 2009-01-22 |
公开(公告)号: | CN101477565A | 公开(公告)日: | 2009-07-08 |
发明(设计)人: | 王勇 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 100084北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 搜索引擎 输入 字符串 正确性 方法 装置 | ||
技术领域
本发明涉及网络搜索引擎技术领域,尤其涉及一种确定搜索引擎中输入字符串正确性的方法及装置。
背景技术
据统计,用户在搜索引擎中输入的输入字符串有8%包含错误,比如将“图书馆”输入为“图书管”,此时,搜索引擎的查询纠错(Query Corrector,QC)模块会提示用户“您是不是要找:图书馆”。QC在运行时,首先是要判断输入字符串是否包含错误,如果输入是正确的,则不纠错,否则,才会进行纠错的步骤。
搜索引擎用户主要使用拼音输入法敲入输入字符串,因此错误的输入主要是同音错误,所以目前QC一般基于同音判断输入字符串的正确性。例如,用户输入的是“图书管”,现有QC会在查询日志库里检索所有发音是“tushuguan”的查询词及其查询次数,假设找到“图书管”的查询次数为m,“图书馆”的查询次数为n,如果m/n数值很小,则认为输入字符串“图书管”是错误的,建议纠错为“图书馆”。
上述这种方案的局限在于需要计算整串输入字符串的查询次数。如果用户输入的是“北京市国家图书馆借书证办理方法”,很可能查询日志库里没有与之发音相同的查询词,就无法获知原始输入字符串是否正确。再者,如果仅凭其中的“图书管”就判断“北京市国家图书馆借书证办理方法”是错误的,那么用户输入的“图书管理系统”就会被误判为错误。
发明内容
本发明提供一种确定搜索引擎中输入字符串正确性的方法及装置,以解决现有方案无法对某些输入字符串进行判断或者误判的问题。
为此,本发明实施例采用如下技术方案:
一种确定搜索引擎中输入字符串正确性的方法,包括:
获取用户在搜索引擎中输入的输入字符串;
利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询,所述集合包含具有一一对应关系的查询词和该查询词的拼音串;
判断输入字符串的正确性:如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配,并且,所述输入字符串中不包含该集合中匹配的拼音串在所述集合中对应的查询词,则确定所述输入字符串存在错误,否则,确定所述输入字符串正确。
其中:所述集合的预置过程为:
对查询日志中的查询词进行拼音标注;
计算所述查询词及其对应拼音串在查询日志中出现的次数;
计算所述查询词与其拼音串出现次数的比值;
保留所述比值大于预置的比值阈值的查询词及其拼音串的一一对应关系,构成所述集合。
如果确定所述输入字符串存在错误,该方法还包括:
以所述集合中的查询词替换输入字符串相应位置的汉字,并利用对原始输入字符串和替换后的字符串进行分词比较,以验证所述输入字符串存在错误的判断结果是否正确。
其中,所述利用对原始输入字符串和替换后的字符串进行分词比较,以验证所述输入字符串存在错误的结果是否正确的具体过程为:
对所述输入字符串进行分词,计算词的个数;
对利用所述集合中的查询词替换后的字符串进行分词,计算替换后的字符串中词的个数;
如果替换后的字符串中词的个数大于所述输入字符串中词的个数,则确定所述输入字符串的正确性判断结果是错误的,并将判断结果修改为所述输入串正确,否则,维持原来的判断结果。
一种确定搜索引擎中输入字符串正确性的装置,包括:
获取单元,用于获取用户在搜索引擎中输入的输入字符串;
查询单元,用于利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询,所述集合包含具有一一对应关系的查询词和该查询词的拼音串;
判断单元,用于判断输入字符串的正确性:如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配,并且,所述输入字符串中不包含集合中匹配的拼音串在所述集合中对应的查询词,则确定所述输入字符串存在错误,否则,确定所述输入字符串正确。
上述装置还包括用于建立所述集合的集合建立单元,所述集合建立单元包括:
拼音标注子单元,用于对查询日志中的查询词进行拼音标注;
次数计算子单元,用于计算所述查询词及其对应拼音串在查询日志中出现的次数;
比值计算子单元,用于计算所述查询词与其拼音串出现次数的比值;
集合生成子单元,用于保留所述比值大于预置的比值阈值的查询词及其拼音串的一一对应关系,构成所述集合。
上述装置还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910076846.2/2.html,转载请声明来源钻瓜专利网。