[发明专利]一种查询纠错方法和系统有效

申请号：	201310142075.9	申请日：	2013-04-23
公开（公告）号：	CN103198149B	公开（公告）日：	2017-02-08
发明（设计）人：	程学旗;熊锦华;颛悦;程舒扬;廖华明;王元卓	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京泛华伟业知识产权代理有限公司11280	代理人：	王勇
地址：	100190 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种查询纠错方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及自然语言处理技术，尤其涉及一种查询纠错方法和系统。

背景技术

查询纠错通常指搜索引擎后台对用户提交的原始查询进行正确性识别，并且对用户提交的原始查询中可能出现的拼写错误、歧义或多义进行纠正，以得到尽量正确的查询呈现给用户，从而提升用户的搜索体验。据统计，在输入英文搜索引擎的查询中大约有10%-15%的查询有拼写错误，而在中文搜索引擎中的中文拼写错误更多，种类也更多。在整个信息检索系统中，查询中出现拼写错误的数量可能会更庞大。由于查询语句会直接影响信息检索系统返回结果的可靠性与准确性(例如在问答系统中，用户输入的提问语句会直接影响问答系统的效果)，所以现有的很多信息检索系统都会对在查询前对查询语句进行纠错处理，以确保返回的检索信息能够真正满足用户需要，从而提高用户的检索效率和检索结果命中率，进而提升用户的体验。

现有的中文信息检索系统的查询语言类型一般包括：中文查询、英文查询、拼音查询和混杂查询等形式。其中，混杂查询包括中文和英文查询，对于混杂查询的处理，传统的查询纠错方法往往在查询的预处理阶段，把中文和英文字母拆开，中文交给中文查询纠错处理，英文字母交给拼音纠错处理。然而，由于常常会把中文拼音与英文单词混淆，因而不能对混合查询进行统一处理。

一些传统的查询纠错方法，如噪声信道模型或隐马尔科夫模型，采用如下方案：首先对于每个词语在一定编辑距离范围内产生候选词语；然后利用概率模型对候选词条的最佳组合进行筛选和评估，在噪声信道模型中该概率模型是候选词条的文本概率和编辑距离的综合，在隐马尔科夫模型中该概率模型是状态转移概率和符号发射概率的综合。在上述方法中，由于需要对每种可能的组合进行计算，故计算复杂度较高。

另外，在搜索引擎中也经常出现一些中文长查询语句（例如，问答系统这一类的信息检索系统中，查询语句往往很长），然而现有的检索系统往往为了减少纠错时间而限定进行查询纠错的查询语句长度，对于过长的语句不进行纠错，或者仅仅处理简单的情况。

发明内容

根据本发明的一个实施例，提供一种查询纠错方法。所述方法包括：

步骤1）、将查询语句转换为字符序列，判断字符序列的长度是否大于预定阈值δ，其中δ是正整数；

步骤2）、对长度大于δ的字符序列同时进行正向和反向查询纠错处理，直到重合处理的字符个数达到阈值M，得到正向和反向的候选语句项集合，其中M是正整数；

步骤3）、将正向的候选语句项集合中后M个字符与反向候选语句项集合中前M个字符相同的候选语句项进行拼接，拼接后的候选语句项构成纠错候选项集合。

在进一步的实施例中，步骤2）还包括：对长度小于等于δ的字符序列进行正向或反向查询纠错处理，直到处理完所述字符序列的所有字符，将得到的正向或反向的候选语句项集合作为纠错候选项集合。

在一个实施例中，步骤1）中将查询语句转换为字符序列包括：将中文转换为对应的汉语拼音。

在一个实施例中，所述预定阈值δ可通过训练得到。

在一个实施例中，步骤2）中进行正向查询纠错处理包括以从左到右的顺序对所述字符序列中的字符执行以下步骤：

步骤2a）、连接正向的候选语句项集合中的候选语句项与当前字符，并且进行编辑距离操作，得到新的候选语句项；

步骤2b）、判断该新的候选语句项是否构成词库中的一个词语或多个连续词语，如果构成词库中的一个词语或多个连续词语，则将新的候选语句项的状态设置为完成状态，否则设置为未完成状态；以及，根据正向语言模型和编辑距离操作计算新的候选语句项的权重。