[发明专利]一种查询纠错方法和系统有效

专利信息
申请号: 201310142075.9 申请日: 2013-04-23
公开(公告)号: CN103198149B 公开(公告)日: 2017-02-08
发明(设计)人: 程学旗;熊锦华;颛悦;程舒扬;廖华明;王元卓 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京泛华伟业知识产权代理有限公司11280 代理人: 王勇
地址: 100190 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 查询 纠错 方法 系统
【说明书】:

技术领域

发明涉及自然语言处理技术,尤其涉及一种查询纠错方法和系统。

背景技术

查询纠错通常指搜索引擎后台对用户提交的原始查询进行正确性识别,并且对用户提交的原始查询中可能出现的拼写错误、歧义或多义进行纠正,以得到尽量正确的查询呈现给用户,从而提升用户的搜索体验。据统计,在输入英文搜索引擎的查询中大约有10%-15%的查询有拼写错误,而在中文搜索引擎中的中文拼写错误更多,种类也更多。在整个信息检索系统中,查询中出现拼写错误的数量可能会更庞大。由于查询语句会直接影响信息检索系统返回结果的可靠性与准确性(例如在问答系统中,用户输入的提问语句会直接影响问答系统的效果),所以现有的很多信息检索系统都会对在查询前对查询语句进行纠错处理,以确保返回的检索信息能够真正满足用户需要,从而提高用户的检索效率和检索结果命中率,进而提升用户的体验。

现有的中文信息检索系统的查询语言类型一般包括:中文查询、英文查询、拼音查询和混杂查询等形式。其中,混杂查询包括中文和英文查询,对于混杂查询的处理,传统的查询纠错方法往往在查询的预处理阶段,把中文和英文字母拆开,中文交给中文查询纠错处理,英文字母交给拼音纠错处理。然而,由于常常会把中文拼音与英文单词混淆,因而不能对混合查询进行统一处理。

一些传统的查询纠错方法,如噪声信道模型或隐马尔科夫模型,采用如下方案:首先对于每个词语在一定编辑距离范围内产生候选词语;然后利用概率模型对候选词条的最佳组合进行筛选和评估,在噪声信道模型中该概率模型是候选词条的文本概率和编辑距离的综合,在隐马尔科夫模型中该概率模型是状态转移概率和符号发射概率的综合。在上述方法中,由于需要对每种可能的组合进行计算,故计算复杂度较高。

另外,在搜索引擎中也经常出现一些中文长查询语句(例如,问答系统这一类的信息检索系统中,查询语句往往很长),然而现有的检索系统往往为了减少纠错时间而限定进行查询纠错的查询语句长度,对于过长的语句不进行纠错,或者仅仅处理简单的情况。

发明内容

根据本发明的一个实施例,提供一种查询纠错方法。所述方法包括:

步骤1)、将查询语句转换为字符序列,判断字符序列的长度是否大于预定阈值δ,其中δ是正整数;

步骤2)、对长度大于δ的字符序列同时进行正向和反向查询纠错处理,直到重合处理的字符个数达到阈值M,得到正向和反向的候选语句项集合,其中M是正整数;

步骤3)、将正向的候选语句项集合中后M个字符与反向候选语句项集合中前M个字符相同的候选语句项进行拼接,拼接后的候选语句项构成纠错候选项集合。

在进一步的实施例中,步骤2)还包括:对长度小于等于δ的字符序列进行正向或反向查询纠错处理,直到处理完所述字符序列的所有字符,将得到的正向或反向的候选语句项集合作为纠错候选项集合。

在一个实施例中,步骤1)中将查询语句转换为字符序列包括:将中文转换为对应的汉语拼音。

在一个实施例中,所述预定阈值δ可通过训练得到。

在一个实施例中,步骤2)中进行正向查询纠错处理包括以从左到右的顺序对所述字符序列中的字符执行以下步骤:

步骤2a)、连接正向的候选语句项集合中的候选语句项与当前字符,并且进行编辑距离操作,得到新的候选语句项;

步骤2b)、判断该新的候选语句项是否构成词库中的一个词语或多个连续词语,如果构成词库中的一个词语或多个连续词语,则将新的候选语句项的状态设置为完成状态,否则设置为未完成状态;以及,根据正向语言模型和编辑距离操作计算新的候选语句项的权重。

在一个实施例中,步骤2a)中进行编辑距离操作包括插入、删除、交换和替代操作。

在一个实施例中,步骤2b)中判断新的候选语句项是否构成词库中的一个词语或多个连续词语包括:

从正向词典树的根节点开始匹配新的候选语句项中从左到右的每一个字符,如果新的候选语句项中的一个字符与正向词典树中的完成节点成功匹配并且其后一个字符不能与该完成节点的子节点成功匹配,则将从该后一个字符开始的剩余字符序列从根节点开始匹配;

如果所有字符均与正向词典树中的节点成功匹配,且最后一个字节成功匹配正向词典树的完成节点,则新的候选语句项构成词库中的一个词语或多个连续词语;

其中,正向词典树的完成节点表示从根节点到该完成节点的路径上的所有节点构成词库中的词语。

在一个实施例中,步骤2b)中采用下式计算新的候选语句项的权重:

w=a·E+b·P

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310142075.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top