[发明专利]一种中文搜索引擎中查询词的拼写校正方法有效

专利信息
申请号: 200810224323.3 申请日: 2008-10-17
公开(公告)号: CN101369285A 公开(公告)日: 2009-02-18
发明(设计)人: 周博;刘奕群;张敏;金奕江;马少平 申请(专利权)人: 清华大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京三高永信知识产权代理有限责任公司 代理人: 何文彬
地址: 10008*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 中文搜索引擎 查询 拼写 校正 方法
【权利要求书】:

1.一种中文搜索引擎中查询词的拼写校正方法,其特征在于,所述方法包括:

判断输入中文搜索引擎的英文查询词是否为正确的英文查询词;

对非正确的英文查询词,生成所述非正确的英文查询词的候选形式,按照预设规则将所述候选形式列入候选集合;

根据

α*Edsim/max(Edsim)+β*LogSim/max(LogSim)

+(1-α-β)*ErrorTrend/max(ErrorTrend)

,对所述候选集合中的所有候选形式进行评分,将分值最高的候选形式作为校正后的形式返回给用户;

其中,EdSim代表字型相似性特征,LogSim代表词频相似性特征,ErrorTrend代表错误倾向性特征,max()表示对括号内的特征取最大值,α代表字型相似性特征在公式中的所占的比重,β代表词频相似性特征在公式中的所占的比重。

2.根据权利要求1所述的方法,其特征在于,根据预先存储的置信词表判断输入中文搜索引擎的英文查询词是否为正确的英文查询词。

3.根据权利要求1所述的方法,其特征在于,对非正确的英文查询词,根据预先设定的方式生成所述非正确的英文查询词的候选形式;所述预先设定的方式包括以下方式及其任意组合:

在输入的查询词中插入一个字符;

在输入的查询词中删除一个字符;

在输入的查询词中替换一个字符;

交换查询词中相邻两个字符的位置;

在输入的查询词中,将一个字符与其位置靠后且相隔一个字符位置的字符交换位置;

在输入的查询词中,将一个字符与其位置相邻且靠后的两个字符交换位置;

在输入的查询词中,两个相邻字符与其位置相邻且靠后的一个字符交换位置。

4.根据权利要求3所述的方法,其特征在于,对非正确的英文查询词,根据预先设定的方式生成所述非正确的英文查询词的候选形式之后,对所述候选形式再次根据所述预先设定的方式生成所述非正确的英文查询词的候选形式。

5.根据权利要求1所述的方法,其特征在于,所述预设规则包括:

字符长度大于3的英文查询词第一个字符是正确形式;

候选集合中只收录在搜索引擎日志中出现过的候选形式。

6.根据权利要求1所述的方法,其特征在于,所述方法还包括:

判断输入搜索引擎的英文查询内容是否在校正缓存词表中,若所述英文查询内容在所述校正缓存词表中,将所述缓存词表中的校正形式返回给用户。

7.根据权利要求1或6所述的方法,其特征在于,所述方法还包括:

对输入搜索引擎的查询内容进行分隔。

8.根据权利要求7所述的方法,其特征在于,对分隔后得到的查询词选择对应的校正模式,所述对应的校正模式包括单查询词校正模式、双查询词校正模式和多查询词校正模式。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810224323.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top