[发明专利]一种中文搜索引擎中查询词的拼写校正方法有效
申请号: | 200810224323.3 | 申请日: | 2008-10-17 |
公开(公告)号: | CN101369285A | 公开(公告)日: | 2009-02-18 |
发明(设计)人: | 周博;刘奕群;张敏;金奕江;马少平 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 | 代理人: | 何文彬 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文搜索引擎 查询 拼写 校正 方法 | ||
1.一种中文搜索引擎中查询词的拼写校正方法,其特征在于,所述方法包括:
判断输入中文搜索引擎的英文查询词是否为正确的英文查询词;
对非正确的英文查询词,生成所述非正确的英文查询词的候选形式,按照预设规则将所述候选形式列入候选集合;
根据
α*Edsim/max(Edsim)+β*LogSim/max(LogSim)
+(1-α-β)*ErrorTrend/max(ErrorTrend)
,对所述候选集合中的所有候选形式进行评分,将分值最高的候选形式作为校正后的形式返回给用户;
其中,EdSim代表字型相似性特征,LogSim代表词频相似性特征,ErrorTrend代表错误倾向性特征,max()表示对括号内的特征取最大值,α代表字型相似性特征在公式中的所占的比重,β代表词频相似性特征在公式中的所占的比重。
2.根据权利要求1所述的方法,其特征在于,根据预先存储的置信词表判断输入中文搜索引擎的英文查询词是否为正确的英文查询词。
3.根据权利要求1所述的方法,其特征在于,对非正确的英文查询词,根据预先设定的方式生成所述非正确的英文查询词的候选形式;所述预先设定的方式包括以下方式及其任意组合:
在输入的查询词中插入一个字符;
在输入的查询词中删除一个字符;
在输入的查询词中替换一个字符;
交换查询词中相邻两个字符的位置;
在输入的查询词中,将一个字符与其位置靠后且相隔一个字符位置的字符交换位置;
在输入的查询词中,将一个字符与其位置相邻且靠后的两个字符交换位置;
在输入的查询词中,两个相邻字符与其位置相邻且靠后的一个字符交换位置。
4.根据权利要求3所述的方法,其特征在于,对非正确的英文查询词,根据预先设定的方式生成所述非正确的英文查询词的候选形式之后,对所述候选形式再次根据所述预先设定的方式生成所述非正确的英文查询词的候选形式。
5.根据权利要求1所述的方法,其特征在于,所述预设规则包括:
字符长度大于3的英文查询词第一个字符是正确形式;
候选集合中只收录在搜索引擎日志中出现过的候选形式。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
判断输入搜索引擎的英文查询内容是否在校正缓存词表中,若所述英文查询内容在所述校正缓存词表中,将所述缓存词表中的校正形式返回给用户。
7.根据权利要求1或6所述的方法,其特征在于,所述方法还包括:
对输入搜索引擎的查询内容进行分隔。
8.根据权利要求7所述的方法,其特征在于,对分隔后得到的查询词选择对应的校正模式,所述对应的校正模式包括单查询词校正模式、双查询词校正模式和多查询词校正模式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810224323.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网络管理浏览器
- 下一篇:长江口牡蛎礁构建方法