[发明专利]一种生成纠错数据库的方法、自动纠错的方法和系统有效
申请号: | 200810102471.8 | 申请日: | 2008-03-21 |
公开(公告)号: | CN101241514A | 公开(公告)日: | 2008-08-13 |
发明(设计)人: | 苏雪峰 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 苏培华;逯长明 |
地址: | 100084北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生成 纠错 数据库 方法 自动 系统 | ||
1、一种生成纠错数据库的方法,其特征在于,包括:
收集日志信息,所述日志信息包括用户的输入历史记录;
利用所述输入历史记录的序列信息,从所述日志信息中挖掘获取字符纠错关系;
存储所述字符纠错关系,得到纠错数据库。
2、如权利要求1所述的方法,其特征在于,所述日志信息包括查询日志,所述查询日志包括用户查询关键词的输入历史记录,则采用以下的分析挖掘步骤,获取字符纠错关系:
判断一用户相邻查询的关键词的输入时间间隔是否满足预置条件,如果是,则确定该相邻关键词字符串属于字符纠错关系。
3、如权利要求1所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串及相应的输入候选项,则采用以下的分析挖掘步骤,获取字符纠错关系:
查找是否存在编码字符串直接相邻的情况,如果是,则确定该相邻编码字符串属于字符纠错关系,并确定最后一个用于输入候选项的编码字符串是正确的。
4、如权利要求3所述的方法,其特征在于,还包括:
将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。
5、如权利要求1所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作,则采用以下的分析挖掘步骤,获取字符纠错关系:
查找用户在输入过程中是否应用了删除操作,如果是,则确定与所述删除操作相邻的编码字符串属于字符纠错关系,并确定最后一个用于输入候选项的编码字符串是正确的。
6、如权利要求5所述的方法,其特征在于,还包括:
将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。
7、如权利要求1所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作,则采用以下的分析挖掘步骤,获取字符纠错关系:
查找用户在输入候选项的过程中是否应用了删除操作,如果是,则确定与所述删除操作相邻的候选项字符串属于字符纠错关系,并确定最后一个输入的候选项是正确的。
8、如权利要求7所述的方法,其特征在于,还包括:
将所述正确的候选项相对应的编码字符串也纳入所述字符纠错关系中。
9、如权利要求1所述的方法,其特征在于,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及编码变换方式,则采用以下的分析挖掘步骤,获取字符纠错关系:
如果所述输入历史记录包括:第一编码字符串-第二编码字符串-候选项,并且第一编码字符串和第二编码字符串属于不同的编码变换方式;则;
获取该候选项在第一编码变换方式下的正确编码字符串,确定所述正确编码字符串和第一编码字符串属于字符纠错关系。
10、如权利要求9所述的方法,其特征在于,还包括:
将所述候选项也纳入所述字符纠错关系中。
11、如权利要求3-10所述的任一方法,其特征在于,在确定字符纠错关系之前还包括:
判断所述相邻的编码字符串的输入时间间隔或者相邻候选项的输入时间间隔,是否符合预置条件,如果是,则再作进一步判断。
12、如权利要求2-9所述的任一方法,其特征在于,在最终确定字符纠错关系之前还包括:
判断所述初步确定为具有字符纠错关系的编码字符串之间是否具有一定的相似度或者编辑距离,如果是,则认可该字符纠错关系;
或者,判断所述初步确定为具有字符纠错关系的候选项之间是否具有一定的相似度或者编辑距离,如果是,则认可该字符纠错关系。
13、如权利要求2-9所述的任一方法,其特征在于,还包括:
进一步在各个用户的日志信息中统计所述字符纠错关系的出现次数,如果其出现次数大于一定阈值,则确定所述字符纠错关系为通用字符纠错关系,生成通用纠错数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810102471.8/1.html,转载请声明来源钻瓜专利网。