[发明专利]一种生成纠错数据库的方法、自动纠错的方法和系统有效
申请号: | 200810102471.8 | 申请日: | 2008-03-21 |
公开(公告)号: | CN101241514A | 公开(公告)日: | 2008-08-13 |
发明(设计)人: | 苏雪峰 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 苏培华;逯长明 |
地址: | 100084北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生成 纠错 数据库 方法 自动 系统 | ||
技术领域
本发明涉及计算机字符处理的技术领域,特别是涉及一种生成针对字符数据的纠错数据库的方法和装置,以及一种自动纠错的方法和系统。
背景技术
目前随着互联网技术应用的越来越广泛,人们很多的日常工作和娱乐都在网络上进行,用户越来越频繁的需要通过计算机输入信息而完成人机交互。但是用户在很多情况下有可能输入了错误信息,需要进行纠错。例如,由于碰触了其他的键盘按键而导致输入错误;由于记忆不准确而导致输入错误(包括中文字符输入和英文字符输入)等等。
传统的拼写校正研究早在上个世纪中叶就已开始,但主要是针对文本处理的,给出的建议也往往不只一个,现在的典型应用包括Microsoft Word里的纠错模块等等。但是目前的大部分研究都是基于英文的,英文查询纠错研究主要基于噪音信道模型和一些判别训练模型,使用到的特征包括编辑距离、发音相似度、各种词典资源、语言模型等信息。
随着技术发展,现有技术也出现了一些针对中文拼写校正的自动纠错的解决方案。例如,《基于特征与学习的中文文本自动校对方法》(张磊,周明,黄昌宁,鲁明羽;第3届中文智能控制及智能自动化会议论文集)等。由于汉字不是拼音文字,电子文档中汉字的拼写错误主要是由于音近(如“按步就班”中的“步”应为“部”)、形近(如“人”和“入”)、意近(如“既往不究”中的“究”应为“咎”)、输入法的键盘输入序列引起的。上述系统主要是针对混淆集中的单词在上下文搭配上引起的错误,采用歧义消解的思路进行校正。
再例如,Google公司所申请的名称为“用于非罗马字符和字的拼写校正系统和方法”,公开号为“CN 101002198A”的中国专利,也公开了一种使用基于规则的分类器和隐马尔可夫模型,通过中间语言的变换来处理和校正非罗马字符的拼写错误。
但是现有的各种自动纠错方案主要都是依据预置模型、简单语法分析或者简单词语比对等方式进行的,其存在一定的局限性,准确性无法保证;并且,英文(中文)纠错的解决方案一般并不能直接应用在中文(英文)纠错中,解决方案的适用性较差。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够创造性的提出一种能够满足对多种语言字符进行自动纠错,并且覆盖面和准确度都较高的自动纠错解决方案。
发明内容
本发明所要解决的技术问题是提供一种能够满足对多种语言字符进行自动纠错,并且覆盖面和准确度都较高的自动纠错解决方案。
相应的,本发明还提供了一种生成可用于上述自动纠错过程的纠错数据库的方法和装置。
为了解决上述问题,本发明公开了一种生成纠错数据库的方法,可以包括:收集日志信息,所述日志信息包括用户的输入历史记录;利用所述输入历史记录的序列信息,从所述日志信息中挖掘获取字符纠错关系;存储所述字符纠错关系,得到纠错数据库。
优选的,所述日志信息包括查询日志,所述查询日志包括用户查询关键词的输入历史记录,则采用以下的分析挖掘步骤,获取字符纠错关系:判断一用户相邻查询的关键词的输入时间间隔是否满足预置条件,如果是,则确定该相邻关键词字符串属于字符纠错关系。
优选的,所述输入历史记录包括用户输入的编码字符串及相应的输入候选项,则采用以下的分析挖掘步骤,获取字符纠错关系:查找是否存在编码字符串直接相邻的情况,如果是,则确定该相邻编码字符串属于字符纠错关系,并确定最后一个用于输入候选项的编码字符串是正确的。优选的,还可以包括:将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。
优选的,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作,则采用以下的分析挖掘步骤,获取字符纠错关系:查找用户在输入过程中是否应用了删除操作,如果是,则确定与所述删除操作相邻的编码字符串属于字符纠错关系,并确定最后一个用于输入候选项的编码字符串是正确的。优选的,还可以包括:将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。
优选的,所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作,则采用以下的分析挖掘步骤,获取字符纠错关系:查找用户在输入候选项的过程中是否应用了删除操作,如果是,则确定与所述删除操作相邻的候选项字符串属于字符纠错关系,并确定最后一个输入的候选项是正确的。优选的,还可以包括:将所述正确的候选项相对应的编码字符串也纳入所述字符纠错关系中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810102471.8/2.html,转载请声明来源钻瓜专利网。