[发明专利]一种搜索引擎中错别字自动更正方法和服务器在审

申请号：	201611142645.4	申请日：	2016-12-13
公开（公告）号：	CN106777073A	公开（公告）日：	2017-05-31
发明（设计）人：	黄威威;潘嵘;张晋斌	申请（专利权）人：	深圳爱拼信息科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	518057 广东省深圳市南山区南山街道科***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种搜索引擎错别字自动更正方法服务器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种数据更正方法领域，更具体的，涉及一种搜索引擎中错别字自动更正方法和服务器。

背景技术

文本校对过程中主要技术就是纠正错别字。通常情况下，文本校对过程基本上采用２种方法（人工检查校对和基于错别字词典的校对），其中最主要的是错别字词典校对，通过构建错词和正确词相对应的一个词库。中国专利“CN1116343A中文错别字自动订正方法及装置”提供了一种基于词典的错别字纠正方法。此发明通过寻找大量的基于字形、字音或输入码相近的字作为词对来构建错别字词典，再利用评分模型对相应的词进行打分，最后根据打分从词典中选取正确的字。

当错别字与正确字的字音相同(同音字)时，中文搜索引擎可以利用同音字的词频对错别字进行纠正。原理就是当拼音相同时，给出的词是出现概率最大的那个词。但在某些情况下，错别字不是同音字，而是形近字或者是顺序颠倒的错别字，当这些情况出现时，搜索引擎一般无法识别错别字。另外，在实际应用中，当用户输入的检索条件很长时，经常会因为出现错别字而无法检测。因此当用户输入的检索条件比较长时，将会出现以下问题：

1.当错别字和正确字的字音不同时，即使在拼音字符匹配度较高的情况下，系统也无法识别和纠正错别字。

２．当一个词语错误时，如“百度”和“摆渡”，拼音对比法将无法纠正。

３．当一个词有多个同音词时，如“手会”和“手绘、受贿、收汇、受惠”，搜索引擎会根据关键词的概率给出搜索结果，而不会依据检索条件的语义给出结果。例如，用户需要搜索有关“手绘”的信息，但输入的是“手会”，最终搜索到的可能是“受贿”信息。

４．当检索的内容有多个关键词，并且最重要关键词因为出现错误而变得不重要时，搜索引擎会根据关键词的重要性给出搜索结果。

５．当检索条件中出现“增字”和“漏字”的错误时，系统不会进行纠正。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

为此，本发明的目的在于，提供一种搜索引擎中错别字自动更正方法和服务器，通过设计一种搜索引擎中错别字自动更正方法和服务器，能够更高效的纠正文本中的错别字，通过深度学习模型和高维向量化，将每个字映射到高位空间中，并通过高维向量表示字与字之间的关系，再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系，而仅仅是构建一个合适的错别字训练语料，搭建一个错别字纠正模型，学习错别字的特征。本发明很好的解决了传统方法下的错别字纠正系统缺点。同时，本发明采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正。它能识别的错别字不仅仅只是同音字和形近字，还可以识别和改正其他类型的错别字。大大提高了错别字的纠正效率。

为实现上述目的，本发明提供一种搜索引擎中错别字自动更正方法，其特征在于，包括：

步骤1，获取用户输入的搜索文本数据；

步骤2，对所述搜索文本数据进行预处理；

步骤3，将所述预处理后的文本进行编码，并将编码后的文本中每个字符进行向量化处理，得到相应的第一字符向量；

步骤4，采用attention机制和双向LSTM（long short term memory，长短时记忆网络）模型对句子进行识别，并输出其识别结果；

步骤5，针对所述识别结果，对其周边的字符进行预测，并与预设的概率阈值进行比较；

步骤6，将大于所述概率阈值的结果作为最终更正的结果发送至用户端，供用户进行选择作为最终的搜索文本结果；

步骤7，将搜索文本结果作为搜索词进行检索，并发送检索结果至用户端。

优选的，所述步骤6还包括：当大于所述概率阈值的结果为1时，则自动对校对文本进行更正，不需要用户进行选择。

优选的，所述预处理为去除掉无意义的符号，将繁体字转换成简体字，全角符号转换成半角符号中的一种或几种。

优选的，所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。

优选的，在所述步骤1之前，还包括：服务器针对每个字符都进行向量表示，生成第二字符向量，所述第二字符向量包含了字符特征信息，然后得到一个语言模型规则，将所述第二字符向量和语言模型规则存储到相应的数据库中。