[发明专利]一种搜索引擎中错别字自动更正方法和服务器在审
申请号: | 201611142645.4 | 申请日: | 2016-12-13 |
公开(公告)号: | CN106777073A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 黄威威;潘嵘;张晋斌 | 申请(专利权)人: | 深圳爱拼信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市南山区南山街道科*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种搜索引擎中错别字自动更正方法和服务器,能够更高效的纠正文本中的错别字,通过深度学习模型和高维向量化,将每个字映射到高位空间中,并通过高维向量表示字与字之间的关系,再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系,而仅仅是构建一个合适的错别字训练纠正模型,学习错别字的特征。本发明采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正,它能识别的错别字不仅仅只是同音字和形近字,还可以识别和改正其他类型的错别字,大大提高了错别字的纠正效率。 | ||
搜索关键词: | 一种 搜索引擎 错别字 自动 更正 方法 服务器 | ||
【主权项】:
一种搜索引擎中错别字自动更正方法,其特征在于,包括:步骤1,获取用户输入的搜索文本数据;步骤2,对所述搜索文本数据进行预处理;步骤3,将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量;步骤4,采用attention机制和双向LSTM(long short term memory,长短时记忆网络)模型对句子进行识别,并输出其识别结果;步骤5,针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较;步骤6,将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择作为最终的搜索文本结果;步骤7,将搜索文本结果作为搜索词进行检索,并发送检索结果至用户端。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳爱拼信息科技有限公司,未经深圳爱拼信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611142645.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种用于提供呈现信息的方法、设备及系统
- 下一篇:地理信息栅格电子地图