[发明专利]用于校正错别字的方法和装置有效
申请号: | 201810958900.5 | 申请日: | 2018-08-22 |
公开(公告)号: | CN109062903B | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 郭辰阳;吴家林;邵英杰;刘晓波 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 11204 北京英赛嘉华知识产权代理有限责任公司 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 校正 搜索结果 错别字 集合 方法和装置 搜索服务器 内容发送 关联度 申请 | ||
本申请实施例公开了用于校正错别字的方法和装置。该方法的一具体实施方式包括:获取待校正内容;将待校正内容发送至搜索服务器,以及接收搜索服务器基于待校正内容发送的搜索结果集合;对于搜索结果集合中的搜索结果,确定该搜索结果与待校正内容间的内容关联度;根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字。该实施方式提高了对待校正内容进行错别字判断的灵活性。
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于校正错别字的方法和装置。
背景技术
随着计算机技术的发展,人们往往选择通过网络来搜索获取自身所需的查询内容(例如,诗词文本),目前,通过网络获取查询内容的缺陷是,所获得的查询内容中容易出现错别字。
现有的方式中,网络平台为了给用户提供准确的查询内容,通常是先依据查询内容被搜索的热度从高到低进行排序,然后通过人工标注的方式对设定的权威资源提供的查询内容进行校正,从而实现把校正后的查询内容返回给用户。
发明内容
本申请实施例提出了用于校正错别字的方法和装置。
第一方面,本申请实施例提供了一种用于校正错别字的方法,该方法包括:获取待校正内容;将待校正内容发送至搜索服务器,以及接收搜索服务器基于待校正内容发送的搜索结果集合;对于搜索结果集合中的搜索结果,确定该搜索结果与待校正内容间的内容关联度;根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字。
在一些实施例中,根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字,包括:确定搜索结果集合中对应内容关联度为零的搜索结果的数量,得到第一数量;确定搜索结果集合中对应内容关联度小于设定筛选值的搜索结果的数量,得到第二数量;响应于第一数量与第二数量的比值小于设定下限阈值,确定待校正内容中存在错别字。
在一些实施例中,根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字,还包括:响应于第一数量与第二数量的比值大于设定上限阈值,确定待校正内容中不存在错别字。
在一些实施例中,搜索结果中包含至少一个文字组;以及该方法还包括:响应于确定待校正内容中存在错别字,从内容关联度集合中选取出现次数最多的内容关联度,获取所选取的内容关联度对应的至少一个搜索结果;从至少一个搜索结果中选取搜索结果,将所选取的搜索结果中的对应于所选取的内容关联度的文字组替换待校正内容。
在一些实施例中,确定该搜索结果与待校正内容间的内容关联度,包括:删除该搜索结果中的标点符号以及删除待校正内容中的标点符号;确定删除处理后的搜索结果与待校正内容之间的内容关联度。
第二方面,本申请实施例提供了一种用于校正错别字的装置,该装置包括:第一接收单元,被配置成获取待校正内容;第二接收单元,被配置成将待校正内容发送至搜索服务器,以及接收搜索服务器基于待校正内容发送的搜索结果集合;第一确定单元,被配置成对于搜索结果集合中的搜索结果,确定该搜索结果与待校正内容间的内容关联度;第二确定单元,被配置成根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字。
在一些实施例中,第二确定单元,包括:第一统计模块,被配置成确定搜索结果集合中对应内容关联度为零的搜索结果的数量,得到第一数量;第二统计模块,被配置成确定搜索结果集合中对应内容关联度小于设定筛选值的搜索结果的数量,得到第二数量;判断模块,被配置成响应于第一数量与第二数量的比值小于设定下限阈值,确定待校正内容中存在错别字。
在一些实施例中,判断模块,进一步被配置成响应于第一数量与第二数量的比值大于设定上限阈值,确定待校正内容中不存在错别字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810958900.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本语义表达方法及装置
- 下一篇:逻辑谓词提取方法和装置