[发明专利]用于校正错别字的方法和装置有效
申请号: | 201810958900.5 | 申请日: | 2018-08-22 |
公开(公告)号: | CN109062903B | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 郭辰阳;吴家林;邵英杰;刘晓波 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 11204 北京英赛嘉华知识产权代理有限责任公司 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 校正 搜索结果 错别字 集合 方法和装置 搜索服务器 内容发送 关联度 申请 | ||
1.一种用于校正错别字的方法,包括:
获取待校正内容;
将所述待校正内容发送至搜索服务器,以及接收所述搜索服务器基于所述待校正内容发送的搜索结果集合;
对于所述搜索结果集合中的搜索结果,确定该搜索结果与所述待校正内容间的内容关联度,包括:遍历搜索结果集合中的搜索结果,在访问当前搜索结果时执行以下操作:将当前搜索结果的第一个文字确定为目标文字,从当前搜索结果中选取以目标文字为首的连续的比对数量个文字形成文字组,存入文字组集合,将目标文字切换为当前搜索结果中当前的目标文字所在位置的下一个文字,以及继续执行从当前搜索结果中选取以目标文字为首的连续的比对数量个文字形成文字组、存入文字组集合的操作,直至所形成的文字组的最后一个文字为当前搜索结果的最后一个文字,输出文字组集合,其中,所述比对数量为所述待校正内容中的文字数量;计算文字组集合中各文字组分别与待校正内容的编辑距离,将计算获得的编辑距离中的最小者确定为当前搜索结果与待校正内容间的内容关联度;
根据搜索结果集合和所确定的内容关联度集合,确定所述待校正内容中是否存在错别字。
2.根据权利要求1所述的方法,其中,所述根据搜索结果集合和所确定的内容关联度集合,确定所述待校正内容中是否存在错别字,包括:
确定所述搜索结果集合中对应内容关联度为零的搜索结果的数量,得到第一数量;
确定所述搜索结果集合中对应内容关联度小于设定筛选值的搜索结果的数量,得到第二数量;
响应于所述第一数量与所述第二数量的比值小于设定下限阈值,确定所述待校正内容中存在错别字。
3.根据权利要求2所述的方法,其中,所述根据搜索结果集合和所确定的内容关联度集合,确定所述待校正内容中是否存在错别字,还包括:
响应于所述第一数量与所述第二数量的比值大于设定上限阈值,确定所述待校正内容中不存在错别字。
4.根据权利要求1所述的方法,其中,所述搜索结果中包含至少一个文字组;以及
所述方法还包括:
响应于确定所述待校正内容中存在错别字,从所述内容关联度集合中选取出现次数最多的内容关联度,获取所选取的内容关联度对应的至少一个搜索结果;
从所述至少一个搜索结果中选取搜索结果,将所选取的搜索结果中的对应于所选取的内容关联度的文字组替换所述待校正内容。
5.根据权利要求1-4之一所述的方法,其中,所述确定该搜索结果与所述待校正内容间的内容关联度,包括:
删除该搜索结果中的标点符号以及删除所述待校正内容中的标点符号;
确定删除处理后的搜索结果与待校正内容之间的内容关联度。
6.一种用于校正错别字的装置,包括:
第一接收单元,被配置成获取待校正内容;
第二接收单元,被配置成将所述待校正内容发送至搜索服务器,以及接收所述搜索服务器基于所述待校正内容发送的搜索结果集合;
第一确定单元,被配置成对于所述搜索结果集合中的搜索结果,确定该搜索结果与所述待校正内容间的内容关联度,包括:遍历搜索结果集合中的搜索结果,在访问当前搜索结果时执行以下操作:将当前搜索结果的第一个文字确定为目标文字,从当前搜索结果中选取以目标文字为首的连续的比对数量个文字形成文字组,存入文字组集合,将目标文字切换为当前搜索结果中当前的目标文字所在位置的下一个文字,以及继续执行从当前搜索结果中选取以目标文字为首的连续的比对数量个文字形成文字组、存入文字组集合的操作,直至所形成的文字组的最后一个文字为当前搜索结果的最后一个文字,输出文字组集合,其中,所述比对数量为所述待校正内容中的文字数量;计算文字组集合中各文字组分别与待校正内容的编辑距离,将计算获得的编辑距离中的最小者确定为当前搜索结果与待校正内容间的内容关联度;
第二确定单元,被配置成根据搜索结果集合和所确定的内容关联度集合,确定所述待校正内容中是否存在错别字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810958900.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本语义表达方法及装置
- 下一篇:逻辑谓词提取方法和装置