[发明专利]一种识别搜索关键词的方法和装置有效
申请号: | 201510158351.X | 申请日: | 2015-04-03 |
公开(公告)号: | CN104765815B | 公开(公告)日: | 2016-11-09 |
发明(设计)人: | 薛永刚;贾文杰;项碧波 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/00 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝;何立春 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 搜索关键词 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,具体涉及一种识别搜索关键词的方法和装置。
背景技术
在信息技术及终端技术日益普及的今天,如何将字符方便、快捷地输入到终端中已经成为影响人机接口效率的一个重要难题。现有技术中,大部分用户仍然依赖于传统的键盘输入或手写输入来完成字符的输入,能够满足用户基本输入需求。但是,传统的输入方式也为用户带来了很多不便,例如,当用户对一个图片中所包含的字符有疑问,需要进行搜索时,需要将图片中所包含的字符依次手动输入到搜索栏中,再进行搜索查询。可见,由于终端无法识别图片中所包含的字符,导致用户对图片中所包含的字符的处理十分费时费力,不符合用户的需求。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种识别搜索关键词的方法和装置。
依据本发明的一个方面,提供了一种识别搜索关键词的方法,该方法包括:
响应于用户触屏操作,按照所述操作范围进行图片截取,获得第一图片;再按照所述操作范围扩大预定面积进行图片截取,获得第二图片;
分别识别第一图片和第二图片中的字符,得到相应的字符组合;
根据预设策略,从第一图片和第二图片对应的字符组合中选择一个字符组合作为识别后的搜索关键词。
可选地,所述分别识别第一图片和第二图片中的字符,得到相应的字符组合为:
识别该图片所包含的字符占位,获取每个字符占位对应的候选字符集合以及每个候选字符对应的概率参数;按照该图片所包含的各字符占位的顺序,依次从每个字符占位对应的候选字符集合中选取一个候选字符得到一个候选字符组合;进行多次选取,每次选取到不同的字符组合,得到多个候选字符组合;计算所得到的每个候选字符组合的概率,将概率最高的候选字符组合作为与该图片相应的字符组合。
可选地,所述计算所得到的每个候选字符组合的概率为:
基于n元语法模型,计算所得到的每个候选字符组合的概率。
可选地,所述基于n元语法模型,计算所得到的每个候选字符组合的概率包括:
对于一个候选字符组合中的每个候选字符,根据各候选字符的概率参数,计算该候选字符在其前n-1个候选字符已经确定的条件下出现的条件概率;
计算该候选字符组合中各候选字符的条件概率的乘积,作为该候选字符组合的概率。
可选地,所述根据预设策略,从第一图片和第二图片对应的字符组合中选择一个字符组合作为搜索关键词包括:
在第二图片对应的字符组合中,保留与第一图片对应的字符组合位置相同且长度相同字符组合;
判断第二图片中保留的字符组合的平均语言模型分数是否小于第一图片对应的字符组合的平均模型分数;
是则,选择第一图片对应的字符组合作为搜索关键词进行搜索;
否则,选择第二图片对应的字符组合作为搜索关键词进行搜索。
可选地,所述分别识别第一图片和第二图片中的字符,得到相应的字符组合进一步包括:得到字符组合中各字符占位的像素坐标。
可选地,所述在第二图片对应的字符组合中,保留与第一图片对应的字符组合位置相同且长度相同的字符组合是指:
根据第一图片和第二图片分别对应的字符组合的像素坐标边界和每个字符占位的像素坐标,保留第二图片中与第一图片对应的字符组合位置相同且长度相同字符组合。
可选地,所述字符组合的平均语言模型分数是指:字符组合的概率的对数值,按照字符组合中的字符数取平均后得到的值。
依据本发明的另一个方面,提供了一种识别搜索关键词的装置,该装置包括:
图片获取单元,适于响应于用户触屏操作,按照所述操作范围进行图片截取,获得第一图片;再按照所述操作范围扩大预定面积进行图片截取,获得第二图片;
识别处理单元,适于分别识别第一图片和第二图片中的字符,得到相应的字符组合;
搜索处理单元,适于根据预设策略,从第一图片和第二图片对应的字符组合中选择一个字符组合作为识别后的搜索关键词。
可选地,所述识别处理单元包括:
获取单元,适于识别一个图片所包含的字符占位,获取每个字符占位对应的候选字符集合以及每个候选字符对应的概率参数;
预处理单元,适于按照所述图片所包含的各字符占位的顺序,依次从每个字符占位对应的候选字符集合中选取一个候选字符得到一个候选字符组合;进行多次选取,每次选取到不同的字符组合,得到多个候选字符组合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510158351.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于特征提取算法的数据特征分类方法
- 下一篇:一种文件命名方法及装置