[发明专利]文字检索方法及装置有效
申请号: | 201511009801.5 | 申请日: | 2015-12-29 |
公开(公告)号: | CN105677718B | 公开(公告)日: | 2019-04-09 |
发明(设计)人: | 王晓健;江世盛 | 申请(专利权)人: | 北京汉王数字科技有限公司 |
主分类号: | G06F16/53 | 分类号: | G06F16/53 |
代理公司: | 北京奉思知识产权代理有限公司 11464 | 代理人: | 吴立;邹轶鲛 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字 检索 方法 装置 | ||
1.一种文字检索方法,其特征在于,包括:
S1:输入待检索文字的表意文字描述序列;
S2:对所述待检索文字的表意文字描述序列进行文本匹配,若文本匹配失败,则执行S3;
S3:解析所述待检索文字的表意文字描述序列,根据解析获得的表意文字描述符和CJK字符绘制第一文字图像;
S4:遍历文档中存在的表意文字描述序列,对每次遍历到的表意文字描述序列进行解析,根据解析获得的表意文字描述符和CJK字符绘制第二文字图像;以及
S5:将所述第一文字图像与第二文字图像进行图像匹配,根据匹配结果确定检索结果。
2.如权利要求1所述的方法,其特征在于,其中
步骤S2中的文本匹配为利用构成表意文字描述序列的表意文字描述符和CJK字符实现的文本匹配。
3.如权利要求1或2所述的方法,其特征在于,其中
步骤S3中,所述解析包括:将表意文字描述序列拆分成多个组图动作,每个该组图动作包括一个表意文字描述符和一组文字部件。
4.如权利要求3所述的方法,其特征在于,其中
步骤S3中,所述绘制包括:
准备各文字部件的图像;以及
按照每个组图动作中的表意文字描述符所描述的文字结构,从最内层动作开始,进行组图,其中表意文字描述序列中最右侧的表意文字描述符所在的动作为最内层动作,按照表意文字描述序列中表意文字描述符从右到左的顺序,最左侧的表意文字描述符所在的动作为最外层动作,按照由内层到外层的顺序,逐层进行组图。
5.如权利要求4所述的方法,其特征在于,其中
准备各文字部件的图像包括:对每个文字部件,利用预定字体渲染出预定像素大小的单个文字图像;以及勾勒出该预定大小的文字图像的文字轮廓。
6.如权利要求5所述的方法,其特征在于,其中
所述组图的具体方式为:
对于上下结构的文字,将各文字部件按照上下顺序逐个叠加,使得相邻文字部件之间的轮廓间的间距大于等于预定距离;
对于左右结构的文字,将各文字部件按照左右顺序逐个叠加,文字部件之间的轮廓间间距大于等于上述预定距离;
对于包围结构的文字,对被包围文字部件进行宽高等比例缩小,将缩小后的被包围文字部件与包围文字部件进行叠加,文字部件之间的轮廓间间距大于等于上述预定距离;以及
对于交叉结构的文字,将两个文字部件直接叠加。
7.如权利要求1所述的方法,其特征在于,其中
在步骤S4中,存储绘制的该第二文字图像,从而构建包括该第二文字图像的数据库。
8.如权利要求1所述的方法,其特征在于,其中
步骤S5中,所述根据匹配结果确定检索结果具体包括:
如果匹配的可信度达到阈值,则将匹配到的表意文字描述序列作为所述检索结果;否则返回上述步骤S4,继续遍历文档中的已有表意文字描述序列,绘制其第二文字图像,并与第一文字图像进行匹配;以及
直到完成整份文档中已有表意文字描述序列的遍历、文字图像描绘以及图像匹配,均匹配不成功,则认为待检索的表意文字描述序列不存在于此文档中,检索结束。
9.一种文字检索装置,其特征在于,包括:
输入模块,输入待检索的表意文字描述序列;
文本匹配模块,对所述待检索文字的表意文字描述序列进行文本匹配;
解析及绘制模块,解析待检索表意文字描述序列,绘制出第一文字图像;
遍历模块,当文本匹配失败时,遍历电子文档中已有的表意文字描述序列,绘制出每个已有表意文字描述序列的第二文字图像;以及
图像匹配模块,将第一文字图像与第二文字图像进行匹配,根据匹配结果确定所述待检索表意文字描述序列的检索结果。
10.如权利要求9所述的装置,其特征在于,其中
所述解析及绘制模块包括解析模块,用于将表意文字描述序列拆分成多个组图动作,每个该组图动作包括一个表意文字描述符和一组文字部件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京汉王数字科技有限公司,未经北京汉王数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511009801.5/1.html,转载请声明来源钻瓜专利网。