[发明专利]一种文本识别中的公式搜索方法及其装置有效
申请号: | 201611099606.0 | 申请日: | 2016-12-01 |
公开(公告)号: | CN108133168B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 周迅溢;熊蜀光;杨镜;兴百桥;白建国;黄琰 | 申请(专利权)人: | 北京新唐思创教育科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F16/33 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰 |
地址: | 100144 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 识别 中的 公式 搜索 方法 及其 装置 | ||
本申请提供一种文本识别中的公式搜索方法及其装置,所述方法,包括:将待搜索公式在预存的公式数据库中进行搜索匹配,所述公式数据库中保存各公式的文字信息、位置关系以及结构关系;根据所述文字信息、位置关系以及结构关系的相似度,计算所述待搜索公式与所述公式数据库中的各公式的匹配值;依据所述待搜索公式与所述公式数据库中的各公式的匹配值,输出与所述待搜索公式匹配值最高的前N个公式作为搜索结果,所述N为自然数。本申请实施例能够在文本识别中准确的进行公式的搜索。
技术领域
本申请属于图像识别技术领域,具体涉及一种文本识别中的公式搜索方法及其装置。
背景技术
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
但是由于公式具有更加复杂的结构和形式,基于文字等字符的搜索并不能直接应用于公式的搜索。申请日为2013年7月3日的中国专利CN201310277494公开了一种数学公式搜索方法及装置,其将公式转为文本进行匹配。但这种简单的仅仅基于公式转为文本进行匹配的公式搜索方法,容易被其他文本内容所干扰,从而影响公式搜索的准确率。
因此,如何在文本识别中准确的进行公式的搜索,成为现有技术中亟需解决的技术问题。
发明内容
本申请实施例解决的技术问题之一在于提供一种文本识别中的公式搜索方法及其装置,其能够在文本识别中准确的进行公式的搜索。
本申请实施例提供一种文本识别中的公式搜索方法,包括:
将待搜索公式在预存的公式数据库中进行搜索匹配,所述公式数据库中保存各公式的文字信息、位置关系以及结构关系;
根据所述文字信息、位置关系以及结构关系的相似度,计算所述待搜索公式与所述公式数据库中的各公式的匹配值;
依据所述待搜索公式与所述公式数据库中的各公式的匹配值,输出与所述待搜索公式匹配值最高的前N个公式作为搜索结果,所述N为自然数。
在本申请实施例中,所述待搜索公式为标记语言格式或者标记语言格式转化得到的图片格式。
在本申请实施例中,所述根据所述文字信息、位置关系以及结构关系的相似度,计算所述待搜索公式与所述公式数据库中的各公式的匹配值包括:
计算所述待搜索公式与所述公式数据库中的各公式的文字信息相似度与文字信息权重的乘积获得文字信息匹配值;
计算所述待搜索公式与所述公式数据库中的各公式的位置关系相似度与位置关系权重的乘积获得位置关系匹配值;
计算所述待搜索公式与所述公式数据库中的各公式的结构关系相似度与结构关系权重的乘积获得结构关系匹配值;
对所述文字信息匹配值、位置关系匹配值以及结构关系匹配值进行累加获得所述待搜索公式与所述公式数据库中的各公式的匹配值。
在本申请实施例中,所述文字信息相似度包括:
匹配对的字符数、未匹配对的字符数以及匹配对字符数与未匹配对字符数的比值中至少一种。
在本申请实施例中,所述位置关系相似度包括:
匹配对的位置关系数、未匹配对的位置关系数以及错误匹配对的位置关系差异值中至少一种。
在本申请实施例中,所述结构关系相似度包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新唐思创教育科技有限公司,未经北京新唐思创教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611099606.0/2.html,转载请声明来源钻瓜专利网。