[发明专利]一种文本识别中的公式搜索方法及其装置有效

申请号：	201611099606.0	申请日：	2016-12-01
公开（公告）号：	CN108133168B	公开（公告）日：	2021-04-30
发明（设计）人：	周迅溢;熊蜀光;杨镜;兴百桥;白建国;黄琰	申请（专利权）人：	北京新唐思创教育科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06F16/33
代理公司：	北京合智同创知识产权代理有限公司 11545	代理人：	李杰
地址：	100144 北京市石景山区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本识别中的公式搜索方法及其装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种文本识别中的公式搜索方法及其装置，所述方法，包括：将待搜索公式在预存的公式数据库中进行搜索匹配，所述公式数据库中保存各公式的文字信息、位置关系以及结构关系；根据所述文字信息、位置关系以及结构关系的相似度，计算所述待搜索公式与所述公式数据库中的各公式的匹配值；依据所述待搜索公式与所述公式数据库中的各公式的匹配值，输出与所述待搜索公式匹配值最高的前N个公式作为搜索结果，所述N为自然数。本申请实施例能够在文本识别中准确的进行公式的搜索。

技术领域

本申请属于图像识别技术领域，具体涉及一种文本识别中的公式搜索方法及其装置。

背景技术

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

但是由于公式具有更加复杂的结构和形式，基于文字等字符的搜索并不能直接应用于公式的搜索。申请日为2013年7月3日的中国专利CN201310277494公开了一种数学公式搜索方法及装置，其将公式转为文本进行匹配。但这种简单的仅仅基于公式转为文本进行匹配的公式搜索方法，容易被其他文本内容所干扰，从而影响公式搜索的准确率。

因此，如何在文本识别中准确的进行公式的搜索，成为现有技术中亟需解决的技术问题。

发明内容

本申请实施例解决的技术问题之一在于提供一种文本识别中的公式搜索方法及其装置，其能够在文本识别中准确的进行公式的搜索。

本申请实施例提供一种文本识别中的公式搜索方法，包括：

将待搜索公式在预存的公式数据库中进行搜索匹配，所述公式数据库中保存各公式的文字信息、位置关系以及结构关系；

根据所述文字信息、位置关系以及结构关系的相似度，计算所述待搜索公式与所述公式数据库中的各公式的匹配值；

依据所述待搜索公式与所述公式数据库中的各公式的匹配值，输出与所述待搜索公式匹配值最高的前N个公式作为搜索结果，所述N为自然数。

在本申请实施例中，所述待搜索公式为标记语言格式或者标记语言格式转化得到的图片格式。

在本申请实施例中，所述根据所述文字信息、位置关系以及结构关系的相似度，计算所述待搜索公式与所述公式数据库中的各公式的匹配值包括：

计算所述待搜索公式与所述公式数据库中的各公式的文字信息相似度与文字信息权重的乘积获得文字信息匹配值；

计算所述待搜索公式与所述公式数据库中的各公式的位置关系相似度与位置关系权重的乘积获得位置关系匹配值；

计算所述待搜索公式与所述公式数据库中的各公式的结构关系相似度与结构关系权重的乘积获得结构关系匹配值；