[发明专利]一种文本识别中的拉泰赫格式公式处理方法及其装置有效
申请号: | 201611227736.8 | 申请日: | 2016-12-27 |
公开(公告)号: | CN108241847B | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 白建国;熊蜀光;周迅溢;兴百桥;杨镜 | 申请(专利权)人: | 北京新唐思创教育科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F40/205;G06F40/253 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰 |
地址: | 100144 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 识别 中的 拉泰赫 格式 公式 处理 方法 及其 装置 | ||
本申请实施例提供在于提供一种文本识别中的拉泰赫格式公式处理方法及其装置,所述方法,包括:获得文本识别中公式的公式间隔符号数量,并判断所述公式间隔符号数量是否为偶数;如为偶数,根据每个公式碎片中首个公式间隔符号之前的字符类型确定公式头部的位置;根据每个公式碎片中最后的公式间隔符号之后的字符类型确定公式尾部的位置;删除多余的公式间隔符号,获得完整的拉泰赫格式公式。本申请实施例能够使拉泰赫格式公式碎片自动化合成为拉泰赫格式公式,节约图像识别的人工成本,提高识别效率。
技术领域
本申请属于图像识别技术领域,具体涉及一种文本识别中的拉泰赫格式公式处理方法及其装置。
背景技术
拉泰赫(LATEX,音译“拉泰赫”)是一种基于ΤΕΧ的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在20世纪80年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由TeX所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。这个系统同样适用于生成从简单的信件到完整书籍的所有其他种类的文档。
在传统的计算机辅助教学系统中,教师往往需要将大量的试卷题目与习题册题目录入计算机系统,以方便学生在线联系以及老师在线辅导。这一试题录入的过程往往会消耗大量的人力物力,而且进度却常常非常缓慢。利用图像识别技术可以很方便快捷的完成题目的绝大部分录入,但是因为题目中包含的公式是无法通过整体一次性识别的,所以图像识别的结果,还需要人工的二次干预,所以导致效率的提升非常有限。如果可以将图像识别的拉泰赫格式的公式碎片(以公式分隔符号分隔的拉泰赫格式公式的一部分)用自动化的方式合并在一起,就会节约图像识别的人工成本,提高识别效率。
因此,如何在图像识别中自动化的对拉泰赫格式公式进行处理,成为现有技术中亟需解决的技术问题。
发明内容
本申请实施例解决的技术问题之一在于提供一种文本识别中的拉泰赫格式公式处理方法及其装置,其能够使拉泰赫格式公式碎片自动化合成为拉泰赫格式公式,节约图像识别的人工成本,提高识别效率。
本申请实施例提供一种文本识别中的拉泰赫格式公式处理方法,包括:
获得文本识别中公式的公式间隔符号数量,并判断所述公式间隔符号数量是否为偶数;
如为偶数,根据每个公式碎片的首个公式间隔符号之前的字符类型确定公式碎片的头部的位置;
根据每个公式碎片的最后的公式间隔符号之后的字符类型确定公式碎片的尾部的位置;
删除多余的公式间隔符号,获得完整的拉泰赫格式公式。
在本申请具体实现中,所述方法还包括:
如为奇数,查找每一公式间隔符号之前未包含在公式碎片中的字符或者公式间隔符号,并在所述字符或者公式间隔符号之后插入一公式间隔符号。
在本申请具体实现中,所述如为偶数,根据每个公式碎片的首个公式间隔符号之前的字符类型确定公式碎片的头部的位置包括:
检测所述每个公式碎片的首个公式间隔符号之前的第一字符的类型;
如果所述第一字符为中文、公式间隔符号、标点符号中任一种,则结束向前查找,确定所述公式间隔符号之后的字符为公式碎片的头部的位置;
如果所述第一字符为数字、字母或者数学符号,则交换所述公式间隔符号和所述第一字符的位置,并继续向前检测确定公式碎片头部的位置;
如果所述第一字符为右括号,则根据向前查找是否获得左括号,确定所述公式碎片的头部的位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新唐思创教育科技有限公司,未经北京新唐思创教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611227736.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于识别拉曼谱图的方法
- 下一篇:一种稳定的信息采集装置