[发明专利]一种公式解析方法在审
申请号: | 201911383745.X | 申请日: | 2019-12-28 |
公开(公告)号: | CN111209722A | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 董霞;李颖;齐苗苗 | 申请(专利权)人: | 合肥长远知识产权管理有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/205;G06F40/279;G06F40/30 |
代理公司: | 合肥市长远专利代理事务所(普通合伙) 34119 | 代理人: | 金宇平 |
地址: | 230000 安徽省合肥市高新*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 公式 解析 方法 | ||
本发明提出的一种公式解析方法,首先根据字符间隙对公式进行切割,获取一个或多个字符单元;然后逐一识别各字符单元,并提取无法识别的字符单元作为分离对象;根据字符长度对各分离对象进行切割,获得切割字符,并对切割字符进行识别。本发明提出的一种公式解析方法,通过对字符单元和切割字符的拆分,实现了将公式中每一个字符的单独确认。本发明是通过将公式拆分为字符,然后通过识别字符还原公式。如此,以字符识别代替公式识别,大大降低了识别难度,同时还提高了识别精度。
技术领域
本发明涉及文本处理技术领域,尤其涉及一种公式解析方法。
背景技术
随着互联网的不断普及和互联网技术的迅速发展,信息、在线化、智能化等信息处理手段正在向传统逐渐取代纸质文件。很多文件构建时,需要对大量包含公式的数据进行语义解析,如何准确地对包含数学公式的数据进行语义解析具重大意义。
发明内容
基于背景技术存在的技术问题,本发明提出了一种公式解析方法。
本发明提出的一种公式解析方法,首先根据字符间隙对公式进行切割,获取一个或多个字符单元;然后逐一识别各字符单元,并提取无法识别的字符单元作为分离对象;根据字符长度对各分离对象进行切割,获得切割字符,并对切割字符进行识别。
优选的,逐一识别各字符单元的方式为,将每一个字符单元与预设的字符库中存储的字符逐一进行对比,获取与字符单元相符合的字符作为识别结果。
优选的,对切割字符进行识别的方法为:将每一个切割字符与预设的字符库中存储的字符逐一进行对比,获取与切割字符相符合的字符。
优选的,根据字符长度对各分离对象进行切割的方法为:根据识别结果,获取标准字符长度,并根据标准字符长度对分离对象进行切割。
优选的,标准字符长度为成功识别的各字符单元的平均长度。
优选的,根据标准字符长度对分离对象进行切割的方法为:从分离对象的左侧起,逐一切割出长度等于标准字符长度的切割字符;对于剩余的不足一个标准字符长度的部分,获取其长度值,当其长度值与标准字符长度的比值大于或等于预设阈值,则将该剩余部分作为一个切割字符;反之,则放弃该剩余部分。
优选的,预设阈值大于或等于0.8。
优选的,对于无法识别的切割字符,则根据其在字符单元中的排序,获取位置连续的不能识别的切割字符作为一个组合对象,然后对每一个组合对象,首先以最左侧的切割字符作为起始字符,然后将起始字符与右侧相邻的切割字符组合,并对组合字符进行识别:如果组合字符识别成功,则将与组合字符相邻的切割字符更新为起始字符,然后将起始字符与右侧相邻的切割字符组合,并对组合字符进行识别;如果组合字符识别失败,则将组合字符作为起始字符,然后将起始字符与右侧相邻的切割字符组合,并对组合字符进行识别。
优选的,具体包括以下步骤:
S1、设置字符库,用于存储字符模型;
S2、获取公式,并建立模型参照库,将字符库中的各字符模型根据公式进行格式调整后存储到模型参照库中;
S3、根据字符间隙对公式进行切割,获取一个或多个字符单元;
S4、将每一个字符单元与模型参照库中各字符模型逐一对比,获取与字符单元相符合的字符模型作为识别结果;
S5、判断是否存在没有识别结果的字符单元;否,则根据各字符单元的识别结果组合公式;
S6、是,则提取无法识别的字符单元作为分离对象,并根据字符长度对各分离对象进行切割,获得切割字符;
S7、将每一个切割字符与模型参照库中各字符模型逐一对比,获取与切割字符相符合的字符模型作为识别结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥长远知识产权管理有限公司,未经合肥长远知识产权管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911383745.X/2.html,转载请声明来源钻瓜专利网。