[发明专利]一种公式查询条件的输入方法与装置无效
申请号: | 201210135787.3 | 申请日: | 2012-05-03 |
公开(公告)号: | CN102663138A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 林晓燕;高良才;汤帜;邱勤 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/20 |
代理公司: | 北京万象新悦知识产权代理事务所(普通合伙) 11360 | 代理人: | 苏爱华 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 公式 查询 条件 输入 方法 装置 | ||
1.一种公式查询条件的输入方法,包括如下步骤:
1)用户通过截取屏幕区域的方式,选定当前文档中需要检索的公式区域;
2)如果当前文档为版式文档,则进行版式文档符号识别;否则,进行图像文档符号识别;
3)根据公式符号对公式的布局结构和逻辑结构进行分析,将布局结构和逻辑结构分析结果输出到公式的结构描述文件中,并作为公式搜索引擎的查询输入;
步骤2)中所述版式文档符号识别的实现方法为:
2.1)首先,对文档进行解析,获得文档页内容;然后,获取复合公式符号;最后,根据用户在步骤1)中选定的公式区域,获取该区域内的公式符号,并且保存这些符号的信息M;
步骤2)中所述图像文档符号识别的实现方法为:
2.2)对文档图像进行图像预处理、符号分割以及符号识别,根据在步骤1)中选定的公式区域,获取该区域内的公式符号,并且保存这些符号的信息M。
2.如权利要求1所述的输入方法,其特征是,步骤3)的实现方法如下:
3.1)预处理:根据符号识别结果,获取由多个符号组成的公式元素;
3.2)结构分析:分析3.1)得到的符号和元素之间的布局结构和逻辑结构;
3.3)输出结构化格式:将公式结构分析结果以结构化描述格式输出,并作为公式搜索引擎的查询输入。
3.如权利要求1所述的输入方法,其特征是,所述文档页内容,包括:文本、图形、图像对象;所述获取复合公式符号,指将文档解析获得的文本、图形、图像对象,映射成公式中的符号;所述符号的信息M,包括:编码、基线、位置、边框、字体。
4.如权利要求2所述的输入方法,其特征是,步骤3.2)中,布局结构分析负责识别公式中符号间的布局关系,用公式符号的布局位置关系树表示;逻辑结构分析负责将公式符号间的运算关系识别出来,然后将布局位置关系树转化为逻辑关系树。
5.如权利要求1所述的输入方法,其特征是,步骤3)中,用户通过公式编辑器对公式结构分析结果进行查看并进行编辑修正,然后再作为公式搜索引擎的查询输入。
6.如权利要求1所述的输入方法,其特征是,步骤1)中,通过截取屏幕区域的方式选择需要查询的公式区域,公式区域为文档区域内的矩形框,具体地,用矩形框的左上角坐标和右下角坐标来表示。
7.如权利要求2所述的输入方法,其特征是,步骤3.1)的实现方法为:判断连续字符是否可以合并,若在同一基线上的连续数字字母符号串满足以下合并条件:符号均为数字,且字体名称、字体大小相同,符号间间隔小于符号大小的th倍,0<th<=0.5,则该连续符号可以合并;对于合并的符号串,若它们全都为数字符号,则判断该符号串为数字,若合并的符号串与已知数学符号表中的函数相同,则判断该符号串为数学函数;将判断为数字和数学函数的符号串分别作为整体,作为数学公式元素,用于后续结构分析。
8.如权利要求2所述的输入方法,其特征是,步骤3.2)中,采用基线法对数学公式进行结构分析,做法是:首先确定首符号,以首符号的基线作为公式的主基准线;从左到右依次处理基准线上的符号;根据每个符号所属的符号类型确定符号的作用域;获取每个作用域内的符号,并将该区域作为子公式区域递归分析;最终得到表示字符关系的基线树结构的树结构。
9.一种公式查询条件的输入装置,包括:公式区域获取模块、符号识别模块、公式结构分析模块,其特征是,
所述公式区域获取模块:负责获取用户需要检索的公式区域;
所述符号识别模块:分别对不同文档类型进行符号识别,包括版式文档符号识别、图像文档符号识别;符号识别模块除了识别符号身份,还将获取符号的布局信息;该模块最终输出用户选定的公式区域内的符号以及符号的布局信息;
所述公式结构分析模块:根据公式区域及其中的符号,进行数学公式结构分析,并输出到结构化描述格式,作为查询条件发送给公式搜索引擎进行检索;
所述公式结构分析模块包括三个子模块:预处理子模块、结构分析子模块及输出结构化格式子模块;其中,预处理子模块负责识别由多个符号组成的公式元素;结构分析子模块负责分析公式元素之间的布局关系和逻辑关系;输出结构化格式子模块负责将结构分析子模块分析的结果输出到便于检索和显示的结构化格式中。
10.如权利要求9所述的输入装置,其特征是,该装置还包括用户修正模块,用户使用该模块对公式结构分析结果进行编辑。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210135787.3/1.html,转载请声明来源钻瓜专利网。