[发明专利]一种数据处理方法及装置有效
申请号: | 201911359781.2 | 申请日: | 2019-12-25 |
公开(公告)号: | CN113033269B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 乔健;罗嘉文;王靓伟;郑荣福 | 申请(专利权)人: | 华为技术服务有限公司 |
主分类号: | G06V30/414 | 分类号: | G06V30/414;G06V30/416;G06V30/413;G06V30/412;G06V10/82;G06F16/22;G06F40/186 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;李稷芳 |
地址: | 065000 河北省*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
本发明实施例公开一种数据处理方法及装置,该方法包括:获取包括多张图像的待处理数据,多张图像包括文字;确定多张图像包括的图像块的类型和位置,图像块的类型包括文字;根据图像块的类型和图像块的位置,提取图像块中的数据以及数据之间的逻辑关系,该数据包括文字以及文字的文字特征;根据逻辑关系对数据进行结构化处理,得到结构化数据。该方法可以自动提取图像中的数据,并对提取的数据进行结构化处理,可以提高数据处理效率。
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法及装置。
背景技术
不同行业在不同阶段都会产生很多数据,例如,电信行业中网络部署与集成业务的勘测阶段的勘测报告记录了经纬度、站型、天线方位角下倾角等站点数据,电信行业中网络部署与集成业务的设计阶段的设计报告记录了站点的详细设计信息。在每个阶段结束后,需要由相应的工作人员对该阶段记录的数据进行整理,以便将非结构化数据转换为结构化数据。然而,上述方式中,由于工作人员需要对记录的数据进行提取、整理和转填,所需时间较长,以致降低了数据处理效率。
发明内容
本发明实施例公开了一种数据处理方法及装置,用于提高数据处理效率。
第一方面公开一种数据处理方法,获取包括多张图像的待处理数据,确定这多张图像包括的图像块的类型和位置,根据图像块的类型和该图像块的位置,提取图像块中的数据以及该数据之间的逻辑关系,根据逻辑关系对该数据进行结构化处理得到结构化数据。这多张图像包括文字,图像块的类型包括文字,该数据包括文字以及文字的文字特征。文字的文字特征可以包括文字的字体风格、字体大小和字体划线。文字的字体风格可以包括文字的字体、粗细、是否加粗、颜色等。字体划线可以包括下划线、删除线等。由于可以自动提取图像中的数据,并对提取的数据进行结构化处理,不需要人的参与,因此,可以提高数据处理效率。
作为一种可能的实施方式,确定这多张图像包括的图像块的类型和位置时,可以通过版面分析算法对这多张图像进行分析,得到这多张图像包括的图像块的类型和位置。图像块的类型可以包括文字、表格、图像、页眉、页脚、公式等。版面分析算法可以为基于文档频谱的版面分析算法(the document spectrum for page layout analysis)、基于区域沃罗诺伊图的版面分割算法(segmentation of page images using the area voronoidiagram)等。可以将一张图像按照包括数据的类型划分为不同的图像块,以便针对不同类型的图像块可以采用相应的数据提取方法提取数据,从而可以提高数据处理效率。
作为一种可能的实施方式,可以根据映射规则将结构化数据中的数据添加至文档模板得到文档,以便可以自动生成文档,从而可以提高了文档生成效率。
作为一种可能的实施方式,映射规则可以包括键值对,根据映射规则将结构化数据中的数据添加至文档模板得到文档时,可以先根据键值对中的键确定文档模板中的待填写位置,之后将结构化数据中该键值对的键对应的值添加至待填写位置,可以根据键值对将结构化数据中存在键值对关系的数据快速地添加至文档模板,可以提高文档生成效率。
作为一种可能的实施方式,可以根据业务规则从提取的数据中选取部分数据,之后根据部分数据对应的逻辑关系对部分数据进行结构化处理得到结构化数据。业务规则为所需数据的位置信息和/或所需数据要满足的条件信息。可以根据业务规则选取出需要的数据,以便只对需要的数据进行结构化,而对不需要的数据不进行结构化,可以减少需要结构化的数据,从而可以进一步提高数据处理效率。
作为一种可能的实施方式,可以根据业务规则确定多张图像包括的图像块的类型和位置,业务规则为所需数据的位置信息和/或所需数据要满足的条件信息。可以先根据业务规则确定需要提取数据的位置和类型,之后只对需要提取的类型和位置中的数据进行提取,不需要对所有图像中的所有数据进行提取,减少了数据的提取范围,因此,可以进一步提高数据处理效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术服务有限公司,未经华为技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911359781.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:脏页记录方法、装置、电子设备及计算机可读介质
- 下一篇:可穿戴设备