[发明专利]一种电子表格数据颗粒化及指标标准化处理方法有效
申请号: | 202011365226.3 | 申请日: | 2020-11-28 |
公开(公告)号: | CN112328589B | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 李银生;聂永川;张朝宗;王红;吴峰;任雁;刘淼;张金龙;陈娟;张碟;蒋倩男;张聪;高原;高银珍;毋鹏杰 | 申请(专利权)人: | 河北省科学技术情报研究院(河北省科技创新战略研究院) |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/28;G06F40/18 |
代理公司: | 石家庄中和昇知识产权代理事务所(特殊普通合伙) 13145 | 代理人: | 付会平 |
地址: | 050051 *** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子表格 数据 颗粒 指标 标准化 处理 方法 | ||
本发明公开了一种电子表格数据颗粒化及指标标准化处理方法,包括以下步骤:利用电子表格格式规整器将表格统一为标准表格待处理文档PD;利用区域自动识别器读取待处理文档PD,形成表格矩阵M,并识别指标区域和数值区域;利用指标结构解析器,递归遍历指标区域,识别并提取指标单元存入I库;识别并提取指标分类描述单元存入C库;识别并标引指标单元和指标分类描述单元之间的应用场景存入R库;利用数值项自动提取器,通过遍历数值区域提取数值项,同时将其对应的横纵坐标、指标单元键值、指标分类描述单元键值存入D库。本发明一次性解决了二维电子表格数据的颗粒化、标准化、隐性属性显性化等问题,为进行多源、大规模数据运算提供了基础。
技术领域
本发明属于大数据处理技术领域,特别是一种对电子表格进行颗粒化、标准化、隐性属性显性化的处理方法。
背景技术
在大数据治理过程中,数据的来源是多样化的,表格数据文件是其中一种常见类型。目前,表格数据文件多是二维电子表格,在数据处理时,二维电子表格数据的存储和表达方式通常是将表格的横坐标和纵坐标直接组合之后进行存储与展现,例如,图2展示的二维电子表格,其表达数据348时,通常采用“大型企业数348”进行表示。这种方式主要存在以下缺陷。
1)由于表格数据庞杂、指标不统一,缺少对指标的分类和分级定义,利用现有技术处理的二维表格数据,都以同一类型存储在数据库中,从而导致指标多样化、非标准化;2)现有技术在提取二维电子表格数据的过程中,大多没有直接记录指标单元的层级关系以及应用场景等隐含属性,而是以横坐标、纵坐标直接组合方式存储,这样不但丢失了很多隐含关系,还增加了指标名称的长度、增大了指标的数量,在数据表达时会导致指标不标准、可读性差、无法准确描述指标(数据)之间的层级关系等诸多问题;延续上例,“大型企业数348”仅能供读者看到字面含义,而其隐含的“2016年年鉴(书名)、按企业规模及登记注册类型分规模以上工业企业基本情况(表格名称)”都没有真正的表达出来;3)另外,目前数据的表达和展示大多采用EXCEL表格、PDF、HTML、图片等方式,现有的存储方式由于缺失数据指标层级关系,因此不利于数据的查询、提取、汇总、统计以及大规模运算和精准表达。
发明内容
本发明需要解决的技术问题是提供一种电子表格数据颗粒化及指标标准化处理方法,以解决现有二维电子表格数据无法实现便捷查询和精准表达的问题,通过对指标分类、分级定义和抽取,结合隐性属性显性化以及分类分级存储等技术方法,一次性解决二维电子表格数据的颗粒化、标准化、隐性属性显性化等问题,为进行多源、大规模数据运算提供基础。
为解决上述技术问题,本发明所采取的技术方案如下。
一种电子表格数据颗粒化及指标标准化处理方法,具体包括以下步骤:
S1.加载表格文档,利用电子表格格式规整器,将多种形式的表格统一为标准表格待处理文档PD;
S2.利用区域自动识别器,读取步骤S1形成的待处理文档PD,形成表格矩阵M,并识别指标区域和数值区域;
S3.利用指标结构解析器,递归遍历指标区域,识别并提取指标单元,存入I库;识别并提取指标分类描述单元,存入C库;识别并标引指标单元和指标分类描述单元之间的应用场景,存入R库;
S4.利用数值项自动提取器,通过遍历数值区域,提取数值项,同时依据步骤S2形成的表格矩阵M的横坐标和纵坐标以及步骤S3提取的指标单元和指标分类描述单元,定位并标引该数值项对应的指标单元键值和指标分类描述单元键值,存入D库。
上述一种电子表格数据颗粒化及指标标准化处理方法,在表格文档加载前,将表格中的内容划分为数值项和指标项;其中数值项包含横纵坐标值和数值,指标项根据属性划分为特征类、名词类、分类类以及统计类,统计类又分为指标和指标分类描述。
上述一种电子表格数据颗粒化及指标标准化处理方法,步骤S1中所述电子表格格式规整器将多种形式的表格统一为标准表格待处理文档PD的具体方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北省科学技术情报研究院(河北省科技创新战略研究院),未经河北省科学技术情报研究院(河北省科技创新战略研究院)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011365226.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:地图显示方法及装置
- 下一篇:一种用于市政建设用管道及其施工方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置