[发明专利]用于生成文件的方法和装置有效

专利信息
申请号: 201811401303.9 申请日: 2018-11-22
公开(公告)号: CN109740130B 公开(公告)日: 2022-12-09
发明(设计)人: 江汉祥 申请(专利权)人: 厦门市美亚柏科信息股份有限公司
主分类号: G06F40/151 分类号: G06F40/151;G06F40/258;G06F40/111;G06F40/216
代理公司: 厦门福贝知识产权代理事务所(普通合伙) 35235 代理人: 郝学江
地址: 361000 福建省厦门市*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 生成 文件 方法 装置
【说明书】:

本申请实施例公开了用于生成文件的方法和装置。该方法的一具体实施方式包括:获取包括多个行和多个列的目标文件;基于多个行,确定至少一个标题行,其中,标题行对应于目标文件包括的分段,标题行包括至少一个标题项目;对于至少一个标题行中的每个标题行,基于该标题行包括的标题项目,确定该标题行对应的分段的数据类型;获取预设的、与所确定的数据类型对应的标题库;将该标题行与所获取的标题库匹配;基于匹配结果,生成该标题行对应的、包含标准标题行和对应的分段包含的数据的标准文件。该实施方式有助于提高数据清洗的效率和准确性。

技术领域

本申请实施例涉及计算机技术领域,具体涉及用于生成文件的方法和装置。

背景技术

当前,数据已经成为各个行业关注的目标,要开展大数据分析首要的前提就是要汇聚数据。但是汇聚数据时,有来自标准接口的数据,也有来自没有统一标准或不同标准接口的不规范数据。这就有数据清洗入库的问题,而数据清洗与导入也一直是困扰各个行业的问题。

目前市场上已有的产品,对此类不规范数据的导入都依赖于手工清洗导入和模板导入方式,无法智能清洗与导入。

利用模板导入方式,需要手动建立模板,这样的操作非常不便。一旦文件的标题内容及标题项目顺序有任何变动,又得重新指定标题,建立新模板。

发明内容

本申请实施例的目的在于提出了一种改进的用于生成文件的方法和装置,来解决以上背景技术部分提到的技术问题。

第一方面,本申请实施例提供了一种用于生成文件的方法,该方法包括:获取包括多个行和多个列的目标文件;基于多个行,确定至少一个标题行,其中,标题行对应于目标文件包括的分段,标题行包括至少一个标题项目;对于至少一个标题行中的每个标题行,基于该标题行包括的标题项目,确定该标题行对应的分段的数据类型;获取预设的、与所确定的数据类型对应的标题库;将该标题行与所获取的标题库匹配;基于匹配结果,生成该标题行对应的、包含标准标题行和对应的分段包含的数据的标准文件。

在一些实施例中,获取包括多个行和多个列的目标文件,包括:获取待处理文件,以及确定待处理文件的类型;基于类型,对待处理文件中包括的数据进行分隔操作,生成包括多个行和多个列的目标文件。

在一些实施例中,基于类型,对待处理文件中包括的数据进行分隔操作,生成包括多个行和多个列的目标文件,包括:响应于确定待处理文件为文本文件,对待处理文件包括的至少一种分隔符进行统计,基于统计结果确定目标分隔符;根据目标分隔符,对待处理文件中包括的数据进行分隔操作,生成包括多个行和多个列的目标文件。

在一些实施例中,对待处理文件包括的至少一种分隔符进行统计,基于统计结果确定目标分隔符,包括:从至少一种分隔符中,确定至少一种常规分隔符;统计至少一种常规分隔符中的每个常规分隔符的数量;确定所统计的数量中的最大值,响应于确定所确定的最大值大于等于目标数量,将所确定的最大值对应的常规分隔符确定为目标分隔符。

在一些实施例中,在确定所统计的数量中的最大值之后,该方法还包括:响应于确定最大值小于目标数量,统计至少一种分隔符中的、除常规分隔符之外的其他每个分隔符的数量;确定其他每个分隔符的数量的最大值,响应于确定所确定的最大值大于等于目标数量,将所确定的最大值对应的分隔符确定为目标分隔符。

在一些实施例中,在确定其他每个分隔符的数量的最大值之后,该方法还包括:响应于确定所确定的最大值小于目标数量,获取用户输入的分隔符作为目标分隔符。

在一些实施例中,基于多个行,确定至少一个标题行,包括:从多个行中,确定包括的标题项目含有目标内容的行作为待定标题行;从所确定的待定标题行中,将包括至少预设数量个含有目标内容的标题项目的待定标题行确定为目标文件包括的标题行。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811401303.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top