[发明专利]一种数据文件编码格式转换方法及系统有效
申请号: | 202010263975.9 | 申请日: | 2020-04-07 |
公开(公告)号: | CN111476002B | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 陈涛 | 申请(专利权)人: | 北京东方金信科技股份有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 冀志华 |
地址: | 100062 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据文件 编码 格式 转换 方法 系统 | ||
1.一种数据文件编码格式转换系统,其特征在于其包括:
文件获取模块、线程管理模块、解析模块、转码模块和文件输出模块;
所述文件获取模块用于获取用户上传的输入文件,记录各输入文件的上传时间以及对应的用户名称;
所述线程管理模块用于为各输入文件的转换任务创建线程任务,并按照上传时间并行取出多个线程任务发送到相应的所述解析模块;
所述解析模块用于采用原有的编码格式对用户上传的输入文件进行读取,得到与之对应的待转换文件;
所述转码模块用于采用大数据融合开发系统能够识别的编码格式对待转换文件进行转码,得到新的输入文件;
所述文件输出模块用于将转码后新的输入文件输出到大数据融合开发系统中,用于后续处理;
所述解析模块包括第一读取模块、解析判断模块、分组模块、行号信息记录模块、文件编号记录模块、转换文件建立模块以及存储模块;
所述第一读取模块用于采用用户原有的编码格式对用户上传的输入文件进行读取,读取时采用的是java中的IO流工具;
所述解析判断模块用于对读取的内容进行解析,并判断读取的内容是否为乱码,如果为乱码则将读取数据发送到所述分组模块,否则将数据发送到所述存储模块;
所述分组模块用于将数据内容中的每一行数据作为一个转换单元,并按照预设最大转换阈值将读取到的所有转换单元进行分组,得到多个转换单元组;
所述行号信息记录模块用于将各转换单元组中起止行数据对应的行号信息记录到分组信息表中;
所述文件编号记录模块用于根据分组信息表为每一转换单元组建立与其起止行号信息相关联的唯一的转换文件编号,然后将各转换文件编号记录到转换文件编号表中;
所述转换文件建立模块用于根据转换文件编号表建立转换文件,并将与之对应的各转换单元组中的数据按条存储到各转换文件中;
所述存储模块用于将各转换文件或数据内容存储到待转换文件夹。
2.如权利要求1所述的一种数据文件编码格式转换系统,其特征在于:所述线程管理模块包括线程创建模块、队列表创建和维护模块以及线程取出模块;
所述线程创建模块用于当用户上传多个输入文件或不同用户同时上传一个或多个输入文件时,为每一个输入文件的转换任务创建一个线程放入线程池;
所述队列表创建和维护模块用于建立并维护一个队列表,该队列表中存储有各任务线程的相关信息,包括线程所包含的输入文件名称、输入文件对应的用户名称、输入文件的上传时间以及输入文件的处理状态;
所述线程取出模块用于按照预设的并行处理线程个数以及队列表中记录的输入文件的上传时间,从线程池中取出相应个数的线程任务,并发送到所述解析模块。
3.如权利要求1所述的一种数据文件编码格式转换系统,其特征在于:所述转码模块包括第二读取模块、二进制转换模块、数据获取模块、关键值写入模块、数据值写入模块;
所述第二读取模块用于根据转换文件编号表中的转换文件编号,依次读取待转换文件夹中待转换文件内的转换单元组;
所述二进制转换模块用于将读取到的转换单元组中的各转换单元即每条数据分别转换为二进制形式;
所述数据获取模块用于对二进制形式的各转换单元进行遍历,得到每一转换单元对应的关键值及该关键值对应的数据值集合;
所述关键值写入模块用于将各转换单元组中的关键值重写写入输入文件的第一行,且各转换单元对应的关键值之间采用逗号隔开;
所述数据值写入模块用于将各转换单元组中关键值对应的数据值按列依次写入与其对应的关键值下方,且每一行中两两转换单元的数据值之间采用逗号隔开。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京东方金信科技股份有限公司,未经北京东方金信科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010263975.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车天窗导轨铝材压弯装置
- 下一篇:一种玫瑰酵素的制备方法