[发明专利]文件的处理方法、设备及可读存储介质在审
申请号: | 202010750284.1 | 申请日: | 2020-07-30 |
公开(公告)号: | CN111898340A | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 江国洲 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/166;G06F16/16 |
代理公司: | 上海光栅知识产权代理有限公司 31340 | 代理人: | 乔慧;马雯雯 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 处理 方法 设备 可读 存储 介质 | ||
本公开实施例提供的文件的处理方法、设备及可读存储介质,包括:接收字符分割值CSV文件,并将CSV文件中的文件内容转换为字节数组;根据字节数组确定CSV文件的编码格式;根据编码格式确定CSV文件中的文件数据。本公开实施例提供的方法、设备及可读存储介质能够将CSV文件转换为字节数组,再基于字节数组确定文件的编码格式,进而能够准确的解析CSV文件,避免由于不知道文件格式编码,导致出现数据乱码、编码错误的问题。
技术领域
本公开实施例涉及文件处理技术,尤其涉及一种文件的处理方法、设备及可读存储介质。
背景技术
字符分割值(Comma-Separated Values,CSV)文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。
CSV文件经常用来作为不同程序之间的数据交互的格式。因此,需要对CSV文件进行读取操作,但是,CSV文件的编码格式较多,在读取CSV文件时容易造成数据乱码、编码错误等问题。
发明内容
本公开实施例提供一种文件的处理方法、设备及可读存储介质,以解决在处理CSV文件时出现的数据乱码、编码错误等问题。
第一方面,本公开实施例提供一种文件的处理方法,包括:
接收字符分割值CSV文件,并将所述CSV文件中的文件内容转换为字节数组;
根据所述字节数组确定所述CSV文件的编码格式;
根据所述编码格式确定所述CSV文件中的文件数据。
在一种可能的设计中,所述根据所述编码格式确定所述CSV文件中的文件数据,包括:
根据所述编码格式确定解读器,并通过所述解读器读取所述字节数组中包括的分隔符;
根据读取的所述分隔符确定所述CSV文件中的文件数据。
在一种可能的设计中,所述根据所述字节数组确定所述CSV文件的编码格式,包括:
识别所述字节数组中的字符分布方式,并根据所述字符分布方式确定所述CSV文件的编码格式。
在一种可能的设计中,所述根据读取的所述分隔符确定所述CSV文件中的文件数据,包括:
根据读取到的多种分隔符的数量确定目标分隔符;
根据所述目标分隔符确定所述CSV文件中的文件数据。
在一种可能的设计中,将所述CSV文件中的文件内容转换为字节数组时,若所述文件内容中包括预设字符,将所述CSV文件的编码格式由第一类型转换为第二类型。
在一种可能的设计中,所述将所述CSV文件的编码格式由第一类型转换为第二类型,包括:
删除所述预设字符,并根据删除所述预设字符后的文件内容确定所述字节数组。
在一种可能的设计中,所述预设字符是\ufeff。
在一种可能的设计中,还包括:
将所述文件数据封装成符合预设格式的文档;
其中,封装后的所述文件数据在所述文档中按所述预设格式显示。
第二方面,本公开实施例提供一种文件的处理设备,包括:
转换模块,用于接收字符分割值CSV文件,并将所述CSV文件中的文件内容转换为字节数组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010750284.1/2.html,转载请声明来源钻瓜专利网。