[发明专利]文件解析方法和装置在审
申请号: | 201810931865.8 | 申请日: | 2018-08-15 |
公开(公告)号: | CN109241501A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 林皓;宋佳;戴相龙;白志凌 | 申请(专利权)人: | 北京北信源信息安全技术有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 唐维虎 |
地址: | 100000 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件解析器 文件解析 方法和装置 提取文件 解析 操作流程 人工参与 数据解析 用户设定 用户体验 自动匹配 匹配 | ||
本发明提供了一种文件解析方法和装置,属于数据解析技术领域。本发明实施例提供的文件解析方法和装置,选择需要解析的文件后,根据文件的格式,选择对应的文件解析器,将文件与文件解析器进行匹配,通过文件解析器提取文件中的数据,可以实现在没有用户设定操作的情况下,使多种格式的文件自动匹配到相对应的文件解析器,对文件进行解析,进而提取文件中的数据,能够减少文件解析过程中的人工参与,简化操作流程,提高用户体验。
技术领域
本发明涉及数据解析技术领域,具体而言,涉及一种文件解析方法和装置。
背景技术
随着大数据的快速发展,数据采集的方式越来越多,但是大多数采集到的数据文件,需要进行解析才可获取文件中的数据。例如,从网站上采集数据,数据文件的格式为html格式,需要将采集的数据文件存储到本地数据库时,而本地数据库中不能存储html格式的文件,则需要将html格式的文件进行解析,以提取文件中的数据,将数据存入本地数据库。
常规的数据解析方法均为一种文件解析器只能解析一种文件类型,存在多种文件类型需要解析时,就需要使用多个文件解析器,用户进行文件解析时,待解析文件与文件解析器不能自动匹配,需要手动选择与待解析的文件相对应的文件解析器,这就造成了对文件解析时,操作流程多,从而降低了用户体验的问题。
发明内容
针对上述现有技术中存在的问题,本发明提供了一种文件解析方法和装置,在进行文件解析时,可以实现在没有用户设定操作的情况下,使多种格式的文件自动匹配到相对应的文件解析器,对文件进行解析,进而提取文件中的数据,能够减少文件解析过程中的人工参与,简化操作流程,提高用户体验。
第一方面,本发明实施例提供了一种文件解析方法,所述方法包括:
选择需要解析的文件;
根据所述文件的格式,选择对应的文件解析器;
将所述文件与所述文件解析器进行匹配;
通过所述文件解析器提取所述文件的数据。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,根据所述文件格式,选择对应的文件解析器的步骤,包括:
判定所述文件的格式;
若所述文件的格式为xls格式或者xlsx格式,则选择Excel文件解析器;
若所述文件的格式为xml格式,则选择XML文件解析器;
若所述文件的格式为html格式,则将所述html格式的文件转换为xml格式的文件,选择所述XML文件解析器。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,将所述文件与所述文件解析器进行匹配的步骤,包括:
将所述文件通过所述文件解析器进行字典校验;
若校验通过,则判定所述文件与所述文件解析器匹配;
若校验失败,则提示匹配不到对应的文件解析器。
结合第一方面第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,通过所述文件解析器对所述文件进行字典校验的步骤,包括:
将所述xml格式或者html格式的文件通过所述XML文件解析器进行xpath规则校验;
将所述xls格式或者xlsx格式的文件通过所述Excel文件解析器进行列名校验。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,通过所述文件解析器提取所述文件的数据的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京北信源信息安全技术有限公司,未经北京北信源信息安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810931865.8/2.html,转载请声明来源钻瓜专利网。