[发明专利]一种对不同格式报关文件进行统一处理的方法有效
申请号: | 201810771128.6 | 申请日: | 2018-07-13 |
公开(公告)号: | CN109062872B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 孙进荣;许爱花;陈胜国;余锦中 | 申请(专利权)人: | 上海溱云科技有限公司 |
主分类号: | G06F40/103 | 分类号: | G06F40/103 |
代理公司: | 北京惠科金知识产权代理有限公司 11981 | 代理人: | 袁晓哲 |
地址: | 200000 上海市静安区沪*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 不同 格式 报关 文件 进行 统一 处理 方法 | ||
1.一种对不同格式报关文件进行统一处理的方法,其特征在于,包括以下步骤:
步骤1、根据用户提供的不同报关模板文件生成对应的解析程序;
步骤2、使用解析程序将用户的报关数据模板解析成统一数据格式的字符串;
步骤3、将统一格式的字符串导入报关数据计算模块中,统一输出海关统一数据格式,包含表头内容、表体内容、规格型号;
步骤4、将符合海关报关系统单一窗口要求的数据格式生成统一的.xml格式传递至单一窗口客户端;
所述步骤1通过Excel文件分析程序或PDF文件分析程序实现;
所述Excel文件分析程序包括Excel数据特征规则和基于规则的数据转换程序;
Excel数据特征规则结构为:数据块规则以自嵌套的结构体方式描述表格数据块特征,结构体包含的元素:单元格定位规则、数据块组合规则、数据块聚合规则、数据块内数据值规则、数据块内嵌子块规则;数据特征规则是组合定位规则与数据值规则加上比较运算符,提供Excel工作薄特征识别与工作表识别;
所述基于规则的数据转换程序为:以二进制方式读取Excel文件,并根据头部数据判断是否支持的文件;将支持的Excel文件解析为二维表格结构;遍历规则库中的数据特征规则匹配当前数据,来确定当前数据对应的转换规则;执行转换规则,将二维表络数据转换成规则对应的结构化数据;
所述PDF文件分析程序实现过程为:
通过iTextSharp组件,读取PDF文件,读取成二进制流,得到字节数据;
取得每一页的字节数组,将每一个字节转换为字符,并将数组转换为字符串;
分析字符串的结构,按照特殊规范得到相应的数据格式;
得到的数据为16进制,在通过相应的解码方式转换成中文;
得到的数据结构在通过相应的归并规则写入数据库中;
所述步骤3通过账册更新对比程序和其他报关数据对比程序实现:建立企业账册库和HScode商品编码库,企业账册库将申报给单一窗口的账册信息通过API进行获取,获取后将转换的数据信息进行比对,核对信息;HScode商品编码库记录海关每年发布的HScode库,从HScode库中获取最新的HScode编码对应的字段名称;
所述步骤2通过规格型号分析程序实现;规格型号分析程序负责将客户提供的数据源中不标准的数据,通过正则表达式进行数据分析,最终将客户导入的数据分析成为符合单一窗口规范的标准的统一数据格式。
2.根据权利要求1所述的一种对不同格式报关文件进行统一处理的方法,其特征在于:步骤2中所述的统一数据格式为JSON字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海溱云科技有限公司,未经上海溱云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810771128.6/1.html,转载请声明来源钻瓜专利网。