[发明专利]文件处理方法及装置、非易失性存储介质、电子设备在审
申请号: | 202110358017.4 | 申请日: | 2021-04-01 |
公开(公告)号: | CN115188005A | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 包祖贻;李辰;王睿 | 申请(专利权)人: | 阿里巴巴新加坡控股有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/14;G06V30/19;G06N3/04;G06N3/08 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 谢湘宁;张文华 |
地址: | 新加坡珊顿道*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 处理 方法 装置 非易失性 存储 介质 电子设备 | ||
本申请公开了一种文件处理方法及装置、非易失性存储介质、电子设备。其中,该方法包括:获取待解析文件;对上述待解析文件进行解析处理,得到表单文本信息,其中,上述表单文本信息包括:表单中所包含的部分或全部边框数据的文本内容和位置信息;对上述部分或全部边框数据进行分类处理,得到分类结果;基于上述分类结果确定上述部分或全部边框数据的类别信息;对上述部分或全部边框数据的类别信息和文本内容进行合并处理,得到目标结果。本申请解决了现有技术中传统的基于规则的自动识别抽取系统往往依赖人工预先设定的大量规则,难以适应二维表单的灵活格式,且抽取识别信息的准确性和覆盖率较低的技术问题。
技术领域
本申请涉及文件处理领域,具体而言,涉及一种文件处理方法及装置、非易失性存储介质、电子设备。
背景技术
在海关进出口的报关过程中,往往需要报关单位提供各种报关单据资料,用以描述报关单位、报关商品的各种信息。大部分的报关单位对海关要求的报关资料内容和格式并不十分了解,导致报关原始资料的格式并不十分规范,不同来源提交的资料格式也会有所不同,需要大量的人工才能整理提取为标准的格式,因此,为了减少整理提取标准格式的人工成本,基于规则的自动识别抽取系统被用来自动识别抽取报关单据中所需的字段。
但是,传统的基于规则的自动识别抽取系统往往依赖人工预先设定的大量规则,即规则本身的制订仍需要大量人工的介入,且规则不容易更新,难以适应二维表单的灵活格式,抽取准确性和覆盖率较低,对于存在文字识别、录入错误的单据也不能较好的处理。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种文件处理方法及装置、非易失性存储介质、电子设备,以至少解决现有技术中传统的基于规则的自动识别抽取系统往往依赖人工预先设定的大量规则,难以适应二维表单的灵活格式,且抽取识别信息的准确性和覆盖率较低的技术问题。
根据本申请实施例的一个方面,提供了一种文件处理方法,包括:获取待解析文件;对上述待解析文件进行解析处理,得到表单文本信息,其中,上述表单文本信息包括:表单中所包含的部分或全部边框数据的文本内容和位置信息;对上述部分或全部边框数据进行分类处理,得到分类结果;基于上述分类结果确定上述部分或全部边框数据的类别信息;对上述部分或全部边框数据的类别信息和文本内容进行合并处理,得到目标结果。
根据本申请实施例的另一方面,还提供了一种文件处理方法,包括:利用多组训练数据通过机器学习训练得到神经网络模型,其中,上述多组训练数据中的每组数据包括:待训练边框数据的文本内容以及上述待训练边框数据的相邻边框数据的文本内容,上述待训练边框数据的文本内容的标注分类;从待解析文件中解析得到表单文本信息,其中,上述表单文本信息包括:表单中所包含的部分或全部边框数据的文本内容和位置信息;基于上述位置信息将上述部分或全部边框数据中获取待识别边框数据以及上述待识别边框数据的相邻边框数据;将上述待识别边框数据的文本内容以及上述相邻边框数据的文本内容设置为上述神经网络模型的输入参数,使用上述神经网络模型对上述待识别边框数据的文本内容进行分类处理,得到分类结果;基于上述分类结果确定上述部分或全部边框数据中每个边框数据的类别信息;对上述部分或全部边框数据中每个边框数据的类别信息和文本内容进行合并处理,得到目标结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴新加坡控股有限公司,未经阿里巴巴新加坡控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110358017.4/2.html,转载请声明来源钻瓜专利网。