[发明专利]无线条流水文件的转换方法、装置、设备及存储介质在审
申请号: | 202210535864.8 | 申请日: | 2022-05-17 |
公开(公告)号: | CN115050041A | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 李潇;戴彪 | 申请(专利权)人: | 上海孚厘科技有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/18;G06V30/162;G06F40/18;G06Q40/02 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 袁雪 |
地址: | 201900 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 线条 流水 文件 转换 方法 装置 设备 存储 介质 | ||
本发明涉及数据处理技术领域,公开了一种无线条流水文件的转换方法、装置、设备及存储介质,所述方法包括:对待转换的目标格式无线条流水文件进行页面分割;对目标无线流水图片进行结构元素识别,得到连续文字轮廓;根据预设高度系数、预设行系数、预设间隔系数以及连续文字轮廓确定行分组结构文字数据和空白列;根据行分组结构文字数据和空白列生成目标结构文字数据,并按照目标数据写入策略将目标结构数据写入至目标线条文件;通过上述方式,根据预设高度系数、预设行系数、预设间隔系数对连续文字轮廓进行处理,然后对空白列进行标记和列补全,再将目标结构数据进行写入,从而能够有效提高转换无线条流水文件的准确性,且准确定位出单元格。
技术领域
本发明涉及数据处理技术领域,尤其涉及无线条流水文件的转换方法、装置、设备及存储介质。
背景技术
银行流水数据是反映小微客户群经营情况的重要依据之一,而流水数据的分析是评估客户是否存在风险的重要手段之一,目前实现流水数据常常以打印方式实现,但是,通过扫描件形成的pdf文件、图片均是非格式化数据,即无线条流水数据,且扫描件中的文字数据通常会存在文字不清晰、表格歪斜或者印章覆盖文字的缺陷,为解决上述缺陷,目前常用方式是通过深度学习网络进行识别,但是深度学习网络在识别过程中的准确性较低,使得最终的文字错误百出,且无法准确定位出文字数据的单元格。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种无线条流水文件的转换方法、装置、设备及存储介质,旨在解决现有技术转换无线条流水文件的准确性较低,且无法准确定位出文字数据的单元格的技术问题。
为实现上述目的,本发明提供了一种无线条流水文件的转换方法,所述无线条流水文件的转换方法包括以下步骤:
对待转换的目标格式无线条流水文件进行页面分割,得到目标无线条流水图片;
对所述目标无线流水图片进行结构元素识别,得到连续文字轮廓;
根据预设高度系数、预设行系数、预设间隔系数以及所述连续文字轮廓确定行分组结构文字数据和空白列;
根据所述行分组结构文字数据和所述空白列生成目标结构文字数据,并按照目标数据写入策略将所述目标结构数据写入至目标线条文件。
可选地,所述对待转换的目标格式无线条流水文件进行页面分割,得到目标无线条流水图片,包括:
对待转换的目标格式无线条流水文件进行页面分割,得到若干页目标格式无线条流水文件;
按照目标倍数对所述若干页目标格式无线条流水文件进行缩放;
对缩放后的若干页目标格式无线条流水文件进行转换,得到目标无线条流水图片。
可选地,所述对待转换的目标格式无线条流水文件进行页面分割,得到若干页目标格式无线条流水文件之前,还包括:
接收终端设备发出的电子版无线条流水文件;
对所述电子版无线条流水文件进行扫描,得到无线条流水扫描文件;
在所述无线条流水扫描文件满足预设文字辨识缺陷时,将所述无线条流水扫描文件作为待转换的目标格式无线条流水文件。
可选地,所述对所述目标无线流水图片进行结构元素识别,得到连续文字轮廓,包括:
对所述目标无线流水图片进行通道拆分,得到目标数量通道;
提取所述目标数量通道的红色通道;
根据所述红色通道对所述目标无线流水图片进行二值化处理,得到黑底白字的二值化无线流水图片;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海孚厘科技有限公司,未经上海孚厘科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210535864.8/2.html,转载请声明来源钻瓜专利网。