[发明专利]一种文件处理方法及装置、存储介质及电子设备在审
申请号: | 202310141784.9 | 申请日: | 2023-02-21 |
公开(公告)号: | CN116011438A | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 鲁士琦 | 申请(专利权)人: | 中银金融科技有限公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/205;G06F16/332;G06F16/31;G06F16/242;G06F16/248 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郄晨芳 |
地址: | 200120 上海市浦东新区中国(*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 处理 方法 装置 存储 介质 电子设备 | ||
本申请提供了一种文件处理方法及装置、存储介质及电子设备,可应用于大数据领域或金融领域,通过对各个目标文件进行解析,得到每个目标文件的标题和目录结构数据,接着在增量表中不存在与目标文件的标题和目录结构数据均匹配的数据时,按照目录结构数据,将目标文件存储至处理系统的结构化数据库中,然后,接收通过前端页面输入的查询请求,并基于查询请求中包括的关键词,从结构数据库中筛选满足关键词的目标文件进行可视化显示。本申请方案,通过目标结构数据,对结构化数据库中的目标文件进行存储,从而可以通过关键词,对存储至结构化数据库的目标文件进行筛选,无需依次手动打开查看文件,从而降低大量的人力和物力,并提高了筛选效率。
技术领域
本申请涉及计算机应用技术领域,尤其涉及一种文件处理方法及装置、存储介质及电子设备。
背景技术
在研究类机构工作中,需要阅读处理大量研究报告、资讯期刊、主题评论、通讯文稿等具有固定格式的电子文件,此类文件通常以PDF形式发布在数据源网站中,并以“期刊名+日期”的格式命名,文件中附有目录小标题,用于阐述本文件涉及的资讯新闻内容。
现有技术中,通过数据源网站获取PDF形式的文件后,直接将文件进行存储,导致后续查询文件只能依次手动打开查看各文件内容并识别,存在工作量繁复,导致需要耗费大量的人力、物力,以及效率低的问题。
发明内容
本申请提供了一种文件处理方法及装置、存储介质及电子设备,目的在于解决现有技术中存在的工作量繁复,导致需要耗费大量的人力、物力,以及效率低的问题
为了实现上述目的,本申请提供了以下技术方案:
一种文件处理方法,应用于处理系统,包括:
按预设周期,从数据源网站中获取多个目标文件;
对各个目标文件进行解析,得到每个目标文件的标题和目录结构数据;
针对每个目标文件,基于所述目标文件的标题和目录结构数据,判断预设的增量表中是否存在与所述目标文件的标题和目录结构数据均匹配的数据,若不存在,则按照所述目录结构数据,将所述目标文件存储至所述处理系统的结构化数据库中,并将所述目标文件的标题和目录结构数据写入至所述增量表中;其中,所述结构化数据库预先链接至所述处理系统的前端页面;
接收通过所述前端页面输入的查询请求;所述查询请求中包括至少一个关键词;
基于所述查询请求中包括的关键词,从所述结构数据库中筛选满足所述关键词的目标文件;
对所筛选出的目标文件进行可视化显示。
上述的方法,可选的,所述从数据源网站中获取多个目标文件,包括:
基于数据源网站的统一资源定位符,定位所述数据资源网站;
基于网站认证信息和检索配置信息,从所述数据源网站中获取满足所述检索配置信息的多个目标文件。
上述的方法,可选的,所述对各个目标文件进行解析,得到每个目标文件的标题和目录结构数据,包括:
获取每个目标文件所属期刊的期刊类型;
针对每个目标文件,基于所述目标文件所属期刊的期刊类型,从预设的解析策略中确定与所述期刊类型对应的解析策略,并基于与所述期刊类型对应的解析策略,对所述目标文件进行解析,得到所述目标文件的标题和目录结构数据。
上述的方法,可选的,所述按照所述目录结构数据,将所述目标文件存储至所述处理系统的结构化数据库中,包括:
基于所述目标文件所属期刊的期刊类型,从预设的目录存储模板中确定目标目录存储模板;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中银金融科技有限公司,未经中银金融科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310141784.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:无人零售柜购物数据的采集方法、装置、电插锁及介质
- 下一篇:一种茶叶解块机