[发明专利]续转数据处理方法、装置、计算机设备和存储介质在审
申请号: | 202110409704.4 | 申请日: | 2021-04-16 |
公开(公告)号: | CN114880353A | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 俞良慧;张霄栋;杨李 | 申请(专利权)人: | 中国再保险(集团)股份有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/25;G06Q40/08 |
代理公司: | 北京华进京联知识产权代理有限公司 11606 | 代理人: | 孙岩;朱五云 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 转数 处理 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种续转数据处理方法、装置、计算机设备和存储介质。所述方法包括:获取原始续转文件,提取该原始续转文件中的主题关键字;根据该主题关键字,从关键字与标准主题的映射关系中查找,得到对应的标准主题;从该原始续转文件中提取该标准主题下的待匹配行,若该表头数据库中查找到与该待匹配行匹配的表头,则将该待匹配行标记为表头;将标记后的表头输入预先训练好的表头映射模型进行预测,得到对应的标准字段;对标记后的表头下的数据进行标准化处理,根据该标准字段及对应的标准化处理后的数据得到标准化的续转文件。本方法通过对原始续转文件的主题、表头、数据的标准化处理,提高了续转数据处理的效率,且提高了准确率。
技术领域
本申请涉及数据处理技术领域,特别是涉及一种续转数据处理方法、装置、计算机设备和存储介质。
背景技术
续转是财产险行业开展再保险业务的操作业务环节。目前不同公司提供的需转数据,无法形成统一结构化的数据存储。
目前续转数据在实际业务应用阶段,只能通过人工手段进行整理,效率低下,准确率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高需转数据处理效率以及准确率的续转数据处理方法、装置、计算机设备和存储介质。
第一方面,提供了一种续转数据处理方法,该方法包括:
获取原始续转文件,提取该原始续转文件中的主题关键字;
根据该主题关键字,从关键字与标准主题的映射关系中查找,得到对应的标准主题;
从该原始续转文件中提取该标准主题下的待匹配行,在与该标准主题对应的表头数据库进行查找,若在该表头数据库中查找到与该待匹配行匹配的表头,则将该待匹配行标记为表头;
将标记后的表头输入预先训练好的表头映射模型进行预测,得到对应的标准字段;
提取该原始续转文件中的标记后的表头下对应的数据,并对该数据进行标准化处理,根据该标准字段及对应的标准化处理后的数据得到标准化的续转文件。
在其中一个实施例中,在与该标准主题对应的表头数据库进行查找,若在该表头数据库中查找到与该待匹配行匹配的表头,则将该待匹配行标记为表头,包括:
在与该标准主题对应的表头数据库进行精确查找,若在该表头数据库中查找到与该待匹配行匹配的表头,则将该待匹配行标记为表头;
若在该表头数据库中未查找到与该待匹配行匹配的表头,则通过模糊查询判断该待匹配行是否为表头,当该待匹配行被判断为表头,则将该待匹配行标记为表头。
在其中一个实施例中,通过模糊查询判断该待匹配行是否为表头,当该待匹配行被判断为表头,则将该待匹配行标记为表头,包括:
在该表头数据库中模糊查询与该待匹配行的相似度超过预设相似阈值的表头,作为该待匹配行的命中记录;
计算该待匹配行与该命中记录之间的编辑距离,并找到该编辑距离中的最大值,作为最大编辑距离;
当该最大编辑距离大于表头距离阈值,则将该待匹配行标记为表头。
在其中一个实施例中,该标准主题包括多个主题;该表头映射模型包括该多个主题中每个主题对应的表头映射模型;
将标记后的表头输入预先训练好的表头映射模型进行预测,得到对应的标准字段,包括:
根据该标记后的表头对应的标准主题查找对应的表头映射模型,将标记后的表头输入该表头映射模型进行预测,得到对应的标准字段。
在其中一个实施例中,将标记后的表头输入预先训练好的表头映射模型进行预测,得到对应的标准字段之后,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国再保险(集团)股份有限公司,未经中国再保险(集团)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110409704.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:全血及指尖血检测装置及检测方法
- 下一篇:抑菌组合物及包含它的湿厕纸