[发明专利]一种表格的字段名处理方法及计算设备在审
申请号: | 201910860726.5 | 申请日: | 2019-09-11 |
公开(公告)号: | CN110659287A | 公开(公告)日: | 2020-01-07 |
发明(设计)人: | 孙龙超;蔡云山;陈志辉;杨秋亮;龚平 | 申请(专利权)人: | 北京亚信数据有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/23;G06F16/25;G16H10/60 |
代理公司: | 11551 北京鼎承知识产权代理有限公司 | 代理人: | 田恩涛;柯宏达 |
地址: | 100193 北京市海淀区西北旺东路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字段 匹配成功 匹配字典 替换 多个条目 匹配 条目 计算设备 快速识别 替换处理 统一 | ||
本发明实施例提供了一种表格的字段名处理方法及计算设备,用以快速识别表的字段名并作统一替换处理,方法包括:建立包括第一字段、第二字段和目标字段的字段名匹配字典;依次选取表格的每一字段名与所述字段名匹配字典的多个条目的第一字段进行匹配,当匹配成功时,将所选字段名替换为匹配成功的条目的第三字段;依次选取表格的每一未被替换的字段名与所述字段名匹配字典的多个条目的第二字段进行匹配,当匹配成功时,将所选字段名替换为匹配成功的条目的第三字段。
技术领域
本公开涉及计算机软件技术领域,尤其涉及一种表格的字段名处理方法及计算设备。
背景技术
随着医疗数据的数据量持续增加,对海量的医疗数据进行大数据分析具有重要意义。大数据中心在收集数据的过程中,大量对接医疗系统各个地、市、县、社区的信息系统,这些信息系统在建设初期没有统一规划,数据表的存储规则特别是字段名的命名规则并不一致,导致工作人员对收集到的数据只能人工识别并匹配,效率很低,同时容易出现疏漏,给数据整合带来很大的工作量。一旦字段名的处理识别发生失误,对后续的数据分析过程将产生严重影响。
如何自动、准确地识别出各表的字段名并作统一替换处理,现有技术还没有相应的解决方案。
发明内容
为此,本公开提供一种表格的字段名处理方法及计算设备,以力图解决或者至少缓解上面存在的至少一个问题。
根据本公开实施例的一个方面,提供了一种表格的字段名处理方法,适于在计算设备中执行,方法包括:
建立包括第一字段、第二字段和目标字段的字段名匹配字典;其中,所述第一字段和所述第二字段用于与表格的字段名匹配,所述第一字段的匹配成功率不小于所述第二字段的匹配成功率,所述第三字段用于在所述第一字段或所述第二字段匹配成功时,替换表格的字段名;
依次选取表格的每一字段名与所述字段名匹配字典的多个条目的第一字段进行匹配,当匹配成功时,将所选字段名替换为匹配成功的条目的第三字段;
依次选取表格的每一未被替换的字段名与所述字段名匹配字典的多个条目的第二字段进行匹配,当匹配成功时,将所选字段名替换为匹配成功的条目的第三字段。
可选地,所述建立包括第一字段、第二字段和目标字段的字段名匹配字典,包括:
获取表格的字段名处理历史数据;
根据所述字段名处理历史数据,确定出替换后的字段名;
确定所述替换后的字段名对应的一个或多个替换前的原始字段名,以及统计出各个原始字段名的出现频次;
建立包括第一字段、第二字段和目标字段的字段名匹配字典,将出现频次最高的原始字段名、所述出现频次最高的原始字段名以外的原始字段名和所述替换后的字段名依次写入所述第一字段、所述第二字段和所述目标字段。
可选地,方法还包括:
当监测到表格的字段名被用户手动替换时,将替换后的字段名与所述字段名匹配字典的多个条目的目标字段进行匹配,如果匹配成功,将替换前的字段名写入匹配成功的条目的第二字段,否则,在所述字段名匹配字典中以替换前的字段名作为第一字段,替换后的字段名作为目标字段新建条目。
可选地,方法还包括:
确定出剩余的未被替换的字段名;
提取所述剩余的未被替换的字段名的数据项,与已作字段名处理的表格的数据项进行特征分析比对;
根据所述特征分析比对结果,确定所述剩余的未被替换的字段名对应的参考字段名;
将所述剩余的未被替换的字段名替换为所述参考字段名。
可选地,所述特征包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亚信数据有限公司,未经北京亚信数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910860726.5/2.html,转载请声明来源钻瓜专利网。