[发明专利]一种表格的字段名处理方法及计算设备在审

申请号：	201910860726.5	申请日：	2019-09-11
公开（公告）号：	CN110659287A	公开（公告）日：	2020-01-07
发明（设计）人：	孙龙超;蔡云山;陈志辉;杨秋亮;龚平	申请（专利权）人：	北京亚信数据有限公司
主分类号：	G06F16/22	分类号：	G06F16/22;G06F16/23;G06F16/25;G16H10/60
代理公司：	11551 北京鼎承知识产权代理有限公司	代理人：	田恩涛;柯宏达
地址：	100193 北京市海淀区西北旺东路***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	字段匹配成功匹配字典替换多个条目匹配条目计算设备快速识别替换处理统一
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种表格的字段名处理方法及计算设备，用以快速识别表的字段名并作统一替换处理，方法包括：建立包括第一字段、第二字段和目标字段的字段名匹配字典；依次选取表格的每一字段名与所述字段名匹配字典的多个条目的第一字段进行匹配，当匹配成功时，将所选字段名替换为匹配成功的条目的第三字段；依次选取表格的每一未被替换的字段名与所述字段名匹配字典的多个条目的第二字段进行匹配，当匹配成功时，将所选字段名替换为匹配成功的条目的第三字段。

技术领域

本公开涉及计算机软件技术领域，尤其涉及一种表格的字段名处理方法及计算设备。

背景技术

随着医疗数据的数据量持续增加，对海量的医疗数据进行大数据分析具有重要意义。大数据中心在收集数据的过程中，大量对接医疗系统各个地、市、县、社区的信息系统，这些信息系统在建设初期没有统一规划，数据表的存储规则特别是字段名的命名规则并不一致，导致工作人员对收集到的数据只能人工识别并匹配，效率很低，同时容易出现疏漏，给数据整合带来很大的工作量。一旦字段名的处理识别发生失误，对后续的数据分析过程将产生严重影响。

如何自动、准确地识别出各表的字段名并作统一替换处理，现有技术还没有相应的解决方案。

发明内容

为此，本公开提供一种表格的字段名处理方法及计算设备，以力图解决或者至少缓解上面存在的至少一个问题。

根据本公开实施例的一个方面，提供了一种表格的字段名处理方法，适于在计算设备中执行，方法包括：

建立包括第一字段、第二字段和目标字段的字段名匹配字典；其中，所述第一字段和所述第二字段用于与表格的字段名匹配，所述第一字段的匹配成功率不小于所述第二字段的匹配成功率，所述第三字段用于在所述第一字段或所述第二字段匹配成功时，替换表格的字段名；

依次选取表格的每一字段名与所述字段名匹配字典的多个条目的第一字段进行匹配，当匹配成功时，将所选字段名替换为匹配成功的条目的第三字段；

依次选取表格的每一未被替换的字段名与所述字段名匹配字典的多个条目的第二字段进行匹配，当匹配成功时，将所选字段名替换为匹配成功的条目的第三字段。

可选地，所述建立包括第一字段、第二字段和目标字段的字段名匹配字典，包括：

获取表格的字段名处理历史数据；

根据所述字段名处理历史数据，确定出替换后的字段名；

确定所述替换后的字段名对应的一个或多个替换前的原始字段名，以及统计出各个原始字段名的出现频次；

建立包括第一字段、第二字段和目标字段的字段名匹配字典，将出现频次最高的原始字段名、所述出现频次最高的原始字段名以外的原始字段名和所述替换后的字段名依次写入所述第一字段、所述第二字段和所述目标字段。