[发明专利]一种医药流向数据清洗中的一种数据智能匹配方法在审
申请号: | 202011307347.2 | 申请日: | 2020-11-20 |
公开(公告)号: | CN112685392A | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 吴乃超 | 申请(专利权)人: | 未名企鹅(北京)科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/245;G06F16/903 |
代理公司: | 北京国谦专利代理事务所(普通合伙) 11752 | 代理人: | 彭淋 |
地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 医药 流向 数据 清洗 中的 智能 匹配 方法 | ||
本发明公开了一种医药流向数据清洗中的一种数据智能匹配方法,涉及大数据中数据清洗的数据匹配领域。该医药流向数据清洗中的一种数据智能匹配方法,包括数据收集模块,数据收集模块用于收集各个分部的系统中的数据,公共子串算法检索数据中的相同字符子串,公共字符子串生成正则表达式,如果能够匹配成功,那么这些数据就会被转换。该医药流向数据清洗中的一种数据智能匹配方法,通过使用算法学习人工处理结果,对结果进行推导,找出匹配规则,使用匹配规则处理其余待匹配数据,大大提高了人工处理匹配数据的效率,解决了在数据匹配领域,机器无法学习人工处理数据的结果,机器对数据匹配的处理效率低和处理正确性差的问题。
技术领域
本发明涉及大数据中数据清洗的数据匹配技术领域,具体为一种医药流向数据清洗中的一种数据智能匹配方法。
背景技术
数据应用分析的基础是治理好企业所存储的各种脏数据,使它们能为分析所使用。药企现有系统收集存储的第一手数据多为脏数据,很多不准或者不全。这里面的主要原因是:同一件事物,如经销商、零售、医院等,经不同的人员,录入各类系统时,有着不同的表述,包括不同的简称、俗称、缩写、起名等。由此导致不同线上线下渠道汇总来的同一个终端取名各异,企业内部数据与商品销售流量数据无法打通,导致药企内部数据统计分析费时费力。数据匹配服务,就是帮助药企对脏数据进行标准化,和已有的主数据进行匹配或者补充。
在实际应用中,对于海量医药数据的清洗,基于传统的数据匹配技术,会产生大量的人工处理审核数据,在人工处理过程,机器无法参与学习,导致人工处理效率低下。例如下面的数据样例:
1)万盛达州通川区双龙店;
2)万盛达州通川区魏兴店;
3)万盛达州通川区青宁店。
经过人工处理后,上面三个实体名称匹配下面的标准名称:
1)万盛达州通川区双龙店--四川省万盛药业连锁有限公司双龙连锁店;
2)万盛达州通川区魏兴店--四川省万盛药业连锁有限公司魏兴连锁店;
3)万盛达州通川区青宁店--四川省万盛药业连锁有限公司青宁连锁店。
从语义分析角度,计算机无法判断万盛达州通川区双龙店和四川省万盛药业连锁有限公司双龙连锁店完全代表同一个实体,但是人工处理数据时,依靠数据处理者的经验,可以完全判定万盛达州通川区双龙店和四川省万盛药业连锁有限公司双龙连锁店代表同一个实体。上面一组数据,通过人为观察,可以发现有统一的转换规律,由人来处理一条记录,形成某种经验,计算机如果可以学习这种经验,就可以匹配处理大量的相似数据。
有鉴于此,本发明提供一种机器学习人工处理结果的方法,基于此方法,机器可以参与学习人工处理数据,帮助提升数据处理匹配效率。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种医药流向数据清洗中的一种数据智能匹配方法,解决了在数据匹配领域,机器无法学习人工处理数据的结果,机器对数据匹配的处理效率低和处理正确性差的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种医药流向数据清洗中的一种数据智能匹配方法,包括数据收集模块,所述数据收集模块用于收集各个分部的系统中的数据,将其收集到主系统当中。
进一步的,所述数据收集模块将收集到的各个分部数据传输到储存模块当中,储存模块将这些未经处理的数据单独储存在一起。
进一步的,所述数据储存模块包括收集A处的数据和收集B处的数据。
进一步的,所述储存模块将数据储存之后导入到规则识别模块当中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于未名企鹅(北京)科技有限公司,未经未名企鹅(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011307347.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置