[发明专利]一种医药流向数据清洗中的一种数据智能匹配方法在审

专利信息
申请号: 202011307347.2 申请日: 2020-11-20
公开(公告)号: CN112685392A 公开(公告)日: 2021-04-20
发明(设计)人: 吴乃超 申请(专利权)人: 未名企鹅(北京)科技有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/245;G06F16/903
代理公司: 北京国谦专利代理事务所(普通合伙) 11752 代理人: 彭淋
地址: 100000 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 医药 流向 数据 清洗 中的 智能 匹配 方法
【说明书】:

发明公开了一种医药流向数据清洗中的一种数据智能匹配方法,涉及大数据中数据清洗的数据匹配领域。该医药流向数据清洗中的一种数据智能匹配方法,包括数据收集模块,数据收集模块用于收集各个分部的系统中的数据,公共子串算法检索数据中的相同字符子串,公共字符子串生成正则表达式,如果能够匹配成功,那么这些数据就会被转换。该医药流向数据清洗中的一种数据智能匹配方法,通过使用算法学习人工处理结果,对结果进行推导,找出匹配规则,使用匹配规则处理其余待匹配数据,大大提高了人工处理匹配数据的效率,解决了在数据匹配领域,机器无法学习人工处理数据的结果,机器对数据匹配的处理效率低和处理正确性差的问题。

技术领域

本发明涉及大数据中数据清洗的数据匹配技术领域,具体为一种医药流向数据清洗中的一种数据智能匹配方法。

背景技术

数据应用分析的基础是治理好企业所存储的各种脏数据,使它们能为分析所使用。药企现有系统收集存储的第一手数据多为脏数据,很多不准或者不全。这里面的主要原因是:同一件事物,如经销商、零售、医院等,经不同的人员,录入各类系统时,有着不同的表述,包括不同的简称、俗称、缩写、起名等。由此导致不同线上线下渠道汇总来的同一个终端取名各异,企业内部数据与商品销售流量数据无法打通,导致药企内部数据统计分析费时费力。数据匹配服务,就是帮助药企对脏数据进行标准化,和已有的主数据进行匹配或者补充。

在实际应用中,对于海量医药数据的清洗,基于传统的数据匹配技术,会产生大量的人工处理审核数据,在人工处理过程,机器无法参与学习,导致人工处理效率低下。例如下面的数据样例:

1)万盛达州通川区双龙店;

2)万盛达州通川区魏兴店;

3)万盛达州通川区青宁店。

经过人工处理后,上面三个实体名称匹配下面的标准名称:

1)万盛达州通川区双龙店--四川省万盛药业连锁有限公司双龙连锁店;

2)万盛达州通川区魏兴店--四川省万盛药业连锁有限公司魏兴连锁店;

3)万盛达州通川区青宁店--四川省万盛药业连锁有限公司青宁连锁店。

从语义分析角度,计算机无法判断万盛达州通川区双龙店和四川省万盛药业连锁有限公司双龙连锁店完全代表同一个实体,但是人工处理数据时,依靠数据处理者的经验,可以完全判定万盛达州通川区双龙店和四川省万盛药业连锁有限公司双龙连锁店代表同一个实体。上面一组数据,通过人为观察,可以发现有统一的转换规律,由人来处理一条记录,形成某种经验,计算机如果可以学习这种经验,就可以匹配处理大量的相似数据。

有鉴于此,本发明提供一种机器学习人工处理结果的方法,基于此方法,机器可以参与学习人工处理数据,帮助提升数据处理匹配效率。

发明内容

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种医药流向数据清洗中的一种数据智能匹配方法,解决了在数据匹配领域,机器无法学习人工处理数据的结果,机器对数据匹配的处理效率低和处理正确性差的问题。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:一种医药流向数据清洗中的一种数据智能匹配方法,包括数据收集模块,所述数据收集模块用于收集各个分部的系统中的数据,将其收集到主系统当中。

进一步的,所述数据收集模块将收集到的各个分部数据传输到储存模块当中,储存模块将这些未经处理的数据单独储存在一起。

进一步的,所述数据储存模块包括收集A处的数据和收集B处的数据。

进一步的,所述储存模块将数据储存之后导入到规则识别模块当中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于未名企鹅(北京)科技有限公司,未经未名企鹅(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011307347.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top