[发明专利]一种客户信息查重方法在审
申请号: | 201711356799.8 | 申请日: | 2017-12-16 |
公开(公告)号: | CN108090185A | 公开(公告)日: | 2018-05-29 |
发明(设计)人: | 张毅;王章龙;张松 | 申请(专利权)人: | 河北慧日信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06F11/14 |
代理公司: | 石家庄德皓专利代理事务所(普通合伙) 13129 | 代理人: | 耿佳;杨瑞龙 |
地址: | 050000 河北省石家庄市新石北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 企业数据 目标企业 数据包 企业数据库 客户信息 重结果 删除 核查 数据包存储 代码存储 规则选取 中心企业 重复 映射 返回 | ||
本发明属于信息查重技术领域,提出了一种客户信息查重方法,包括以下步骤:从待查重企业数据中选取一企业数据建立第i+1条目标企业数据包,并映射第i+1条目标企业数据包的代码存储至此目标企业数据包,将第i+1条目标企业数据包与已核查企业数据库一企业从设定好的查重规则选取查重项目至少两项进行查重操作,如果查重结果为重复,将此企业数据从待查重企业数据中删除,返回步骤S3,如果查重结果为不重复,第i+1条目标企业数据包存储至已核查企业数据库并将此企业数据从待查重企业数据中删除;本发明解决了现有技术中心企业信息查重负责不方便的问题。
技术领域
本发明属于信息查重技术领域,涉及一种客户信息查重方法。
背景技术
在实际生产生活中,整理客户的企业数据对企业做定向营销时发现,样本数据中存在大量重复的企业数据。为在营销中降低营销用户企业反感,通过降低营销数据重复率,从而更精确的定位营销范围的投放,提高企业中文数据的精确性。在成千上万的数据中,若使用人力查找重复数据是一件非常困难的事情。现有方案一般有以下几种:
1、使用EXCEL的普通筛选查找实现的查重功能,去除完全相同的企业名称重复数据。
2、使用SQL等数据库工具,去除完全相同的企业名称重复数据。
3、使用查重工具,去除完全相同的企业名称重复数据
4、使用现有的分词工具,拆分后,使用以上三种方法的字段组合方式去除企业名称的重复数据。
这些方案具有以下缺点:
1、需要操作人员掌握EXCEL、SQL、查重、分词等工具,对基础操作人员的技能要求高。
2、要求操作人员懂得一定的查重方法,组合各个方法做查重。
3、中间流程多,操作复杂。
4、查重结果的重复率高,完全重复的数据可以去除,近似重复的不能查到。
5、耗费资源多,若数据量大需要多人协作、重复确认,容易出错。
发明内容
本发明提出一种客户信息查重方法,解决了现有技术中的上述问题。
本发明的技术方案是这样实现的:
一种客户信息查重方法,包括以下步骤:
S1:从待查重企业数据中选取一企业数据建立第i条目标企业数据包,并映射第i条目标企业数据包的代码存储至此目标企业数据包,
S2:第i条目标企业数据包存储至已核查企业数据库并将此企业数据从待查重企业数据中删除,
S3:从待查重企业数据中选取一企业数据建立第i+1条目标企业数据包,并映射第i+1条目标企业数据包的代码存储至此目标企业数据包,
S4:将第i+1条目标企业数据包与已核查企业数据库一企业从设定好的查重规则选取查重项目至少两项进行查重操作,如果查重结果为重复,将此企业数据从待查重企业数据中删除,返回步骤S3,如果查重结果为不重复,第i+1条目标企业数据包存储至已核查企业数据库并将此企业数据从待查重企业数据中删除;
S5:重复步骤S3~S4,且i依次递增,其中i为自然数;
其中,建立目标企业数据包具体包括以下步骤:
S31:将目标企业名称同其对应的关联手机号、企业地址、关联电子邮箱、企业邮政编码、关联座机,一同组成一条目标企业数据包储存于文档中,
S32:规范目标企业名称,规范目标企业名称的输入方式统一清洗为半角中文,同时将目标企业名称中的阿拉伯数字统一为汉字数字;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北慧日信息技术有限公司,未经河北慧日信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711356799.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种流域污水数据库系统
- 下一篇:一种大数据平台上的电力数据去重方法