[发明专利]一种客户信息查重方法在审
申请号: | 201711356799.8 | 申请日: | 2017-12-16 |
公开(公告)号: | CN108090185A | 公开(公告)日: | 2018-05-29 |
发明(设计)人: | 张毅;王章龙;张松 | 申请(专利权)人: | 河北慧日信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06F11/14 |
代理公司: | 石家庄德皓专利代理事务所(普通合伙) 13129 | 代理人: | 耿佳;杨瑞龙 |
地址: | 050000 河北省石家庄市新石北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 企业数据 目标企业 数据包 企业数据库 客户信息 重结果 删除 核查 数据包存储 代码存储 规则选取 中心企业 重复 映射 返回 | ||
1.一种客户信息查重方法,其特征在于,包括以下步骤:
S1:从待查重企业数据中选取一企业数据建立第i条目标企业数据包,并映射第i条目标企业数据包的代码存储至此目标企业数据包,
S2:第i条目标企业数据包存储至已核查企业数据库并将此企业数据从待查重企业数据中删除,
S3:从待查重企业数据中选取一企业数据建立第i+1条目标企业数据包,并映射第i+1条目标企业数据包的代码存储至此目标企业数据包,
S4:将第i+1条目标企业数据包与已核查企业数据库一企业从设定好的查重规则选取查重项目至少两项进行查重操作,如果查重结果为重复,将此企业数据从待查重企业数据中删除,返回步骤S3,如果查重结果为不重复,第i+1条目标企业数据包存储至已核查企业数据库并将此企业数据从待查重企业数据中删除;
S5:重复步骤S3~S4,且i依次递增,其中i为自然数;
其中,建立目标企业数据包具体包括以下步骤:
S31:将目标企业名称同其对应的关联手机号、企业地址、关联电子邮箱、企业邮政编码、关联座机,一同组成一条目标企业数据包储存于文档中,
S32:规范目标企业名称,规范目标企业名称的输入方式统一清洗为半角中文,同时将目标企业名称中的阿拉伯数字统一为汉字数字;
S33:目标企业名称分词处理,从目标企业数据包中选取目标企业名称进行分词处理,得到目标企业字号、目标企业区域、目标企业经营范围、目标企业组织形式,并将目标企业字号、目标企业区域、目标企业经营范围、目标企业组织形式增加至目标企业数据包;
其中,S4中查重规则设定具体为,对比目标企业数据包与已核查企业数据库中一企业的企业名称规则a1,对比目标企业数据包与已核查企业数据库中一企业的目标企业字号规则a2,对比目标企业数据包与已核查企业数据库中一企业的目标企业区域规则a3,对比目标企业数据包与已核查企业数据库中一企业的目标企业经营范围规则a4,对比目标企业数据包与已核查企业数据库中一企业的目标企业组织形式规则a5,对比目标企业数据包与已核查企业数据库中一企业的关联手机号规则a6,对比目标企业数据包与已核查企业数据库中一企业的企业地址规则a7,对比目标企业数据包与已核查企业数据库中一企业的关联电子邮箱规则a8,对比目标企业数据包与已核查企业数据库中一企业的企业邮政编码规则a9,对比目标企业数据包与已核查企业数据库中一企业的关联座机规则a10。
2.根据权利要求1所述的一种客户信息查重方法,其特征在于,S4中查重规则选取为a2且a3。
3.根据权利要求1所述的一种客户信息查重方法,其特征在于,S4中查重规则选取为a2且a3且a4。
4.根据权利要求1所述的一种客户信息查重方法,其特征在于,S4中查重结果为重复或者不重复由查重量M的数值决定,
M≥r,查重结果为重复,
M<r,查重结果为不重复,r为预设常数。
5.根据权利要求4所述的一种客户信息查重方法,其特征在于,M=M1+M2+M3+M4+M5+M6+M7+M8,
M1为目标企业字号相似度分值,
M2为目标企业区域相似度分值
M3为目标企业经营范围相似度分值,
M4为目标企业组织形式相似度分值,
M5为目标企业关联手机号相似度分值,
M6为目标企业关联电子邮箱相似度分值,
M7为目标企业邮政编码相似度分值,
M8为目标企业关联座机相似度分值。
6.根据权利要求5所述的一种客户信息查重方法,其特征在于,
目标企业数据包的目标企业字号与已核查企业数据库中一企业的企业字号相比对,若字符完全相同,M1=1,若有x1个字符不同M1=1-0.1*x1,若字符完全不同或不参与查重,M1=0,
目标企业数据包的区域与已核查企业数据库中一企业的区域相比对,若字符完全相同,M2=1,若有x2个字符不同M2=1-0.2*x2,若字符完全不同或不参与查重M2=0,
目标企业数据包的经营范围与已核查企业数据库中一企业的经营范围相比对,若字符完全相同,M3=1,若有x3个字符不同M3=1-0.2*x3,若字符完全不同或不参与查重M3=0,
目标企业数据包的组织形式与已核查企业数据库中一企业的组织形式相比对,若字符完全相同,M4=1,若有x4个字符不同M4=1-0.2*x4,若字符完全不同或不参与查重M4=0,
目标企业数据包的关联手机号与已核查企业数据库中一企业的关联手机号相比对,若字符完全相同,M5=1,若有x5个字符不同M5=1-0.08*x5,若字符完全不同或不参与查重M5=0,
目标企业数据包的关联电子邮箱与已核查企业数据库中一企业的关联电子邮箱相比对,若字符完全相同,M6=1,若有x6个字符不同M6=1-0.05*x6,若字符完全不同或不参与查重M6=0,
目标企业数据包的邮政编码与已核查企业数据库中一企业的邮政编码相比对,若字符完全相同,M7=1,若有x7个字符不同M7=1-0.16*x7,若字符完全不同或不参与查重M7=0,
目标企业数据包的关联座机与已核查企业数据库中一企业的关联座机相比对,若字符完全相同,M8=1,若有x8个字符不同M8=1-0.08*x8,若字符完全不同或不参与查重M8=0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北慧日信息技术有限公司,未经河北慧日信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711356799.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种流域污水数据库系统
- 下一篇:一种大数据平台上的电力数据去重方法