[发明专利]一种数据清洗方法及系统在审
申请号: | 201811636284.8 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109783813A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 徐汕;张晶亮;黄文锋;姜桥;单酉;杨端;卫未 | 申请(专利权)人: | 北京航天云路有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/215 |
代理公司: | 北京纽乐康知识产权代理事务所(普通合伙) 11210 | 代理人: | 白明珠 |
地址: | 100039 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种数据清洗方法及系统,包括以下步骤:获取不规则的行业数据;利用CRF算法模型将所述行业数据进行分词;计算不同所述分词之间的Jaccard距离,根据计算后的分词对应标准行业数据。本发明有益效果:通过分词结合计算Jaccard距离的方法将不规则的行业数据进行标准化处理,将不规则的企业行业数据清洗为国家标准中的对应数据的,增加了行业数据易用性。 | ||
搜索关键词: | 行业数据 分词 不规则 数据清洗 标准化处理 标准行业 算法模型 易用性 清洗 | ||
【主权项】:
1.一种数据清洗方法,其特征在于,包括以下步骤:获取不规则的行业数据;利用CRF算法模型将所述行业数据进行分词;计算不同所述分词之间的Jaccard距离,根据计算后的分词对应标准行业数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航天云路有限公司,未经北京航天云路有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811636284.8/,转载请声明来源钻瓜专利网。