[发明专利]一种数据清洗方法及系统在审

专利信息
申请号: 201811636284.8 申请日: 2018-12-29
公开(公告)号: CN109783813A 公开(公告)日: 2019-05-21
发明(设计)人: 徐汕;张晶亮;黄文锋;姜桥;单酉;杨端;卫未 申请(专利权)人: 北京航天云路有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06F16/215
代理公司: 北京纽乐康知识产权代理事务所(普通合伙) 11210 代理人: 白明珠
地址: 100039 北京市海淀区西*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 行业数据 分词 不规则 数据清洗 标准化处理 标准行业 算法模型 易用性 清洗
【说明书】:

发明公开了一种数据清洗方法及系统,包括以下步骤:获取不规则的行业数据;利用CRF算法模型将所述行业数据进行分词;计算不同所述分词之间的Jaccard距离,根据计算后的分词对应标准行业数据。本发明有益效果:通过分词结合计算Jaccard距离的方法将不规则的行业数据进行标准化处理,将不规则的企业行业数据清洗为国家标准中的对应数据的,增加了行业数据易用性。

技术领域

本发明涉及数据通信技术领域,具体来说,涉及一种数据清洗方法及系统。

背景技术

企业所属的行业信息是企业本身的重要属性,但是由于自然语言的特点,由于对同一行业有不同的描述方法,比如对于制造业,可以描述为“制造行业”、也可以描述为“加工制造业”等,这就为数据使用带来了困难,将不规则的行业数据规则化,是深入挖掘数据价值的基础。

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个个单独的词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果,对于不规则的行业信息数据,使用分词技术能够提取出数据中的关键信息,便于计算机进一步处理。

目前中文分词算法可以分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法,按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。

停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词),在文本处理过程中如果遇到它们,则立即停止处理,将其扔掉;将这些词扔掉减少了索引量,增加了检索效率,并且通常都会提高检索的效果,停用词主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等。

Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高,给定两个集合A、B,Jaccard系数定义为A与B交集的大小与A与B并集的大小的比值,定义如下:

当集合A,B都为空时,J(A,B)定义为1。

与Jaccard系数相关的指标叫做Jaccard距离,用于描述集合之间的不相似度。Jaccard距离越大,样本相似度越低,公式定义如下:

其中对参差(symmetric difference)的定义为AΔB=|A∪B|-|A∩B|

Jaccard相似系数常用于比较文本相似度,进行文本查重与去重;计算对象间距离,用于数据聚类等。

针对相关技术中的问题,目前尚未提出有效的解决方案。

发明内容

针对相关技术中的上述技术问题,本发明提出一种数据清洗方法及系统,能够将不规则的企业行业数据清洗为《国家经济行业分类》国家标准中的对应数据的,增加了行业数据易用性。

为实现上述技术目的,本发明的技术方案是这样实现的:

一种数据清洗方法,包括以下步骤:

获取不规则的行业数据;

利用CRF算法模型将所述行业数据进行分词;

计算不同所述分词之间的Jaccard距离,根据计算后的分词对应标准行业数据。

进一步地,所述步骤2中利用CRF算法模型将所述行业数据进行分词包括:

将所述行业数据进行CRF训练;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航天云路有限公司,未经北京航天云路有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811636284.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top