[发明专利]一种数据清洗方法及系统在审

申请号：	201811636284.8	申请日：	2018-12-29
公开（公告）号：	CN109783813A	公开（公告）日：	2019-05-21
发明（设计）人：	徐汕;张晶亮;黄文锋;姜桥;单酉;杨端;卫未	申请（专利权）人：	北京航天云路有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F16/215
代理公司：	北京纽乐康知识产权代理事务所(普通合伙) 11210	代理人：	白明珠
地址：	100039 北京市海淀区西***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	行业数据分词不规则数据清洗标准化处理标准行业算法模型易用性清洗
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种数据清洗方法及系统，包括以下步骤：获取不规则的行业数据；利用CRF算法模型将所述行业数据进行分词；计算不同所述分词之间的Jaccard距离，根据计算后的分词对应标准行业数据。本发明有益效果：通过分词结合计算Jaccard距离的方法将不规则的行业数据进行标准化处理，将不规则的企业行业数据清洗为国家标准中的对应数据的，增加了行业数据易用性。

技术领域

本发明涉及数据通信技术领域，具体来说，涉及一种数据清洗方法及系统。

背景技术

企业所属的行业信息是企业本身的重要属性，但是由于自然语言的特点，由于对同一行业有不同的描述方法，比如对于制造业，可以描述为“制造行业”、也可以描述为“加工制造业”等，这就为数据使用带来了困难，将不规则的行业数据规则化，是深入挖掘数据价值的基础。

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个个单独的词，分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果，对于不规则的行业信息数据，使用分词技术能够提取出数据中的关键信息，便于计算机进一步处理。

目前中文分词算法可以分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法，按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words(停用词)，在文本处理过程中如果遇到它们，则立即停止处理，将其扔掉；将这些词扔掉减少了索引量，增加了检索效率，并且通常都会提高检索的效果，停用词主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等。

Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大，样本相似度越高，给定两个集合A、B，Jaccard系数定义为A与B交集的大小与A与B并集的大小的比值，定义如下：

当集合A，B都为空时，J(A，B)定义为1。

与Jaccard系数相关的指标叫做Jaccard距离，用于描述集合之间的不相似度。Jaccard距离越大，样本相似度越低，公式定义如下：

其中对参差(symmetric difference)的定义为AΔB＝|A∪B|-|A∩B|

Jaccard相似系数常用于比较文本相似度，进行文本查重与去重；计算对象间距离，用于数据聚类等。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的上述技术问题，本发明提出一种数据清洗方法及系统，能够将不规则的企业行业数据清洗为《国家经济行业分类》国家标准中的对应数据的，增加了行业数据易用性。

为实现上述技术目的，本发明的技术方案是这样实现的：

一种数据清洗方法，包括以下步骤：

获取不规则的行业数据；

利用CRF算法模型将所述行业数据进行分词；