[发明专利]一种数据清洗方法及系统在审
申请号: | 201811636284.8 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109783813A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 徐汕;张晶亮;黄文锋;姜桥;单酉;杨端;卫未 | 申请(专利权)人: | 北京航天云路有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/215 |
代理公司: | 北京纽乐康知识产权代理事务所(普通合伙) 11210 | 代理人: | 白明珠 |
地址: | 100039 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 行业数据 分词 不规则 数据清洗 标准化处理 标准行业 算法模型 易用性 清洗 | ||
本发明公开了一种数据清洗方法及系统,包括以下步骤:获取不规则的行业数据;利用CRF算法模型将所述行业数据进行分词;计算不同所述分词之间的Jaccard距离,根据计算后的分词对应标准行业数据。本发明有益效果:通过分词结合计算Jaccard距离的方法将不规则的行业数据进行标准化处理,将不规则的企业行业数据清洗为国家标准中的对应数据的,增加了行业数据易用性。
技术领域
本发明涉及数据通信技术领域,具体来说,涉及一种数据清洗方法及系统。
背景技术
企业所属的行业信息是企业本身的重要属性,但是由于自然语言的特点,由于对同一行业有不同的描述方法,比如对于制造业,可以描述为“制造行业”、也可以描述为“加工制造业”等,这就为数据使用带来了困难,将不规则的行业数据规则化,是深入挖掘数据价值的基础。
中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个个单独的词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果,对于不规则的行业信息数据,使用分词技术能够提取出数据中的关键信息,便于计算机进一步处理。
目前中文分词算法可以分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法,按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词),在文本处理过程中如果遇到它们,则立即停止处理,将其扔掉;将这些词扔掉减少了索引量,增加了检索效率,并且通常都会提高检索的效果,停用词主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等。
Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高,给定两个集合A、B,Jaccard系数定义为A与B交集的大小与A与B并集的大小的比值,定义如下:
当集合A,B都为空时,J(A,B)定义为1。
与Jaccard系数相关的指标叫做Jaccard距离,用于描述集合之间的不相似度。Jaccard距离越大,样本相似度越低,公式定义如下:
其中对参差(symmetric difference)的定义为AΔB=|A∪B|-|A∩B|
Jaccard相似系数常用于比较文本相似度,进行文本查重与去重;计算对象间距离,用于数据聚类等。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种数据清洗方法及系统,能够将不规则的企业行业数据清洗为《国家经济行业分类》国家标准中的对应数据的,增加了行业数据易用性。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种数据清洗方法,包括以下步骤:
获取不规则的行业数据;
利用CRF算法模型将所述行业数据进行分词;
计算不同所述分词之间的Jaccard距离,根据计算后的分词对应标准行业数据。
进一步地,所述步骤2中利用CRF算法模型将所述行业数据进行分词包括:
将所述行业数据进行CRF训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航天云路有限公司,未经北京航天云路有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811636284.8/2.html,转载请声明来源钻瓜专利网。