[发明专利]一种文本数据的清洗方法、系统及可读存储介质在审
申请号: | 201910440449.2 | 申请日: | 2019-05-24 |
公开(公告)号: | CN110222176A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 魏树桂;左赛;陈兵;闫振河;赵楠 | 申请(专利权)人: | 苏宁易购集团股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06Q30/06;G06F17/27 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 许峰 |
地址: | 210042 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练模型 迭代 可读存储介质 标题数据 文本数据 样本数据 过滤 清洗 准确度 人工参与 输出 覆盖度 构建 工作量 筛选 修正 更新 | ||
本发明公开了一种文本数据的清洗方法、系统及可读存储介质。本发明通过对筛选出的一部分商品标题数据的处理构建白名单,而后根据白名单的规则对全部商品标题数据进行过滤进而产生用于修正白名单中疑难数据的黑名单并更新白名单,如此对黑名单和白名单进行迭代以致最终获得符合要求的训练模型样本数据,输出该数据。本发明通过多次对白名单和黑名单的迭代,能够使得用于过滤的窗口规则更佳准确,使得输出的训练模型数据的覆盖度和准确度约达到95%,远高于现有技术。本发明的迭代方法,其能够减少获取训练模型样本数据过程中人工参与的工作量,因而速度更快。
技术领域
本发明涉及数据处理,具体而言涉及一种文本数据的清洗方法、系统及可读存储介质。
背景技术
电商系统中需要对商品标题进行大数据分类检测。其需要通过自然语言处理的方式,从商品标题中按照一定的规则提取相应信息,根据该信息对商品标题进行分类判断,将其归属于相应的类别。在该商品分类检测前期,需要根据训练模型样本数据获得分类检测所需的提取规则。
但是,目前在电商大数据的商品分类检测领域,该提取规则所基于的分类训练模型数据,一般需要采用人工逐条标注的方式进行清洗而获得。其处理效率不高。以常规的人工逐条标注的方式进行数据清洗,对于有1万+个类目下数据总量1亿+的商品标题数据,清洗起来几乎不可能完成,而且无法持续进行查错与补齐,训练模型样本数据覆盖度和准确度也只能做到70%。
而与此同时,在电商大数据的商品分类领域,需要进行上述预处理的样本训练数据的数量又极大(约有1亿条)。人工逐条标注效率不高。如果采用抽样的方式进行人工标注则会严重影响训练模型样本数据的准确性。训练模型样本数据的质量是影响商品分类准确性最重要的因素之一。现有做法不管是从保证数据的准确性,还是从保证数据的广度上均不能满足要求。
发明内容
本发明针对现有技术的不足,提供一种文本数据的清洗方法、系统及可读存储介质,用于对商品标题数据进行清洗预处理,以获得商品分类检测前期所基于的训练模型样本数据。
本发明具体采用如下技术方案:
第一方面,本发明实施例采用一种文本数据的清洗方法,用于处理商品标题数据,步骤包括:
处理商品标题数据中的一部分数据以构建白名单;
对全部商品标题数据进行过滤;
根据过滤所得的数据,更新所述白名单和/或创建黑名单;
根据所述白名单和/或黑名单重复上述过滤的步骤并进一步更新所述白名单或创建黑名单,直至过滤后获得符合要求的训练模型样本数据,输出该数据。
结合第一方面,作为第一种可实施的技术方案,构建所述白名单时,处理的所述商品标题数据由以下步骤获得:
筛选商品标题数据大于N条的类目;
从筛选出的每一个类目中分别随机抽样出n条商品标题数据,其中n<N。
结合第一方面,作为第二种可实施的技术方案,处理所述商品标题数据的步骤包括:
对所述商品标题数据进行离散化处理,以获得该商品标题数据的至少一个关键词;
建立所述关键词与该商品标题数据所属类目的对应关系,构建所述白名单。
结合第一方面的第二种可实施的技术方案,作为第三种可实施的技术方案,所述处理所述商品标题数据的步骤还包括:
建立所述关键词与该商品标题数据所属类目的对应关系之后,人工对该对应关系进行校对和调整,形成过滤窗口,根据该过滤窗口构建所述白名单。
结合第一方面的第三种可实施的技术方案,作为第四种可实施的技术方案,所述人工对所述对应关系进行的调整包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁易购集团股份有限公司,未经苏宁易购集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910440449.2/2.html,转载请声明来源钻瓜专利网。