[发明专利]一种基于文本分类的小样本数据描述规范化预处理方法有效

申请号：	201911072954.2	申请日：	2019-11-05
公开（公告）号：	CN110826326B	公开（公告）日：	2022-09-30
发明（设计）人：	肖楚琬;唐小峰;刘嘉;崔世麒;刘松福;苏析超;王鑫	申请（专利权）人：	中国人民解放军海军航空大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/295;G06F16/35;G06K9/62
代理公司：	北京永创新实专利事务所 11121	代理人：	冀学军
地址：	264001 山东省***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文本分类样本数据描述规范化预处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于文本分类的小样本数据描述规范化预处理方法，属于数据预处理领域。首先构建标准实体数据表，包括每类实体由具有相关性的m列组成；针对某个待处理的目标数据表，将描述同一个实体概念的列进行组合，构成若干类实体。然后将目标数据表与标准实体数据表中的各列根据属性建立映射关联。依次选择完成映射的某类实体的各个属性列构造成子表T'，将其中各实体案例分别构成目标描述O'，计算各实体案例与标准数据表中对应的每类实体之间的相似度。选择相似度≤1，且非完全一致的各个实体案例标识为非规范描述项，并划分等级；遍历目标数据表中所有实体类，将所有非规范描述按等级给出修改建议。本发明提高了文本相似性匹配的准确性和效率。

技术领域

本发明属于数据预处理领域，具体是一种基于文本分类的小样本数据描述规范化预处理方法。

背景技术

鉴于某些专业领域的保密要求，需要在独立、封闭的条件下进行文本统计分析。但是，所需数据大多采用手工输入，经常存在数据源描述不规范、漏输或错输等现象，且存在格式混用和一致性差等问题，致使文本处理、统计分析困难，准确度低。

目前文本数据预处理的方法主要有数据清理、数据集成、数据变换以及数据规约等。虽然在处理文本非标准描述可以取得较好的效果，但前提必须要有大量样本支撑。

因此，有必要提供一种创新且富有进步性的文本数据预处理方法，解决小样本条件下数据规范化问题，进而为专业领域的数据统计分析奠定基础。

发明内容

本发明针对小样本条件下的数据规范化问题，提出了一种基于文本分类的小样本数据描述规范化预处理方法；

具体步骤如下：

步骤一、构建标准实体数据表，标准实体数据表中包括若干类实体，每类实体由具有较强相关性的m列组成；

每类实体表示为：

O＝{c₁,c₂,...c_j,...c_m}