[发明专利]一种包含文本型数据类型的异常数据检测方法在审

申请号：	202011037634.6	申请日：	2020-09-28
公开（公告）号：	CN112131388A	公开（公告）日：	2020-12-25
发明（设计）人：	范馨月;魏斐斐;杜逆索;沈齐	申请（专利权）人：	范馨月
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/33;G06N3/04;G06N3/08;G06N7/00
代理公司：	北京联创佳为专利事务所(普通合伙) 11362	代理人：	孙帅平
地址：	550025 ***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种包含文本数据类型异常数据检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种包含文本型数据类型的异常数据检测方法。包括下述步骤：S1.判断读取到的数据的数据类型是纯数值型数据、纯文本型数据还是数值文本结合型数据；S2.对于纯数值型数据，基于深度学习与机器学习算法进行数据异常检测，输出异常检测结果；对于纯文本型数据或数值文本结合型数据，将数据中的文本值替换为数值，之后基于深度学习与机器学习算法进行数据异常检测，输出异常检测结果。本发明能够对文本型数据或数值与文本混合型数据进行异常检测，在保证数值型数据较好检测正确率的情况下，也对文本型数据进行了异常检测，实现多类型数据的异常检测，检测精度更高，使得被检测数据类型更加丰富，对数据质量有更好的保证。

技术领域

本发明涉及数据处理技术领域，特别是一种包含文本型数据类型的异常数据检测方法。

背景技术

异常数据，是指在给定的数据集中检测出与众不同的数据。在不同的领域，这些与众不同的数据也可以叫做噪声、孤立点等。这些孤立点与其余的点相比，有着显著的区别，这种区别让人们怀疑这并不是存在偏差，而是由不同的机制产生。随着大数据时代的到来，数据规模与维度呈爆炸式增长，并且数据的类型不仅仅只是数值型数据。为了更好的保证数据质量，怎么对数据的异常值进行有效检测成为数据分析与处理的首要任务。在现存数据异常检测算法中，大量存在的是对数值型数据的异常检测，机器学习、深度学习中已经出现了很多算法，如I-Forest、VAE等模型；但纯文本型数据或数值与文本结合数据的异常检测，在现有的研究中涉及得较少，其异常检测方法还有待突破。

发明内容

本发明的目的在于提供一种包含文本型数据类型的异常数据检测方法。本发明能够对文本型数据或数值与文本混合型数据进行异常检测，在保证数值型数据较好检测正确率的情况下，也对文本型数据进行了异常检测，实现多类型数据的异常检测，在一定的检测精度下，使得被检测数据类型更加丰富，对数据质量有更好的保证。

本发明的技术方案：一种包含文本型数据类型的异常数据检测方法，包括下述步骤：

S1.判断读取到的数据的数据类型是纯数值型数据、纯文本型数据还是数值文本结合型数据；

S2.对于纯数值型数据，基于深度学习与机器学习算法进行数据异常检测，输出异常检测结果；对于纯文本型数据或数值文本结合型数据，将数据中的文本值替换为数值，之后基于深度学习与机器学习算法进行数据异常检测，输出异常检测结果。

前述的异常数据的检测方法所述的步骤S1中，对所述读取到的数据的数据类型的判断方法如下：

将每个数据中的数字全部替换为数字a；

将每个数据中的中文全部替换为数字b；

将每个数据中的字母全部替换为数字c；

将其他字符全部替换为数字d；

将所有的数据列表连接，运用Python的字典去重，得到每一列含有的数据类型。

前述的异常数据的检测方法所述的步骤S2中，对于纯数值型数据的异常检测方法如下：