[发明专利]一种DPI数据分类方法及系统在审

申请号：	201910724880.X	申请日：	2019-08-07
公开（公告）号：	CN110427489A	公开（公告）日：	2019-11-08
发明（设计）人：	王峰;高兆庆;戴吉秋;林志生;路国平	申请（专利权）人：	北京智数时空科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/955;G06K9/62;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	100029 北京市西***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据分类标注数据预处理模块协同数据分类系统分类结果分类模型人工标注数据实现特征表示特征向量向量生成训练模块语义特征预测模块
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种DPI数据分类方法及系统。本发明提供的DPI数据分类方法包含N‑gram特征向量生成，语义特征向量生成和基于不同特征表示的协同训练。本发明提出的DPI数据分类系统，包含数据预处理模块、分类模型协同训练模块以及分类结果预测模块。本发明提供的DPI数据分类方法及系统，可以在仅有少量标注数据的条件下，借助大量未标注数据实现DPI数据分类，降低人工标注成本的同时，提高DPI数据分类效果。

技术领域

本发明涉及数据挖掘领域，特别是指一种DPI数据分类方法及系统。。

背景技术

随着大数据的蓬勃发展，针对获得的海量DPI数据，各大电信运营商的大数据研发团队对此进行了不同程度的深入挖掘研究，其中涉及的关键技术有URL分类和文本分类。

对于海量的DPI数据分类，单独使用URL分类或文本分类，都存在较为明显的缺陷。鉴于此，最新的DPI数据分类选择基于URL分类算法和文本分类算法相结合的DPI数据分类方法，实现对超大规模的用户上网记录实时、高效、准确地分类。

DPI数据分类的传统方法是根据URL中的不同字段设计不同的逻辑进行分类。这一类方法分类过程中分析工作繁琐，分析主要依赖人工，自动化程度低。

最新的一种典型借助机器学习技术进行DPI数据分类方法流程中，先基于URL分类器对DPI数据进行分类，若URL分类器对待分类的DPI数据中的URL分类成功，则直接返回分类结果；若分类失败，则提取该DPI数据中的URL对应的网页正文，然后用文本分类器对其进行分类。这一类方法，对文本分类的过程中，为保证模型分类效果，需要大量的标注样本，人工标注成本巨大。而且，分类过程中需要爬取DPI数据所对应的网页内容，也会影响效率，增加成本。。

发明内容

本发明的目的在于解决在现有的DPI分类技术中对人工标注数据和人工设计逻辑的需求造成的人工成本较大，提供一种保证分类效果的同时，减少对标注数据的需求，降低人工成本的DPI数据分类方法及系统。其中，包括一下步骤：

第一步S1，根据DPI数据中的URL，生成URL的字符串N-gram特征向量；

第二步S2，基于预先训练的词向量，根据DPI数据URL中出现的关键词，生成URL语义特征向量；

第三步S3，根据字符串N-gram特征向量和语义特征向量，协同训练DPI数据分类模型，直至训练充分；

第四步S4，基于协同训练的结果，训练最终DPI数据分类模型，使用最终模型对新输入的DPI数据进行分类。

第一步S1进一步包括以下步骤：

S1a：基于统计URL中不同长度的N-gram个数，生成初始N-gram向量。

S1b：对初始向量进行修正，修正的方式包含但不限于通过对初始向量的线性归一化、每个N-gram在DPI数据中的IDF值或位置权重。

S1c：通过特征选择方法进行特征选择，得到最终的N-gram特征向量。

第一步S1a中所述的 N-gram的长度范围根据经验进行预设。

第二步S2进一步包括以下步骤：