[发明专利]一种DPI数据分类方法及系统在审
申请号: | 201910724880.X | 申请日: | 2019-08-07 |
公开(公告)号: | CN110427489A | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 王峰;高兆庆;戴吉秋;林志生;路国平 | 申请(专利权)人: | 北京智数时空科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/955;G06K9/62;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100029 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据分类 标注 数据预处理模块 协同 数据分类系统 分类结果 分类模型 人工标注 数据实现 特征表示 特征向量 向量生成 训练模块 语义特征 预测模块 | ||
1.一种DPI数据分类方法,其特征在于,包括:
S1、根据DPI数据中的URL,生成URL的字符串N-gram特征向量;
S2、基于
S3、根据字符串N-gram特征向量和语义特征向量,协同训练DPI数据分类模型,直至训练充分;
S4、基于协同训练的结果,训练最终DPI数据分类模型,使用最终模型对新输入的DPI数据进行分类。
2.根据权利要求1所述的一种DPI数据分类方法,其特征在于:S1包括,
S1a、基于统计URL中不同长度的N-gram个数,生成初始N-gram向量;
S1b、对初始向量进行修正,修正的方式包含通过对初始向量的线性归一化、每个N-gram在DPI数据中的IDF值或位置权重;
S1c、通过特征选择方法进行特征选择,得到最终的N-gram特征向量。
3.根据权利要求2所述的一种DPI数据分类方法,其特征在于:所述的 N-gram的长度范围根据经验进行预设。
4.根据权利要求1所述的一种DPI数据分类方法,其特征在于:S2包括,
S2a、通过语料库,训练得到预先训练词向量;
S2b、从URL中抽取每个URL中包含于预先训练词向量中的特征词;
S2c、基于特征词的词向量,获得URL语义特征向量。
5.根据权利要求1所述的一种DPI数据分类方法,其特征在于:S3包括,
S3a、 基于不同特征表示的,分别利用标注的样本集分别生成两类特征并各自训练分类器;
S3b、对无标记的数据进行标记预测,并选出置信度较高的样例添加至对方分类器的标记训练集中;
S3c、不断重复这个过程,直至所有的无标记数据都被标记或分类模型被充分训练后停止迭代。
6.根据权利要求1所述的一种DPI数据分类方法,其特征在于:S4包括,
S4a、使用扩充的标注数据和两个分类模型,训练最终分类模型;
S4b、使用最终模型对输入的DPI数据进行分类。
7.一种DPI数据分类系统,其特征在于,包括:
数据预处理单元,用于对DPI数据进行预处理,清洗无效的DPI数据;数据标注单元,用于对训练DPI数据中的少量数据进行标注; URL特征生成单元,用于构建URL字符串N-gram特征和URL语义特征;
协同训练单元,用于基于少量标注的DPI数据和大量未标注的DPI数据,使用URL字符串N-gram特征和URL语义特征生成2个模型进行协同训练,并扩充标注数据集;
DPI数据分类模型训练单元,用于使用协同训练生成的2个模型和扩充的数据集,训练最终DPI数据分类模型;
DPI数据分类单元,用于使用训练完毕的DPI数据分类模型,对新输入的DPI数据进行分类。
8.根据权利要求7所述的一种DPI数据分类系统,其特征在于,所述数据预处理单元包含字段缺失数据或不能体现用户行为的css, js, gif链接。
9.根据权利要求7所述的一种DPI数据分类系统,其特征在于,所述标注的方式为采集典型网站的URL或人工标注。
10.根据权利要求7所述的一种DPI数据分类系统,其特征在于,所述的URL字符串N-gram特征为URL中多个连续字符的出现、次数及其位置中体现出的特征,所述URL语义特征为URL中出现的词通过词向量所体现出的语义特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智数时空科技有限公司,未经北京智数时空科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910724880.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:文档的处理方法及装置
- 下一篇:一种基于自注意力机制的情感对话生成方法与装置