[发明专利]一种DPI数据分类方法及系统在审
申请号: | 201910724880.X | 申请日: | 2019-08-07 |
公开(公告)号: | CN110427489A | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 王峰;高兆庆;戴吉秋;林志生;路国平 | 申请(专利权)人: | 北京智数时空科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/955;G06K9/62;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100029 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据分类 标注 数据预处理模块 协同 数据分类系统 分类结果 分类模型 人工标注 数据实现 特征表示 特征向量 向量生成 训练模块 语义特征 预测模块 | ||
本发明提供了一种DPI数据分类方法及系统。本发明提供的DPI数据分类方法包含N‑gram特征向量生成,语义特征向量生成和基于不同特征表示的协同训练。本发明提出的DPI数据分类系统,包含数据预处理模块、分类模型协同训练模块以及分类结果预测模块。本发明提供的DPI数据分类方法及系统,可以在仅有少量标注数据的条件下,借助大量未标注数据实现DPI数据分类,降低人工标注成本的同时,提高DPI数据分类效果。
技术领域
本发明涉及数据挖掘领域,特别是指一种DPI数据分类方法及系统。。
背景技术
随着大数据的蓬勃发展,针对获得的海量DPI数据,各大电信运营商的大数据研发团队对此进行了不同程度的深入挖掘研究,其中涉及的关键技术有URL分类和文本分类。
对于海量的DPI数据分类,单独使用URL分类或文本分类,都存在较为明显的缺陷。鉴于此,最新的DPI数据分类选择基于URL分类算法和文本分类算法相结合的DPI数据分类方法,实现对超大规模的用户上网记录实时、高效、准确地分类。
DPI数据分类的传统方法是根据URL中的不同字段设计不同的逻辑进行分类。这一类方法分类过程中分析工作繁琐,分析主要依赖人工,自动化程度低。
最新的一种典型借助机器学习技术进行DPI数据分类方法流程中,先基于URL分类器对DPI数据进行分类,若URL分类器对待分类的DPI数据中的URL分类成功,则直接返回分类结果;若分类失败,则提取该DPI数据中的URL对应的网页正文,然后用文本分类器对其进行分类。这一类方法,对文本分类的过程中,为保证模型分类效果,需要大量的标注样本,人工标注成本巨大。而且,分类过程中需要爬取DPI数据所对应的网页内容,也会影响效率,增加成本。。
发明内容
本发明的目的在于解决在现有的DPI分类技术中对人工标注数据和人工设计逻辑的需求造成的人工成本较大,提供一种保证分类效果的同时,减少对标注数据的需求,降低人工成本的DPI数据分类方法及系统。其中,包括一下步骤:
第一步S1,根据DPI数据中的URL,生成URL的字符串N-gram特征向量;
第二步S2,基于
第三步S3,根据字符串N-gram特征向量和语义特征向量,协同训练DPI数据分类模型,直至训练充分;
第四步S4,基于协同训练的结果,训练最终DPI数据分类模型,使用最终模型对新输入的DPI数据进行分类。
第一步S1进一步包括以下步骤:
S1a:基于统计URL中不同长度的N-gram个数,生成初始N-gram向量。
S1b:对初始向量进行修正,修正的方式包含但不限于通过对初始向量的线性归一化、每个N-gram在DPI数据中的IDF值或位置权重。
S1c:通过特征选择方法进行特征选择,得到最终的N-gram特征向量。
第一步S1a中所述的 N-gram的长度范围根据经验进行预设。
第二步S2进一步包括以下步骤:
S2a:通过语料库,训练得到预先训练词向量;
S2b:从URL中抽取每个URL中包含于预先训练词向量中的特征词;
S2c:基于特征词的词向量,获得URL语义特征向量。
第三步S3进一步包括以下步骤:
S3a:基于不同特征表示的,分别利用标注的样本集分别生成两类特征并各自训练分类器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智数时空科技有限公司,未经北京智数时空科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910724880.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文档的处理方法及装置
- 下一篇:一种基于自注意力机制的情感对话生成方法与装置