[发明专利]基于半监督学习的DPI数据中host的自动化挖掘方法及系统在审
申请号: | 201910810823.3 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110532299A | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 王攀;黄琛;王梓炫;李书航 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/215;G06F16/28;G06F16/17;G06F16/951;G06K9/62 |
代理公司: | 32249 南京瑞弘专利商标事务所(普通合伙) | 代理人: | 彭雄<国际申请>=<国际公布>=<进入国 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于半监督学习的DPI数据中host的自动化挖掘方法及系统,采用爬虫的方法与浏览器交互,自动化抓取host对应的含义并提炼后获得标签,提出融合以上自动化标记方法与半监督学习的方法来实现自动化挖掘host标签,同时利用了标记数据和未标记数据,弥补了监督学习与无监督学习的不足,本发明提出在实现爬虫自动化抓取并标记host的方法上,基于半监督学习的SVM‑KNN分类方法,将少量有标记的host数据与大量未标记的host数据做融合训练,对未标记的host数据做分类,最终实现自动化挖掘DPI大数据的host标签。 | ||
搜索关键词: | 自动化 半监督学习 抓取 爬虫 标记数据 标签 挖掘 无监督学习 融合 大数据 浏览器 提炼 分类 监督 学习 | ||
【主权项】:
1.一种基于半监督学习的DPI数据中host的自动化挖掘方法,其特征在于,包括步骤:/n步骤1:少量host标签自动化提取;/n步骤11)提取一小部分HDFS中存储的DPI日志数据中的host字段;/n步骤12)采用爬虫技术,与浏览器做交互,抓取每一个host字段对应的百度搜索记录第一条内容,并存入hive数据库;/n步骤13)对应用名称做提取,并作为该host的标签,构建新的host标签表;/n步骤2:基于半监督分类学习的大量host标签自动化提取/n步骤21)使用步骤1生成的少量标记样本host标签表作为原始训练集,预训练出一个弱分类器SVM 1;/n步骤22)用弱分类器SVM 1标记数据集中所有的未标记数据,挑选出分类边界附近的部分边界向量;/n步骤23)将挑选出的这些边界向量作为测试样本,利用原始训练集,再用KNN分类,获得挑选出的边界向量的新标记;/n步骤24)挑选出的边界向量和KNN分类得出的新标记一并放入原始训练集,从而扩充了训练集的样本数目,再进行训练一个新的分类器SVM 2;/n步骤25)迭代下去,直到训练集的样本数量是全部数据的m倍时,停止计算,得到最终分类器SVM;/n步骤26)用训练出的最终分类器SVM预测数据集中原有的未标记样本的标记值;/n步骤3:构建host标签库/n最终分类器SVM的结果即为未标记数据集的标签,再利用标签构建一个丰富的host标签库。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910810823.3/,转载请声明来源钻瓜专利网。