[发明专利]基于半监督学习的DPI数据中host的自动化挖掘方法及系统在审

申请号：	201910810823.3	申请日：	2019-08-29
公开（公告）号：	CN110532299A	公开（公告）日：	2019-12-03
发明（设计）人：	王攀;黄琛;王梓炫;李书航	申请（专利权）人：	南京邮电大学
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06F16/215;G06F16/28;G06F16/17;G06F16/951;G06K9/62
代理公司：	32249 南京瑞弘专利商标事务所(普通合伙)	代理人：	彭雄<国际申请>=<国际公布>=<进入国
地址：	210000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于半监督学习的DPI数据中host的自动化挖掘方法及系统，采用爬虫的方法与浏览器交互，自动化抓取host对应的含义并提炼后获得标签，提出融合以上自动化标记方法与半监督学习的方法来实现自动化挖掘host标签，同时利用了标记数据和未标记数据,弥补了监督学习与无监督学习的不足,本发明提出在实现爬虫自动化抓取并标记host的方法上，基于半监督学习的SVM‑KNN分类方法，将少量有标记的host数据与大量未标记的host数据做融合训练，对未标记的host数据做分类，最终实现自动化挖掘DPI大数据的host标签。
搜索关键词：	自动化半监督学习抓取爬虫标记数据标签挖掘无监督学习融合大数据浏览器提炼分类监督学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于半监督学习的DPI数据中host的自动化挖掘方法，其特征在于，包括步骤：/n步骤1：少量host标签自动化提取；/n步骤11)提取一小部分HDFS中存储的DPI日志数据中的host字段；/n步骤12)采用爬虫技术，与浏览器做交互，抓取每一个host字段对应的百度搜索记录第一条内容，并存入hive数据库；/n步骤13)对应用名称做提取，并作为该host的标签，构建新的host标签表；/n步骤2：基于半监督分类学习的大量host标签自动化提取/n步骤21)使用步骤1生成的少量标记样本host标签表作为原始训练集,预训练出一个弱分类器SVM 1；/n步骤22)用弱分类器SVM 1标记数据集中所有的未标记数据,挑选出分类边界附近的部分边界向量；/n步骤23)将挑选出的这些边界向量作为测试样本,利用原始训练集,再用KNN分类,获得挑选出的边界向量的新标记；/n步骤24)挑选出的边界向量和KNN分类得出的新标记一并放入原始训练集,从而扩充了训练集的样本数目,再进行训练一个新的分类器SVM 2；/n步骤25)迭代下去,直到训练集的样本数量是全部数据的m倍时,停止计算，得到最终分类器SVM；/n步骤26)用训练出的最终分类器SVM预测数据集中原有的未标记样本的标记值；/n步骤3：构建host标签库/n最终分类器SVM的结果即为未标记数据集的标签，再利用标签构建一个丰富的host标签库。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910810823.3/，转载请声明来源钻瓜专利网。

上一篇：多属性铁路事故致因权重分析方法
下一篇：一种用于人工智能数据分析的大数据高保真可视化方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于半监督学习的DPI数据中host的自动化挖掘方法及系统在审

专利文献下载