[发明专利]一种应用识别方法、装置、服务器及存储介质在审
申请号: | 201811525854.6 | 申请日: | 2018-12-13 |
公开(公告)号: | CN109582841A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 万月亮;余晨阳;火一莽 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F16/95 | 分类号: | G06F16/95;H04L29/08 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动识别 应用数据 存储介质 应用识别 服务器 应用识别效率 输出识别 | ||
本发明实施例提供了一种应用识别方法、装置、服务器及存储介质,该方法包括:获取待识别的HTTP数据;将所述待识别的HTTP数据输入至自动识别模型,所述自动识别模型基于已识别到的HTTP数据的应用数据类型和对应的字段名生成;通过所述自动识别模型对所述待识别的HTTP数据进行识别并输出识别结果,所述识别结果包括所述待识别的HTTP数据的应用数据类型和对应的字段名。通过采用上述技术方案,实现了自动识别HTTP数据的应用数据类型,提高应用识别效率。
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种应用识别方法、装置、服务器及存储介质。
背景技术
在网络应用日益膨胀的互联网时代,HTTP协议提供了一系列的技术和机器,可用来跟踪用户身份、进行安全性检测、控制访问内容等,HTTP协议凭借自身的诸多优点,应用于大部分的网络应用中。但随着网络应用的发展,出现了越来越多的应用类型,如搜索点播视频、查询音频文件和图片等,不同的应用类型体现在会话连接或者HTTP数据流上的字段各不相同。如何正确识别HTTP数据的应用类型,以提供相应的服务和数据监测,是当前面临的重要挑战。
现有的应用识别算法只能识别固定的应用数据类型,对于多样的、复杂的数据只能通过人工的方式,根据HTTP数据中的字段进行分类和处理,难以对海量的网络应用进行准确地识别,效率低下。
发明内容
本发明提供了一种应用识别方法、装置、服务器及存储介质,以实现自动识别HTTP数据的应用数据类型,提高应用识别效率。
第一方面,本发明实施例提供了一种应用识别方法,包括:
获取待识别的HTTP数据;
将所述待识别的HTTP数据输入至自动识别模型,所述自动识别模型基于已识别到的HTTP数据的应用数据类型和对应的字段名生成;
通过所述自动识别模型对所述待识别的HTTP数据进行识别并输出识别结果,所述识别结果包括所述待识别的HTTP数据的应用数据类型和对应的字段名。
进一步的,在获取待识别的HTTP数据之前,还包括:
将已识别到的HTTP数据的应用数据类型和对应的字段名作为原始数据样本,所述原始数据样本包括训练样本;
建立所述训练样本的数据类型和对应的字段名的关联关系;
依据所述关联关系生成自动识别模型。
进一步的,在获取待识别的HTTP数据之前,还包括:
将除训练样本以外的原始数据样本作为测试样本;
将所述测试样本输入至自动识别模型;
通过所述自动识别模型对所述测试样本进行识别并输出识别结果;
若识别结果的精度和/或召回率低于预设阈值,则调整自动识别模型中的参数,直到对测试样本的识别结果的精度和召回率达到预设阈值。
进一步的,所述通过所述自动识别模型对所述待识别的HTTP数据进行识别并输出识别结果,包括:
将所述待识别的HTTP数据拆分为key-value形式的键值对;
将所述key-value形式的键值对输入至所述自动识别模型;
通过所述自动识别模型分别根据key和value判断所述待识别的HTTP数据属于各应用数据类型和对应的字段名的概率;
将根据key和value判断得到的概率加权,并将加权后概率值最大的应用数据类型和对应的字段名作为对所述待识别的HTTP数据的识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811525854.6/2.html,转载请声明来源钻瓜专利网。