[发明专利]一种智能化的应用流量识别特征自动挖掘方法与系统有效
申请号: | 201810803379.8 | 申请日: | 2018-07-20 |
公开(公告)号: | CN108897739B | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 陶敬;王平辉;曹宇;潜禹桥;柳哲;孙立远;林杰 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能化 应用 流量 识别 特征 自动 挖掘 方法 系统 | ||
1.一种智能化的应用流量识别特征自动挖掘方法,其特征在于,包括:
S1对应用流量进行DPI方式的解析,获取数据报文内容;根据数据报文内容,进行字符串分割,分割的依据为字节码是否为可打印的ASCII码值,抽取出可打印部分;对分割后的可打印字符串进行长度判断,根据指定的特征长度阈值,将满足长度条件的可打印部分,作为候选特征,生成候选特征集;将抽取出的应用流量DPI候选特征内容,作为一种语言,使用预先训练好的Word2Vector模型,逐一对候选特征进行语义学习,获取其语义向量表示;
S2对应用描述文本使用Attention模型,提取对描述进行概括的关键部分,并使用与S1相同的Word2Vector模型,学习描述文本的语义向量表示,方法如下:
将获取到的应用描述文本的分词结果,逐一使用预先训练好的Attention模型,学习其每个词的Attention分布概率,选取概率最大的指定数目的词,作为该应用描述文本的词语概括,使用预先训练好的Word2Vector模型,学习出这些词的语义向量表示;
S3使用余弦相似度计算方法,逐一计算候选特征与应用描述关键词之间的语义相似度,根据指定的阈值,筛选得到相似度大于指定阈值的候选特征,作为应用流量的最终识别特征。
2.根据权利要求1所述智能化的应用流量识别特征自动挖掘方法,其特征在于,还包括:根据网上公开的开源中英文语料库,预先对Word2Vector模型进行训练;以及,根据人工标定的训练样本,预先训练好Attention模型。
3.根据权利要求1所述智能化的应用流量识别特征自动挖掘方法,其特征在于,还包括:利用开源工具,对应用软件安装包进行分析,获取应用的名称、开发厂商等基本描述信息,使用网络爬虫方式,在搜索引擎中,搜素爬取该应用所对应的描述网页文本,并使用分词工具对文本进行分词,最终得到的分词内容构成了应用的描述文本,后续使用Attention模型,提取描述中的概括关键部分。
4.一种智能化的应用流量识别特征自动挖掘系统,其特征在于,包括:
流量语言处理模块,对应用流量提取候选特征子集,并学习其语义向量表示;
应用描述语言处理模块,检索应用描述文本,抽取关键词部分,并学习描述文本关键词的语义向量表示;
特征筛选模块,计算候选识别特征与应用描述文本关键词之间的语义相似程度,通过阈值过滤后,筛选出最终的应用流量识别特征;
所述流量语言处理模块由流量数据解析子模块、候选特征集提取子模块和向量表示学习子模块组成,三个子模块组合完成对应用流量提取候选特征并学习语义向量表示的功能,其中:
所述流量数据解析子模块,对应用流量数据包进行DPI解析,获取其负载内容部分;
所述候选特征集提取子模块,对获取到的应用流量负载部分,进行字符串分割,分割的依据为字节码是否为可打印的ASCII码值,同时,对分割后的可打印字符串进行长度判断,保留具备足够长度的字符串作为候选特征集;
所述向量表示学习子模块,使用预先训练好的Word2Vector模型,对候选特征进行逐一学习,获取到每个候选特征的语义向量表示;
所述应用描述语言处理模块由应用安装包分析子模块、描述文本获取子模块、描述关键部分提取子模块和向量表示学习子模块组成,四个子模块组合完成对应用软件描述信息的获取,抽取关键词以及关键词语义向量学习功能,其中:
应用安装包分析子模块,对应用软件安装包进行签名信息获取,得到应用具体名称;
描述文本获取子模块,根据获取到的应用具体名称,使用爬虫技术,检索获取应用软件的官网文本内容;
描述关键部分提取子模块,对网页文本进行分词后,使用预先训练好的Attention模型,对每一个词组进行Attention概率分布计算,将概率最大的若干词组,作为关键词部分;
向量表示学习子模块,将获取到的应用描述文本的分词结果,逐一使用预先训练好的Attention模型,学习其每个词的Attention分布概率,选取概率最大的指定数目的词,作为该应用描述文本的词语概括,使用预先训练好的Word2Vector模型,学习出这些词的语义向量表示;
所述特征筛选模块由相似度计算子模块和特征筛选子模块组成,两个子模块组合完成计算候选识别特征与应用描述文本关键词之间的语义相似程度,并以阈值条件,筛选得到应用流量识别特征,其中:
所述相似度计算子模块,负责逐一计算候选特征语义向量与描述关键词语义向量之间的相似度;
所述特征筛选子模块,负责根据预先设置好的相似度语义,根据指定的阈值,筛选得到相似度大于指定阈值的候选特征,作为应用流量的最终识别特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810803379.8/1.html,转载请声明来源钻瓜专利网。