[发明专利]一种智能化的应用流量识别特征自动挖掘方法与系统有效

专利信息
申请号: 201810803379.8 申请日: 2018-07-20
公开(公告)号: CN108897739B 公开(公告)日: 2020-06-26
发明(设计)人: 陶敬;王平辉;曹宇;潜禹桥;柳哲;孙立远;林杰 申请(专利权)人: 西安交通大学
主分类号: G06F40/30 分类号: G06F40/30;G06F40/284
代理公司: 西安智大知识产权代理事务所 61215 代理人: 段俊涛
地址: 710049 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 智能化 应用 流量 识别 特征 自动 挖掘 方法 系统
【说明书】:

发明提供一种智能化的应用流量识别特征自动挖掘方法与系统,通过对应用流量内容以及该应用描述的文本分析,结合Attention和Word2Vector模型,组成对应用流量识别特征的自动提取方法。包括对应用流量语义处理模块、对应用描述语义处理以及特征筛选三个模块;以应用流量作为输入,抽取出可打印地候选特征集,并以Word2Vector模型学习其对应的向量表示;对应用软件安装包作为输入,对其进行分析获取应用具体名称,并在搜索引擎中找到其相关的描述文本。通过Attention模型,学习描述文本中的关键词,以Word2Vector模型,学习其向量表示;计算候选特征向量表示与应用描述关键词向量表示之间的余弦相似度,根据相似度阈值筛选出流量特征。本发明可用于对应用流量识别特征的挖掘。

技术领域

本发明属于流量识别特征挖掘技术领域,使用的主要方法是自然语言处理中的Word2Vector模型方法、Attention机制以及语义相似度计算方法,特别涉及一种智能化的应用流量识别特征自动挖掘方法与系统。

背景技术

近年来,移动设备在人们的工作和生活中变得越来越受欢迎,根据中国互联网络信息中心(CNNIC)发布的第四十次《中国互联网络发展状况统计报告》显示,截至2017年6月,中国网民规模达到7.51亿,占全球网民总数的五分之一。其中,手机网民规模达7.24亿,较2016年底增加2830万人。网民中使用手机上网的比例由2016年底的95.1%提升至96.3%。同时,人们对于各类互联网设备的依赖性也越来越严重。平均,每人每天花费在电子设备上的时间超过3小时,而花费各类软件应用上的时间就超过了两个小时。而对于应用软件的使用情况进行分析,发现特定用户对于某些特定类型的应用,使用频繁。而这些应用的类型,在某种程度上,反映了该用户的偏好属性,进而也会反映出该用户的某些个人属性。例如,经常使用金融证券类的用户,明显对于投资、金融等相关资讯感兴趣,则该用户可能就是证券经理、个人或企业投资者。那么,基于上述的可能性,如果能对可靠地用户App使用行为进行分析画像,就能得到具有较高可信度的用户描述。

但是,应用软件种类数目繁多。目前,仅用户常用的智能手机App数量,就超过了10万个,整体移动端App数量超过三百万。PC端应用软件数量,也在十万左右。同时,用户的软件使用行为属于用户隐私,常规方法是无法获取可靠的用户软件使用行为数据的。

不过,我们可以通过某种方式,获取到网络管道中传输的用户流量。比如,移动数据供应商而言,在各级交换机上进行流量监听,便可获取到各级用户群组的流量数据。如果,能从用户的网络设备流量中,识别出用户所使用的应用软件,则对于获取可靠的用户软件使用行为就成为了可能。进一步地也就可以对用户进行精准画像,获取详细的用户属性描述了。

业界也发现了这种潜在的价值,也进行了相关的技术尝试和科学研究。目前,对流量进行特征提取的方法主要有:

1.基于预定义或特殊端口的流量特征提取:根据通用的网络协议端口来提取识别网络流量,或根据预定义的特殊端口,提取识别网络流量

2.基于DPI的流量特征提取方法:根据确定经验和规则,从流量内容中提取符合指定条件的特征字/指纹/序列,作为流量特征

3.基于深度学习模型的流量特征提取方法:将流量内容按照一定的映射关系,转化为深度学习模型的标准输入,根据深度学习模型,自动提取流量特征

应用流量存在如下特点:

1.应用软件所使用的网络协议大都是几种常用的类型,如:HTTP、SSL、HTTPS等。因此,从网络流量的协议类型层面,是无法获取到细粒度的流量识别结果的。端口号跟流量所使用的协议类型有关,因此,识别流量协议端口号,是不能获取细粒度识别结果的;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810803379.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top