[发明专利]一种App数据采集方法及系统有效

专利信息
申请号: 202210942548.2 申请日: 2022-08-08
公开(公告)号: CN115292571B 公开(公告)日: 2023-03-28
发明(设计)人: 李鹏霄;王媛媛;隋明爽;艾政阳;段荣昌;王红兵;时磊;侯炜;任博雅;吕东;王海洋 申请(专利权)人: 烟台中科网络技术研究所;国家计算机网络与信息安全管理中心
主分类号: G06F16/951 分类号: G06F16/951;G06F16/215;G06F8/61;G06F9/445;G06F17/18;G06V10/74;G06V10/764
代理公司: 烟台上禾知识产权代理事务所(普通合伙) 37234 代理人: 苏红红
地址: 264003 山东省烟台*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 app 数据 采集 方法 系统
【说明书】:

本发明公开了一种App数据采集方法及系统,所述方法包括对群控平台中所有应用软件进行遍历采集,得到群控平台应用软件信息;对群控平台应用软件中的内容进行深度优先遍历采集,并将获取的内容进行整合;对整合后的采集内容进行判断清洗,获得最终应用软件通用内容。通过采用改进的深度优先遍历算法完成采集工作,保证了采集数据的全面性,同时提高了采集效率。

技术领域

本发明涉及移动应用技术领域,尤其涉及一种App数据采集方法及系统。

背景技术

当前,移动互联网应用已超越互联网与通信领域范畴,快速向智能电视等新型智能硬件领域延伸,移动应用作为一种重要的互联网信息服务方式,其普及和使用为用户带来了庞大的数据,确保其提供的内容安全至关重要,但目前尚不具备成熟的工具对移动应用的数据进行获取和分析,与此同时,以Android为代表的移动互联网平台正逐步成为恶意应用滋生的重灾区,因此,对移动应用开展内容安全监测及其重要。

开展内容安全监测工作的第一步就是要批量、自动化的获取移动应用的内容信息。由于各个APP应用开发没有统一的标准,后台数据交互方式不一致,难以实现通用的数据获取框架,而定制化开发的时间成本较高,难以快速实现信息安全监测评估。此外,由于移动应用的界面系统和基于HTML(HyperText Markup Language,超文本标记语言)的网页有较大差异,Web界面的自动化爬虫无法简单地在移动应用的视图爬取中使用。另外,移动应用的视图元素缺乏类似URL(Universal Resource Locator,统一资源定位符)的较为稳定的资源定位符,在爬取大量移动应用的试图元素之后,难以像Web爬虫一样通过URL对元素进行稳定的界面重现和相似性判定等工作。

对于上述问题的解决方法有很多,公开号为CN112364227A的中国专利“一种移动APP数据采集方法”,根据APP中的网络请求数据包,获取签名字段,在APP源码搜索签名字段,获取签名字段的签名算法的相关代码及方法,若未获取签名算法的相关代码及方法,则在APP源码搜索网络请求的关键字,获取签名字段的签名算法的相关代码及方法,利用插桩工具验证签名算法的相关代码及方法,并获取分析签名的原始参数,利用签名算法的HOOK插件及原始参数对APP需要签名的数据进行签名,通过爬虫工具利用签名后数据发起网络请求进行数据采集。但本申请发明人在实现中所述发明技术方案的过程中,发现上述技术至少存在如下技术问题:通用性差,采集效率低的技术问题。

发明内容

针对上述技术问题,本发明针提供了一种App数据采集方法及系统。

本发明解决上述技术问题的技术方案如下:

一种App数据采集方法,包括以下步骤:

S1.对群控平台中所有应用软件进行遍历采集,得到群控平台应用软件信息;

S2.对群控平台应用软件中的内容进行深度优先遍历采集,并将获取的内容进行整合;

S3.对整合后的采集内容进行判断清洗,获得最终移动应用通用内容。

进一步地,所述S2对应用软件APP集合中的每个APP元素进行深度优先遍历采集,包括以下步骤:

第一步,选定某一APP中一个未被访问过的界面作为顶点V或者访问指定的起始顶点V,并将其标记为已访问过;

第二步,搜索与顶点V邻接的所有顶点,判断这些顶点是否被访问过,如果有未被访问过的顶点,则任选一个顶点W进行访问;再选取与顶点W邻接的未被访问的任一顶点并进行访问,一次重复进行;

当一个顶点的所有的邻接顶点都被访问过时,则依次回到最近被访问的顶点;若该顶点还有其他邻接顶点未被访问,则从这些未被访问的顶点中取出一个并重复上述过程,直到与起始顶点V相通的所有顶点都被访问过为止;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于烟台中科网络技术研究所;国家计算机网络与信息安全管理中心,未经烟台中科网络技术研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210942548.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top