[发明专利]一种文件快速识别方法在审
申请号: | 201510109944.7 | 申请日: | 2015-03-12 |
公开(公告)号: | CN104657504A | 公开(公告)日: | 2015-05-27 |
发明(设计)人: | 罗阳;陈虹宇;王峻岭 | 申请(专利权)人: | 四川神琥科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 郭霞 |
地址: | 610041 四川省成都市高新*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 快速 识别 方法 | ||
技术领域
本发明涉及文件处理,特别涉及一种应用安装文件的处理方法。
背景技术
在移动应用领域中,开发者将应用程序提交给应用市场,用户通过应用市场下载应用。但是官方市场内依然无法避免恶意软件的存在;安全保障机制不够完善,导致恶意软件的比例居高不下。其中,嵌入已知代码和伪装应用安装文件是主要威胁。现有的技术方案采用反编译工具或者动态行为分析工具得到应用行为序列,对行为序列进行预处理得到行为序列特征,通过比较行为序列特征的距离得到应用是否被伪装的量化数据。该方法可以识别应用代码的改变,但是行为序列特征的提取容易受到代码混淆技术的影响,因而在针对实际问题进行分析时具有一定的局限性。
因此,针对相关技术中所存在的上述问题,目前尚未提出有效的解决方案。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种文件快速识别方法,包括:
分析应用安装文件属性,选择特定文件类型,并根据不同的文件类型采用不同的特征提取过程来提取文件的内容特征,获取应用安装文件的不同版本之间各种类型文件的相似度,通过加权后的相似度总和来识别伪装的应用安装文件。
优选地,所述应用安装文件以压缩文件的形式存在,文件内部以目录的形式组织存放可执行字节码文件、证书文件和资源文件,其中可执行字节码存储在类文件中;证书文件是应用的签名文件;资源文件包括数据库文件、函数库文件、XML文件、图像文件。
优选地,所述特定文件类型文件具备以下条件:文件内容特征具有签名特性,不同应用中提取出的文件内容特征具有差异性,文件内容具有距离特性;并且所述特征提取过程进一步包括,获取安装文件的文件接口,根据压缩文件位置偏移定位特征文件,对应用中的特征文件进行统计,根据统计结果对比不同的算法,对算法进行优化,并且在提取过程中应用多线程方案,重写不支持多线程的部分函数,在特征提取之后,基于文件内容特征进行识别,根据应用的统计特征,采用哈希表计数进行相似度度量。
本发明相比现有技术,具有以下优点:
本发明提出了一种文件处理,通过提取应用安装文件内容特征进行识别,且可以有效抵抗文件和目录的伪装和恶意修改带来的干扰,利用特征提取过程缩小文件内容特征规模,提高运算效率。
附图说明
图1是根据本发明实施例的文件快速识别方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
图1是根据本发明实施例的文件快速识别方法流程图。提出了一种应用程序安装文件的伪装识别方法。通过分析应用安装文件属性,选择文件类型,提取内容特征,并根据文件类型采用不同的内容特征提取算法,对其相似度赋予权值,从而提高应用程序伪装识别的准确性和运算效率。
应用安装文件以压缩文件的形式存在,内部以目录的形式组织存放可执行字节码文件、证书文件和资源文件,其中可执行字节码存储在类文件中;证书文件是应用的签名文件;资源文件包括数据库文件、函数库文件、XML文件、图像文件等。
在一个实施例中,将应用安装文件描述为集合app={exe;lib;profile;image;audio;etc},其中exe表示安装文件中的可执行字节码,lib表示程序中的原生代码库,profile表示用于程序数据存储和布局描述的XML文档,image表示程序中的图像文件,etc表示程序中的其他文件。根据集合app的描述可知:本发明的目标是根据exe,lib,profile,image等相关文件的内容特征,执行应用程序安装文件的伪装识别。
为了准确、有效地通过文件内容分析安装文件是否被伪装,并符合实际的识别需求,本发明提出的方法着力达到以下三个目标:1)适应大数据运算,应用市场内的数量大、增长快,能快速处理大量数据的系统框架是适应大数据运算的基础;2)选择合适的特征文件,安装文件内有上千种文件类型,提取哪些文件的内容直接影响伪装识别的效率和准确性;3)高效的特征提取和准确的特征算法,提取文件内容特征的速度决定了系统效率,同时准确的特征算法是保证系统能够正确给出判定结果的基本保证。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川神琥科技有限公司;,未经四川神琥科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510109944.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:DWG图纸语音标注功能
- 下一篇:一种数据处理方法及装置