[发明专利]一种高性能识别文件类型的方法有效
申请号: | 202010149262.X | 申请日: | 2020-03-06 |
公开(公告)号: | CN111367582B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 葛云生;蔡斌 | 申请(专利权)人: | 上海赋华网络科技有限公司 |
主分类号: | G06F9/445 | 分类号: | G06F9/445;G06F16/953;G06F13/28 |
代理公司: | 上海乐泓专利代理事务所(普通合伙) 31385 | 代理人: | 苏杰 |
地址: | 201112 上海市闵行*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 性能 识别 文件类型 方法 | ||
本发明的一种高性能识别文件类型的方法,将智能网卡安装在其宿主机上作为测试服务器,通过文件类型识别规则配置智能网卡多核平台和智能网卡驱动,文件类型识别程序提取文件的头部内容,并通过发送通道发送到智能网卡,智能网卡将接收到的文件内容提交给正则表达式硬件搜索引擎,文件类型识别程序根据搜索结果结合预配置的文件类型识别规则,输出文件类型的识别结果。通过将逻辑通道内的数据传输、多正则表达式的匹配、零拷贝传输等功能由智能网卡的多核平台处理,可以快速准确识别文件类型。
技术领域
本发明属于计算机技术领域,具体来说是一种高性能识别文件类型的方法。
背景技术
随着网络技术的不断应用和完善,互联网已经成为信息发布的重要渠道,在信息交流中扮演着不可或缺的重要角色,针对互联网多样化的数据,进行内容还原、行为审计、网络取证等系统应运而生。而随着数据传输性能地与日俱增,对内容还原、行为审计、网络取证等系统的要求也不断提升。特别地,针对还原内容的深度审计、挖掘,例如关键字搜索等,我们通常会先将还原内容保存成文件,然后再对文件进行文件类型的识别,之后才能进行深度审计、挖掘。面对海量文件,我们需要一种高性能识别文件类型的方法,以提升系统的整体性能,提高产品的竞争力。
发明内容
1.发明要解决的技术问题
本发明的目的在于解决现有的识别文件类型的方法效率低下的问题。
2.技术方案
为达到上述目的,本发明提供的技术方案为:
本发明的一种高性能识别文件类型的方法,将智能网卡安装在其宿主机上作为测试服务器,通过文件类型识别规则配置智能网卡多核平台和智能网卡驱动,文件类型识别程序提取文件的头部内容,并通过发送通道发送到智能网卡,智能网卡将接收到的文件内容提交给正则表达式硬件搜索引擎,文件类型识别程序根据搜索结果结合预配置的文件类型识别规则,输出文件类型的识别结果。
优选的,所述方法包括如下步骤:
S100、将智能网卡安装在其宿主机上作为测试服务器;
S200、在测试服务器上配置智能网卡侧软硬件规则以及文件类型识别程序;
S300、在测试服务器上配置智能网卡驱动;
S400、在文件类型识别程序内配置文件类型识别规则;
S500、输入待识别的文件,文件类型识别程序提取文件的头部内容,并通过发送通道发送到智能网卡;
S600、智能网卡将接收到的文件内容提交给正则表达式硬件搜索引擎;
S700、智能网卡将搜索结果通过DMA方式发送到文件类型识别程序的接收通道中;
S800、文件类型识别程序轮询接收通道以获取网卡的搜索结果,结合预配置的文件类型识别规则,输出文件类型的识别结果。
优选的,所述步骤S200中还包括在测试服务器上设置有收包单元、发送单元和正则搜索硬件引擎。
优选的,所述步骤S500中的文件类型识别程序提取文件的头部内容为不大于1920个字节,将提取的头部内容写入零拷贝发送通道的内存中并转换成硬件指令,硬件指令通过发送通道发送到智能网卡。
优选的,所述步骤S400中的文件类型识别规则为设置若干个正则表达式,加载到智能加速卡的硬件搜索引擎,当匹配到不同的正则表达式时,输出该正则表达式相对应的文件类型。
3.有益效果
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海赋华网络科技有限公司,未经上海赋华网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010149262.X/2.html,转载请声明来源钻瓜专利网。