[发明专利]一种文件类型的识别方法及装置在审
申请号: | 201910833084.X | 申请日: | 2019-09-04 |
公开(公告)号: | CN110532529A | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 罗志成;喻波;王志海;韩振国;安鹏 | 申请(专利权)人: | 北京明朝万达科技股份有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F16/903 |
代理公司: | 11319 北京润泽恒知识产权代理有限公司 | 代理人: | 莎日娜<国际申请>=<国际公布>=<进入 |
地址: | 100097 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自定义文件 编码信息 文件类型 预先存储 匹配度 快速识别 文件泄露 注册组件 预设 | ||
本发明提供了一种文件类型的识别方法及装置。所述方法包括:获取待识别自定义文件的编码信息;判断所述编码信息与注册组件中预先存储的文件的编码信息的匹配度;若所述匹配度大于预设值,则确定所述自定义文件的文件类型为所述预先存储的文件的编码信息对应的文件类型可以对自定义文件的文件类型进行快速识别和解析,提高了自定义文件类型识别的准确性,避免出现文件泄露的问题。
技术领域
本发明涉及文件处理技术领域,特别是涉及一种文件类型的识别方法及装置。
背景技术
文件格式用于存储特殊的数据,例如:图像文件中的JPEG文件格式仅用于存储静态的图像,text文件一般仅存储简单没有格式的ASCII或Unicode的文本;HTML文件则可以存储带有格式的文本等。大多数的文件都有公开的、不同程度规范或者建议的格式,但是在有些情况下,自定义的文件,其文件格式没有公开,例如,开发者将文件格式视作商业秘密不愿公开或者开发者不愿或花去很少的时间用于规范文档。
现有技术中通常采用读取文件的文件扩展名的方式来获取文件类型,或者通过读取文件内容根据内容特征自动感知文件类型,例如开源软件Tika,但是对于没有公开文件格式的文件,采用上述的方式对文件类型的识别,会出现文件类型的识别结果与真实文件类型不一致,识别文件类型的准确率较低。
发明内容
本发明提供了一种文件类型的识别方法及装置,以解决现有技术中对自定义文件的文件类型的识别准确率较低的问题。
为了解决上述问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种文件类型的识别方法,包括:
获取待识别自定义文件的编码信息;
判断所述编码信息与注册组件中预先存储的文件的编码信息的匹配度;
若所述匹配度大于预设值,则确定所述自定义文件的文件类型为所述预先存储的文件的编码信息对应的文件类型。
可选地,所述获取待识别自定义文件的编码信息,包括:
获取所述自定义文件的文件头的二进制的编码信息;
将所述二进制的编码信息进行转化,得到十六进制的编码信息;
将所述十六进制的编码信息确定为所述待识别文件的编码信息。
可选地,所述方法还包括:
接收客户端的操作请求,所述操作请求至少包括查询、新建、修改或删除请求;
根据所述操作请求对所述注册组件中的文件信息进行相应的操作;
其中,所述文件信息至少包括编号、文件类型、与所述文件类型名称对应的编码信息、注册人和注册时间中的一种。
可选地,在确定所述自定义文件的文件类型之后,还包括:
接收客户端发送的白名单识别请求,其中,所述白名单识别请求中至少包括所述自定义文件的文件类型;
根据所述自定义文件的文件类型,在白名单组件中预先建立的白名单中进行查找;
若所述白名单中存在所述待识别文件的文件类型,则给所述客户端发送允许外发的响应信息。
可选地,所述方法还包括:
接收客户端发送的白名单操作请求,其中,所述白名单操作请求中至少包括所述自定义文件的文件类型及操作类型,所述操作类型至少包括查询、新建、修改或删除操作;
根据所述自定义文件的文件类型和操作类型,对所述白名单中的文件进行相应的操作。
第二方面,本发明实施例提供了一种文件类型的识别装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明朝万达科技股份有限公司,未经北京明朝万达科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910833084.X/2.html,转载请声明来源钻瓜专利网。