[发明专利]二进制数据中有意义字符串提取方法和系统有效

专利信息
申请号: 201210243966.9 申请日: 2012-07-16
公开(公告)号: CN103544141A 公开(公告)日: 2014-01-29
发明(设计)人: 康学斌;田彻 申请(专利权)人: 哈尔滨安天科技股份有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 150090 黑龙江省哈尔滨*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种二进制数据中的字符串提取方法,包括首先从二进制数据中读取所有的可显示字符组成的字符串,然后将所提取的每个字符串拆分为可显示字符组合,计算获得字符组合的概率差异表之后,利用概率差异算法区分所有提取的字符串获得初步的有意义字符串和无意义字符串,并进一步通过熵值法去除不准确的有意义字符串则得到最终所提取的字符串结果。本发明还公开了一种二进制数据中的字符串提取系统。使用本发明的技术方案可以提取任意格式的二进制数据包括磁盘文件、磁盘镜像、网络数据等。同时可以提取人类可读的字符串,大大提高了提取字符串的效率。
搜索关键词: 二进制 数据 有意义 字符串 提取 方法 系统
【主权项】:
1.一种二进制数据中的字符串提取方法,其特征在于,包括:步骤1,打开二进制数据缓冲区,将二进制数据的开始位置定位为当前位置;步骤2,判断如果当前位置是二进制数据的结束位置则进行步骤5,否则从当前位置读取一个字节的二进制数据,然后进行步骤3;步骤3,判断所述字节的二进制数据是否存在于可显示字符表中;所述可显示字符表是预先构造好的由介于0x20和0x7e之间的ASCII值组成的字符表;如果所述字节的二进制数据不存在于可显示字符表中,则将所述二进制数据当前位置跳跃预设字节数,继续步骤2;如果所述字节的二进制数据存在于可显示字符表中,则进行步骤4;步骤4,判断如果当前位置之后的二进制数据中包含连续可显示字符的长度不小于预设字节数,则从当前位置开始提取字符串,如果遇到0或者连续可显示字符的长度超过512字节,则提取所述字符串结束,保存所获得的可显示字符组成的字符串,当前位置跳跃到所获取字符串所在二进制数据中的结尾位置,继续步骤2; 判断如果当前位置之后的二进制数据中包含连续可显示字符的长度小于预设字节数,则不保存所述连续可显示字符,当前位置直接跳跃到所述连续可显示字符的结尾位置,继续步骤2;所述可显示字符是指可显示字符表中的字符;步骤5,分别将所提取的每个字符串拆分为可显示字符组合,所述可显示字符组合包括单字节、连续双字节、单词;A表示所述字符串拆分得到的可显示字符组合的集合,每个可显示字符组合用si表示,S表示所有可显示字符组合的集合,si∈S;无意义字符串集合M是预先准备的长度不小于预设字节数的可显示字符串中经过人工挑选的人类无法识别的字符串的集合;有意义字符串集合T,是预先准备的长度不小于预设字节数的可显示字符串中经过人工挑选的人类可以理解的字符串的集合;PM(si)表示字符组合si在无意义字符串集合M中出现的概率;PT(si)表示字符组合si在有意义字符串集合T中出现的概率;计算表示所述字符组合si的贡献度;计算,其中V为所述字符串的贡献度和,表示所述字符组合 si的贡献度,;根据所述公式计算所提取的每个字符串的贡献度和,初步判断贡献度和大于0的字符串为无意义字符串,贡献度和小于0的字符串为有意义字符串;步骤6,计算每个所述有意义字符串的熵值,去除熵值小于预设值的有意义字符串,则其他有意义字符串为最终所提取的字符串结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨安天科技股份有限公司,未经哈尔滨安天科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210243966.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top