[发明专利]一种基于被动扫描的逻辑漏洞检测方法在审

申请号：	202111551309.6	申请日：	2021-12-21
公开（公告）号：	CN114329481A	公开（公告）日：	2022-04-12
发明（设计）人：	吴炎臻;李佩泽;田鹏旭	申请（专利权）人：	上海矢安科技有限公司
主分类号：	G06F21/57	分类号：	G06F21/57
代理公司：	暂无信息	代理人：	暂无信息
地址：	200135 上海市浦东新区***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于被动扫描逻辑漏洞检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.本发明为达到逻辑漏洞检测目的，需要以中间人攻击方式接入到客户端与服务器通信流量中，通过使用三种不同账号状态，分别为未登录状态的账号、A用户权限的账号、B用户权限的账号，去请求同一个API报文，根据返回的内容差异进行评估，计算可能存在逻辑漏洞的概率以及可能存在敏感信息泄露的内容，再综合所处业务场景最后得出一个风险值。

2.首先需要阐述其中所涉及到的算法原理：

1、RDC(Removing Dynamic Content):

RDC为去动态内容算法，主要用于去除页面无效的动态响应内容，减少对FH以及SIMHash算法的输入干扰；其核心计算公式可归纳如下：

R_n表示第N次请求返回去动态值，需要请后两次请求的返回内容近似相同，可得到一个去动态相似的值

2、FH（Fuzzy Hashing）

将页面内容通过模糊哈希计算取值

3、SIMHash(Simailer Hashing)

计算两个文本内容的哈夫曼长度

4、TF-IDF(term frequency–inverse document frequency)

TF-IDF有两部分算法组成，词频（term frequency，tf）指的是某一个给定的词语在该文件中出现的频率；这个数字是对词数（term count）的归一化，以防止它偏向长的文件；（同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否）对于在某一特定文件里的词语t_ij来说，它的重要性可表示为：

以上式子中n_ij是该词在文件d_j中的出现次数，而分母则是在文件d_j中所有字词的出现次数之和

逆向文件频率（inverse document frequency，idf）是一个词语普遍重要性的度量。

3.某一特定词语的idf，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到：

其中:

|D|：语料库中的文件总数

|{j:t_i∈d_j}|：包含词语t_j的文件数目（即n_ij≠0的文件数目）如果词语不在资料中，就导致分母为零，因此一般情况下使用1+|{j:t_i∈d_j}| 然后可得

tfidf_ij = tf_ij X idf_i

通过词频-逆向文件频率算法可用于判断敏感信息在页面中泄露的程度。

4.结合上诉算法，应用到检测中可得逻辑漏洞检测流程图（参考图一），具体的流程说明如下：

（1）被动扫描器通过网关获得输入流量，去除无关的静态内容（如js、图片已经静态的HTML页面）

（2）接着进入API逻辑判断，逻辑漏洞大多发生于API相关请求链接中，这步主要用于再次去重无用关键内容

（3）再进入动态业务检测功能，确定其为有效的请求