[发明专利]基于改进fastText的跨站脚本攻击检测方法有效

申请号：	202011290867.7	申请日：	2020-11-18
公开（公告）号：	CN112671703B	公开（公告）日：	2022-03-18
发明（设计）人：	范敏;康英来;胥小波;范晓波	申请（专利权）人：	中国电子科技网络信息安全有限公司
主分类号：	H04L9/40	分类号：	H04L9/40;G06K9/62
代理公司：	成都九鼎天元知识产权代理有限公司 51214	代理人：	卿诚
地址：	610207 四川省成都市***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于改进 fasttext 脚本攻击检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及网络信息技术领域，具体涉及基于改进fastText的跨站脚本攻击检测方法，包括数据预处理，将对象字符串还原为原始字符串，并提取目标请求字段；按照XSS规则对目标请求字段进行匹配检测；利用fastText建模，对目标请求字段进行推断和预测；对推断预测结果进行“或”运算，得出最终检测结果。本发明针对网站应用级入侵防御系统实时性要求高的场景，提出了以文本分类fastText技术为基础，基于词级和字符级不同粒度词向量融合的XSS攻击检测方法，解决OOV问题，缓解了概念分布漂移问题；并引入正则化因子改进fastText损失函数，克服容易过拟合的问题，为网站应用级入侵防御系统知识驱动的规则引擎无法发现未知范式的XSS攻击提供了一种可行的解决方案。

技术领域

本发明涉及网络信息技术领域，具体涉及基于改进fastText的跨站脚本攻击检测方法。

背景技术

跨站脚本攻击(Cross Site Scripting，也称为XSS)指利用网站漏洞从用户那里恶意盗取信息，对于这种攻击的检测一直是近年来业界关注重点。

现有的跨站脚本攻击检测方法，一般有知识驱动和数据驱动两类思路。

(1)基于知识驱动。这类方法简单快速，其通过查询专家经验规则和数据知识库进行检测，但是对于规则和知识库之外的未知攻击很难防御。

(2)基于数据驱动。这类方法一般基于机器学习或者深度学习技术，需要大量的特征工程，模型结构复杂，如随机森林方法；训练时间长，检测速度慢，实时性不佳，如word2vec+CNN(卷积神经网络)分类方法。另外，在数据驱动中，训练数据和真实环境数据分布差异往往会带来概念分布漂移(Concept Drift)问题。

现有技术中针对跨站脚本攻击检测的方法，目前还存在如下问题：

(1)传统基于深度学习的跨站脚本攻击检测方法主要包括向量化和分类两个阶段和模型，模型通常较为复杂，所以速度慢。

(2)传统的分类方法以word-level(词粒度)为特征表述，准确性依赖于训练集的丰富程度，因为word粒度大，在实际环境中存在OOV(Out Of Vocabulary)问题，带来漏报。

(3)fastText在使用过程中，损失函数没有正则化约束项，会出现过拟合，容易产生误报。

因此，现有的网络信息安全领域中还没有特别实际有效的方法，可对跨站脚本攻击进行快速有效的检测；故需要提出更为合理的技术方案，对现有技术中存在的问题进行改进。

发明内容

为了克服上述内容中提到的现有技术存在的缺陷，本发明提供了基于改进fastText的跨站脚本攻击检测方法，旨在通过对输入的数据进行预处理，并通过规则引擎和fastText引擎对同一条规则进行检测，采用“或”运算对检测结果进行集成，实现对规则引擎的补充和辅助，还实现了快速有效的XSS检测。

为了实现上述目的，本发明具体采用的技术方案是：

基于改进fastText的跨站脚本攻击检测方法，包括：

数据预处理，将对象字符串进行预处理并还原为原始字符串，并从原始字符串中提取目标请求字段；

按照XSS规则对目标请求字段进行匹配检测；

利用fastText建模，对目标请求字段进行推断和预测；