[发明专利]一种超文本预处理器代码中的网页后门检测方法及装置有效

申请号：	201710196716.7	申请日：	2017-03-29
公开（公告）号：	CN108664791B	公开（公告）日：	2023-05-16
发明（设计）人：	范宇河;胡珀;郑兴;王放;郭晶;张强;唐文韬;杨勇	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F21/56	分类号：	G06F21/56
代理公司：	深圳市联鼎知识产权代理有限公司 44232	代理人：	刘抗美;刘耿
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种超文本预处理代码中的网页后门检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开揭示了一种超文本预处理器代码中的网页后门检测方法及装置，其中该方法包括如下步骤：根据触发的网页后门检测命令，获取超文本预处理器代码；将所述超文本预处理器代码转换为操作码；在所述操作码中识别出操作码保留关键字；在所述操作码中提取出所述操作码保留关键字标识的操作码片段；根据所述操作码片段生成操作码特征；将所述操作码特征输入分类模型进行分类，得到所述超文本预处理器代码是否含有网页后门的分类结果。本发明识别超文本预处理器代码是否含有网页后门的分类结果准确度更高。

技术领域

本公开涉及互联网领域，特别涉及一种超文本预处理器代码中的网页后门检测方法及装置。

背景技术

黑客在入侵了一个网站后，通常会将PHP(超文本预处理器代码)形式的webshell(网页后门)与服务器WEB目录下正常的网页文件混在一起，然后就可以使用浏览器来访问该网页后门，黑客可以利用该网页后门实现对网站和服务器的控制，例如，上传下载文件，查看数据库，可以调用一些服务器上系统的相关命令(比如创建用户，修改删除文件之类的)，甚至向服务器WEB目录上传网页脚本木马，从而使访问该网站的客户端感染。由此可见，这种网页后门可以对服务器以及网站产生很大破坏。

现有技术中，为了识别出服务器中的PHP代码中是否含有网页后门，通常采用如下检测步骤：

读取PHP代码：读取服务器中的PHP代码；

预处理：对PHP代码进行预处理以方便后续的特征提取步骤，例如调整PHP代码的格式；

特征提取：从每组PHP代码中提取特征；

模型训练：将每组PHP代码是否包含网页后门的结果，以及该组PHP代码的特征使用贝叶斯、决策树、逻辑回归等等方法进行模型训练，得到分类模型；

检测网页后门：将待检测的PHP文件输入该分类模型进行分类，从而可以得到该PHP文件是否含有网页后门的分类结果。

但是，由于PHP语法灵活，利用PHP写出的网页后门可以由很多不同的形式，通过上述检测步骤检测之后，往往会有很多包含了网页后门的PHP代码没有被检测出来，即，出现大量漏报；另一方面，有些没有包含网页后门的PHP代码，经过上述检测步骤得出了含有网页后门的分类结果，即，出现大量误报，大量警告信息需要人工审核，严重增加了审核人员的负担。

概括而言，现有检测PHP代码中是否含有网页后门的结果不准确。

发明内容

为了解决相关技术中存在的检测PHP代码是否含有网页后门结果不准确的技术问题，本公开提供了一种超文本预处理器代码中的网页后门检测方法及装置。

一种超文本预处理器代码中的网页后门检测方法，包括如下步骤：

根据触发的网页后门检测命令，获取超文本预处理器代码；

将所述超文本预处理器代码转换为操作码；

在所述操作码中识别出操作码保留关键字；

在所述操作码中提取出所述操作码保留关键字标识的操作码片段；

根据所述操作码片段生成操作码特征；

将所述操作码特征输入分类模型进行分类，得到所述超文本预处理器代码是否含有网页后门的分类结果。

在一个实施例中，所述操作码片段为操作码操作符；

根据所述操作码片段生成操作码特征的步骤为：