[发明专利]基于生成对抗网络和深度学习的有害网站的检测方法有效
申请号: | 202110830095.X | 申请日: | 2021-07-22 |
公开(公告)号: | CN113657453B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 刘立峰;李丽;董华;冯志峰;鲍尚策 | 申请(专利权)人: | 珠海高凌信息科技股份有限公司 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06N3/0464;G06F21/56;G06F16/9535 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 张志辉 |
地址: | 519060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 生成 对抗 网络 深度 学习 有害 网站 检测 方法 | ||
本发明涉及一种基于生成对抗网络和深度学习的有害网站的检测方法、装置及可读介质的技术方案,包括:通过爬虫获取若干包括有害网址的第一网站快照;将第一网站快照作为生成对抗网络的数据输入,得到多个模拟网站快照;将模拟网站快照与若干正常网站的第二网站快照进行组合,得到训练集;微调用于训练的卷积神经网络,将训练集通过卷积神经网络进行训练,得到用于有害网站的检测模型。本发明的有益效果为:所需的有标签的数据量大大减少,训练所需要的时间和计算资源也大大减少,且面对新的个性化小样本任务,本技术中提出的模型有更好的适应性,能在短时间内生成可靠的深度学习模型,提高了系统的实用价值。
技术领域
本发明涉及计算机安全领域,具体涉及了一种基于生成对抗网络和深度学习的有害网站的检测方法、装置及介质。
背景技术
随着我国互联网技术的不断发展,目前广泛采用的针对互联网有害信息挖掘,通常需要结合通信网海量的控制面和用户面的上网日志数据进行分析判断,随着国内隐私保护要求越来越高,尤其对运营商保护客户隐私的要求下,基于大数据和AI、机器学习和深度学习技术,在不涉及用户隐私的情况线下,通过生成海量互联网网站快照数据,进行基于深度学习的分析检测越来越成为互联网有害信息检测迫切要求的手段。
现有的针对互联网有害信息识别模型往往需要大量的有标签数据进行训练,而在实际应用中,很难获得针对某一特殊领域或者特殊用户群体的大量的有标签的训练信息,这就导致利用小样本数据训练出的模型往往无法达到理想的效果,此外,训练出一个成熟的深度机器学习模型往往需要消耗大量的时间以及计算资源,导致针对于新任务的训练成本大大提高。
发明内容
本发明的目的在于至少解决现有技术中存在的技术问题之一,提供了一种基于生成对抗网络和深度学习的有害网站的检测方法、装置及介质,节省了研发资源,以及将大数据机器学习成果转移到小数据、定制化应用等提供了一个便捷的渠道,具有广泛的应用前景以及巨大的实用价值。
本发明的技术方案包括一种基于生成对抗网络和深度学习的有害网站的检测方法,其特征在于,该方法包括:S100,通过爬虫获取若干包括有害网址的第一网站快照;S200,将所述第一网站快照作为生成对抗网络的数据输入,得到多个模拟网站快照;S300,将所述模拟网站快照与若干正常网站的第二网站快照进行组合,得到训练集;S400,微调用于训练的卷积神经网络,将所述训练集通过所述卷积神经网络进行训练,得到用于有害网站的检测模型。
根据所述的基于生成对抗网络和深度学习的有害网站的检测方法,其中S100包括:S110,从网址数据库中筛选出有害网址;S120,通过爬虫从所述有害网址爬取不同网页风格的所述第一网站快照;S130,为爬取的所述第一网站快照添加对应标签,所述标签用于标识网站为正常网站或有害网站;S140,从所述网址数据库中筛选出正常网站,并重复所述S120~S130直至得到设定数量的所述第一网站快照;S150,将带有所述标签的所述第一网站快照存储至数据库。
根据所述的基于生成对抗网络和深度学习的有害网站的检测方法,其中S200包括:S210,通过爬虫爬取已知有害网址的网站快照,从所述数据库中读取带有所述标签的所述第一网站快照,并按照设定比例将其随机划分为训练集和测试集;S220,将所述训练集输入所述生成对抗网络的模型进行训练,通过所述生成对抗网络自动学习不同网站快照的风格以及特征,具体地,保持正常网站的快照高级特征不变的情况下,将学习到的不同有害网站快照风格迁移到正常网站的快照上;S230,通过所述测试集对若干经过所述生成对抗网络的模型所述生成对抗网络的模型进行测试,筛选出性能最优的模型;S240,通过性能最优的所述生成对抗网络生成带有不同有害网站快照风格的所述模拟网站快照;S250,对所述模拟网站快照添加有害网站的所述标签,并与通过爬虫爬取的网站快照一起组合成新的数据集,并写入数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海高凌信息科技股份有限公司,未经珠海高凌信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110830095.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:认证安全策略执行方法、装置及计算设备
- 下一篇:一种评估多能干细胞质量的方法