[发明专利]一种基于语义理解的网络钓鱼识别方法和装置在审
申请号: | 201711085356.X | 申请日: | 2017-11-07 |
公开(公告)号: | CN108111478A | 公开(公告)日: | 2018-06-01 |
发明(设计)人: | 张茜;曾宇;李洪涛;延志伟;袁晓彤;耿光刚 | 申请(专利权)人: | 中国互联网络信息中心 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G10L15/18;G10L15/06;G10L25/30;G06F17/27;G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 邱晓锋 |
地址: | 100190 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 文本语义 网络钓鱼 文本数据 检测 网页 方法和装置 钓鱼网站 语义理解 钓鱼 词向量 构建 文本 机器学习算法 合法网页 特征输入 网页文本 向量表示 语言模型 语义分析 语料库 鲁棒 词语 视角 合法 | ||
本发明涉及一种基于语义理解的网络钓鱼识别方法和装置。该方法包括:提取网站中网页的HTML文本中的文字部分,得到网页的文本数据;利用所述网页的文本数据生成文本语义特征;将待检测网站的文本语义特征输入钓鱼检测模型,以判断待检测网站是否为钓鱼网站;所述钓鱼检测模型是利用网站的文本语义特征采用机器学习算法构建的。该方法将合法网页的文本数据作为语料库来训练语言模型,得到词语的词向量,利用词向量对合法网站和钓鱼网站中网页的HTML文本进行向量表示,生成文本语义特征。本发明从网页文本语义分析的视角提取系列特征,能够构建更为鲁棒的钓鱼检测模型,并提升网络钓鱼识别的能力。
技术领域
本发明属于网络技术领域,具体涉及一种基于语义理解的网络钓鱼识别方法和装置。
背景技术
网络钓鱼(Phishing)这一术语产生于1996年,它是由钓鱼(Fishing)一词演变而来。在网络钓鱼的过程中,攻击者使用诱饵(比如电子邮件、手机短信)发送给大量用户,期待少数用户“上钩”,进而达到“钓鱼”(如窃取用户的隐私信息)的目的。国际反网络钓鱼工作组(APWG)给网络钓鱼的定义是:网络钓鱼是一种利用社会工程学和技术手段来窃取消费者的个人身份数据和财务账户凭证的网络攻击方式。采用社会工程手段的网络钓鱼攻击往往是向用户发送貌似来自合法的企业或机构的欺骗性电子邮件、手机短信等,引诱用户回复个人敏感信息或者点击里面的链接访问伪造的网站,进而泄露凭证信息(例如用户名、密码)或下载恶意软件。网络钓鱼严重威胁网民的财产和隐私安全,已成为当前互联网最大的安全隐患之一。
网络钓鱼本质上属于品牌仿冒,为了达到以假乱真的效果,钓鱼网站在视觉和语义上高度相似于品牌站点。基于机器学习的钓鱼检测是当前的研究热点,统计特征的选择关乎模型的有效性。然而,现有统计特征的提取主要围绕视觉相似性、窃取和第三方特征等,忽略了对网页语义特征的挖掘。
近几年深度学习在图像识别、语音识别领域取得了重大进展,在自然语言理解中的多种任务也取得了非常良好的结果,特别是主题分类、情绪分析、问答和语言翻译。自然语言处理中一个很重要的任务就是对词语、文本进行向量表示,利用深度学习技术通过训练语言模型,可得到具有语义信息和句法信息的词向量,并且向量间的相对相似度和语义相似度是相关的。
发明内容
为了更好的刻画钓鱼网站的仿冒特性,本发明提出一种基于语义理解的网络钓鱼识别方法和装置,从网页文本语义分析的视角提取系列特征,以挖掘目前研究尚未覆盖的钓鱼特性,构建更为鲁棒的钓鱼检测模型,提升网络钓鱼识别的能力。
本发明采用的技术方案如下:
一种基于语义理解的网络钓鱼识别方法,包括以下步骤:
提取网站中网页的HTML文本中的文字部分,得到网页的文本数据;
利用所述网页的文本数据生成文本语义特征;
将待检测网站的文本语义特征输入钓鱼检测模型,以判断待检测网站是否为钓鱼网站;所述钓鱼检测模型是利用网站的文本语义特征采用机器学习算法构建的。
进一步地,所述生成文本语义特征的方法是:将合法网页的文本数据作为语料库来训练语言模型,得到词语的词向量;利用所述词语的词向量对合法网站和钓鱼网站中网页的HTML文本进行向量表示,生成文本语义特征。
进一步地,采用神经网络模型进行所述语言模型的学习,通过词向量的训练构建词语的词向量表,然后通过查询词向量表得到网页文本中所有词语的词向量,并利用词语的词向量进行文本语义特征表示。
进一步地,对于不在词向量表中的词语的处理方式为:a)对于不在词向量表中的词语,将事先定义的未命中向量作为该词语的词向量;b)构建一个高频词表,对于不在词向量表中但在高频词表中的词语,根据词频决定该词语的词向量,对于词向量表和高频词表中都不在的词语,将一个事先定义的向量作为该词语的词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国互联网络信息中心,未经中国互联网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711085356.X/2.html,转载请声明来源钻瓜专利网。