[发明专利]一种基于语义理解的网络钓鱼识别方法和装置在审

申请号：	201711085356.X	申请日：	2017-11-07
公开（公告）号：	CN108111478A	公开（公告）日：	2018-06-01
发明（设计）人：	张茜;曾宇;李洪涛;延志伟;袁晓彤;耿光刚	申请（专利权）人：	中国互联网络信息中心
主分类号：	H04L29/06	分类号：	H04L29/06;G10L15/18;G10L15/06;G10L25/30;G06F17/27;G06F17/30
代理公司：	北京君尚知识产权代理事务所(普通合伙) 11200	代理人：	邱晓锋
地址：	100190 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于语义理解的网络钓鱼识别方法和装置。该方法包括：提取网站中网页的HTML文本中的文字部分，得到网页的文本数据；利用所述网页的文本数据生成文本语义特征；将待检测网站的文本语义特征输入钓鱼检测模型，以判断待检测网站是否为钓鱼网站；所述钓鱼检测模型是利用网站的文本语义特征采用机器学习算法构建的。该方法将合法网页的文本数据作为语料库来训练语言模型，得到词语的词向量，利用词向量对合法网站和钓鱼网站中网页的HTML文本进行向量表示，生成文本语义特征。本发明从网页文本语义分析的视角提取系列特征，能够构建更为鲁棒的钓鱼检测模型，并提升网络钓鱼识别的能力。
搜索关键词：	网站文本语义网络钓鱼文本数据检测网页方法和装置钓鱼网站语义理解钓鱼词向量构建文本机器学习算法合法网页特征输入网页文本向量表示语言模型语义分析语料库鲁棒词语视角合法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于语义理解的网络钓鱼识别方法，其特征在于，包括以下步骤：提取网站中网页的HTML文本中的文字部分，得到网页的文本数据；利用网页的文本数据生成文本语义特征；将待检测网站的文本语义特征输入钓鱼检测模型，以判断待检测网站是否为钓鱼网站；所述钓鱼检测模型是利用网站的文本语义特征采用机器学习算法构建的。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国互联网络信息中心，未经中国互联网络信息中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711085356.X/，转载请声明来源钻瓜专利网。

上一篇：车辆用认证系统
下一篇：用于Hadoop分布式文件系统透明加解密的密钥管理方法

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于语义理解的网络钓鱼识别方法和装置在审

专利文献下载