[发明专利]一种网站识别方法、装置、设备及存储介质有效

申请号：	202011399531.4	申请日：	2020-12-04
公开（公告）号：	CN112565250B	公开（公告）日：	2022-12-06
发明（设计）人：	康雅萍;陈熠;胡铁	申请（专利权）人：	中国移动通信集团内蒙古有限公司;中国移动通信集团有限公司
主分类号：	H04L9/40	分类号：	H04L9/40;H04L41/14;G06F16/33;G06F16/35;G06F40/216;G06F40/284;G06K9/62
代理公司：	北京东方亿思知识产权代理有限责任公司 11258	代理人：	赵秀芹
地址：	010010 内蒙古***	国省代码：	内蒙古;15
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网站识别方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种网站识别方法、装置、设备及存储介质。该网站识别方法包括：获取待识别网站的网页；获取网页的第一文本内容和待识别网页截图；提取待识别网页截图的第二文本内容；提取第一文本内容的第一特征向量和第二文本内容的第二特征向量；将第一特征向量输入至第一预设识别模型，得到待识别网站的第一网站识别类型；将第二特征向量输入至第二预设识别模型，得到待识别网站的第二网站识别类型；根据第一网站识别类型和第二网站识别类型，得到待识别网站的目标网站识别类型。采用本申请提供的网站识别方法、装置、设备及存储介质，能够有效提高网站识别结果的准确性，提高网站识别结果的成功率。

技术领域

本申请涉及互联网安全技术领域，具体涉及一种网站识别方法、装置、设备及存储介质。

背景技术

钓鱼网站作为一种欺骗用户的虚假网站，可以仿冒真实网站欺骗用户或者窃取访问者提交的账号、密码、资金等私密信息和财产。故而，为了提高用户的私密信息和财产的安全性，如何识别钓鱼网站也变得尤为重要。

现阶段，通常获取待识别网站的网页文本内容，基于该待识别网站的文本内容识别该网站是否是钓鱼网站。但是，现在很多钓鱼网站的网页文本内容会被用JS(JavaScript)加密技术进行加密、或者网站的网页文本内容中会包含有大量正常文本的隐藏DIV(DIVision，图层)。这样，会导致钓鱼网站的一些文本内容无法被获取到，如此，会导致网站识别结果的准确性较低。

发明内容

本申请实施例的目的是提供一种网站识别方法、装置、设备及存储介质，能够解决现有技术中网站识别结果的准确性较低的技术问题。

本申请的技术方案如下：

第一方面，提供一种网站识别方法，包括：

获取待识别网站的网页；

获取网页的第一文本内容和待识别网页截图；

提取待识别网页截图的第二文本内容；

提取第一文本内容的第一特征向量和第二文本内容的第二特征向量；

将第一特征向量输入至第一预设识别模型，得到待识别网站的第一网站识别类型；第一预设识别模型基于网站类型和网站网页的文本内容的特征向量训练得到；

将第二特征向量输入至第二预设识别模型，得到待识别网站的第二网站识别类型；第二预设识别模型基于网站类型和网站网页的网页截图中的文本内容的特征向量训练得到；

根据第一网站识别类型和第二网站识别类型，得到待识别网站的目标网站识别类型。

在一些实施例中，获取待识别网站的网页之前，还包括：