[发明专利]一种违禁网址识别方法、系统、计算机设备及存储介质在审

专利信息
申请号: 202011176369.X 申请日: 2020-10-29
公开(公告)号: CN112199569A 公开(公告)日: 2021-01-08
发明(设计)人: 龙非池;张炫;郭亚萌 申请(专利权)人: 重庆撼地大数据有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/955;G06F16/958;G06F16/906;G06N20/00
代理公司: 重庆智慧之源知识产权代理事务所(普通合伙) 50234 代理人: 高彬
地址: 401122 重庆市渝北区*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 违禁 网址 识别 方法 系统 计算机 设备 存储 介质
【权利要求书】:

1.一种违禁网址识别方法,其特征在于,包括以下步骤:

获取留言内容,所述留言内容中包含有网址;

请求并解析所述网址中的网络页面信息,获取待检测信息;

根据违禁识别模型对所述待检测信息进行分类;

若所述待检测信息的分类存在至少一种违禁分类,对所述待检测信息对应的网址进行违禁标记;

对含有违禁标记的网址进行掩码或封禁处理。

2.根据权利要求1所述的一种违禁网址识别方法,其特征在于,在所述获取留言内容,所述留言内容包含有网址之后,所述请求并解析所述网址中的网络页面信息,获取待检测信息之前,还包括:

识别所述留言内容中包含的文本信息;

对所述文本信息进行分词处理,获取高频词,所述高频词为在文本信息中出现至少三次的词;

将所述高频词作为待检测信息。

3.根据权利要求1所述的一种违禁网址识别方法,其特征在于,所述请求并解析所述网址中的网络页面信息,获取待检测信息,包括:

获取所述网络页面信息中的网站标题、关键词和网站描述;

对所述网站标题、关键词和网站描述进行分词处理,获取网络页面信息中出现的全部词和对应的词频,所述词与词频形成待检测数组;

将所述待检测数组与违禁文本数据库中的违禁数组进行相似度比较,判断所述待检测数组与所述违禁数组的相似度是否大于文本相似度阈值;

将相似度大于预设文本相似度阈值的待检测数据提取出来,作为待检测信息。

4.根据权利要求3所述的一种违禁网址识别方法,其特征在于,所述获取所述网络页面信息中的网站标题、关键词和网站描述,具体包括:

请求文本中的统一资源定位符;

解析返回的页面网址数据;

获取网址中的网站标题、关键词和网站描述的文本信息。

5.根据权利要求1所述的一种违禁网址识别方法,其特征在于,所述请求并解析所述网址中的网络页面信息,获取待检测信息,还包括:

获取所述网络页面信息中的图片信息;

通过预定采样边框对所述图片信息进行采样,获取样本图片;

将所述样本图片与所述违禁图片数据库中的违禁图片进行相似度比较,判断所述样本图片与所述违禁图片之间的相似度是否大于预设图片相似度阈值;

将相似度大于预设图片相似度阈值的图片信息提取出来,作为待检测信息。

6.根据权利要求5所述的一种违禁网址识别方法,其特征在于,所述通过预定采样边框对所述图片信息进行采样,获取样本图片,包括:

所述预定采样边框设置有两个,分别为第一预定采样边框和第二预定采样边框;

所述第一预定采样边框将所述图片信息的左下角作为所述预定采样边框的起始位置,向所述图片信息的右上角移动,在移动过程中,所述第一采样边框在相同间隔之间获取至少三张第一采样图片;

所述第二预定采样边框将所述图片信息中的左上角作为预定采样边框的起始位置,向所述图片信息的右下角移动,在移动过程中,所述第二采样边框在相同间隔之间获取至少三张第二采样图片;

将获取的所述第一采样图片和第二采样图片整合并作为样本图片。

7.根据权利要求1所述的一种违禁网址识别方法,其特征在于,所述违禁识别模型通过以下方式进行训练:

获取训练检测信息,所述训练检测信息中包含有训练文本信息或训练图片信息;

对所述训练文本信息或训练图片信息进行违禁分类,获取训练文本数据集和训练图片数据集,所述训练文本信息或训练图片信息可以存在一种或多种违禁分类;

通过监督学习算法,在所述训练文本数据集和训练图片数据集中学习并获取违禁识别模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆撼地大数据有限公司,未经重庆撼地大数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011176369.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top