[发明专利]一种违禁网址识别方法、系统、计算机设备及存储介质在审

专利信息
申请号: 202011176369.X 申请日: 2020-10-29
公开(公告)号: CN112199569A 公开(公告)日: 2021-01-08
发明(设计)人: 龙非池;张炫;郭亚萌 申请(专利权)人: 重庆撼地大数据有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/955;G06F16/958;G06F16/906;G06N20/00
代理公司: 重庆智慧之源知识产权代理事务所(普通合伙) 50234 代理人: 高彬
地址: 401122 重庆市渝北区*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 违禁 网址 识别 方法 系统 计算机 设备 存储 介质
【说明书】:

发明提供一种违禁网址识别方法、系统、计算机设备及存储介质,其中,方法包括以下步骤:获取留言内容,所述留言内容中包含有网址;请求并解析所述网址中的网络页面信息,获取待检测信息;根据违禁识别模型对所述待检测信息进行分类;若所述待检测信息的分类存在至少一种违禁分类,对所述待检测信息对应的网址进行违禁标记;对含有违禁标记的网址进行掩码或封禁处理。本发明能够对留言内容中存在的网址进行违禁识别,并对违禁网址进行处理,避免了不能够对网址进行违禁识别从而导致出现违禁识别遗漏的情形。

技术领域

本发明涉及网络技术领域,尤其涉及一种违禁网址识别方法、系统、计算机设备及存储介质。

背景技术

近年来,随着互联网网站、受众、媒介越来越多,互联网数据呈指数级增长,就需要确保各个网站上的网页内容符合国家政策规定,需要对网页中的额内容进行检测,确保网页中不存在违禁内容。

现有技术中,需要依靠人工审核或采集信息后经过庞大的敏感词违禁词词库的审核确定网页中的文本内容是否存在违禁内容。但是针对社区留言、回帖或产品评论等文字内容中留下的网址,却不能够被只针对文本内容进行违禁识别的系统识别,从而造成违禁识别的遗漏。

发明内容

基于此,有必要针对上述技术问题,提供一种违禁网址识别方法、系统、计算机设备及存储介质。

一种违禁网址识别方法,包括以下步骤:获取留言内容,所述留言内容中包含有网址;请求并解析所述网址中的网络页面信息,获取待检测信息;根据违禁识别模型对所述待检测信息进行分类;若所述待检测信息的分类存在至少一种违禁分类,对所述待检测信息对应的网址进行违禁标记;对含有违禁标记的网址进行掩码或封禁处理。

在其中一个实施例中,在所述获取留言内容,所述留言内容包含有网址之后,所述请求并解析所述网址中的网络页面信息,获取待检测信息之前,还包括:识别所述留言内容中包含的文本信息;对所述文本信息进行分词处理,获取高频词,所述高频词为在文本信息中出现至少三次的词;将所述高频词作为待检测信息。

在其中一个实施例中,所述请求并解析所述网址中的网络页面信息,获取待检测信息,包括:获取所述网络页面信息中的网站标题、关键词和网站描述;对所述网站标题、关键词和网站描述进行分词处理,获取网络页面信息中出现的全部词和对应的词频,所述词与词频形成待检测数组;将所述待检测数组与违禁文本数据库中的违禁数组进行相似度比较,判断所述待检测数组与所述违禁数组的相似度是否大于文本相似度阈值;将相似度大于预设文本相似度阈值的待检测数据提取出来,作为待检测信息。

在其中一个实施例中,所述获取所述网络页面信息中的网站标题、关键词和网站描述,具体包括:请求文本中的统一资源定位符;解析返回的页面网址数据;获取网址中的网站标题、关键词和网站描述的文本信息。

在其中一个实施例中,所述请求并解析所述网址中的网络页面信息,获取待检测信息,还包括:获取所述网络页面信息中的图片信息;通过预定采样边框对所述图片信息进行采样,获取样本图片;将所述样本图片与所述违禁图片数据库中的违禁图片进行相似度比较,判断所述样本图片与所述违禁图片之间的相似度是否大于预设图片相似度阈值;将相似度大于预设图片相似度阈值的图片信息提取出来,作为待检测信息。

在其中一个实施例中,所述所述通过预定采样边框对所述图片信息进行采样,获取样本图片,包括:所述预定采样边框设置有两个,分别为第一预定采样边框和第二预定采样边框;所述第一预定采样边框将所述图片信息的左下角作为所述预定采样边框的起始位置,向所述图片信息的右上角移动,在移动过程中,所述第一采样边框在相同间隔之间获取至少三张第一采样图片;所述第二预定采样边框将所述图片信息中的左上角作为预定采样边框的起始位置,向所述图片信息的右下角移动,在移动过程中,所述第二采样边框在相同间隔之间获取至少三张第二采样图片;将获取的所述第一采样图片和第二采样图片整合并作为样本图片。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆撼地大数据有限公司,未经重庆撼地大数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011176369.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top