[发明专利]识别违禁网页的方法、装置及服务器在审
申请号: | 201610819394.2 | 申请日: | 2016-09-12 |
公开(公告)号: | CN107103012A | 公开(公告)日: | 2017-08-29 |
发明(设计)人: | 阙育飞 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京博思佳知识产权代理有限公司11415 | 代理人: | 陈蕾 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 违禁 网页 方法 装置 服务器 | ||
技术领域
本申请涉及网络技术领域,尤其涉及一种识别违禁网页的方法、装置及服务器。
背景技术
目前大量企业级的用户在服务提供商提供的云服务器上建站,服务器提供商为了确保所建站点上的网页内容符合国家政策规定,需要对网页中的内容进行检测,以确保网页中不存在违禁内容。现有技术中,通过关键词检测来识别网页中是否存在违禁内容,由于关键词存在较多的变形,因此容易被非法用户绕过,致使对违禁网页识别的准确度不高。
发明内容
有鉴于此,本申请提供一种新的技术方案,提高对违禁网页识别的准确度。
为实现上述目的,本申请提供技术方案如下:
根据本申请的第一方面,提供了一种识别违禁网页的方法,包括:
确定待匹配网页的网页正文对应的第一二维数组,所述第一二维数组包括所述网页正文经过分词得到的全部词以及每一词在所述网页正文中出现的次数;
从样本库中获取与多个违禁网页对应的多个第二二维数组,所述多个第二二维数组中的每一个第二二维数组包括对应违禁网页经过分词得到的全部词以及每一个词在该对应违禁网页中出现的次数;
依次确定所述第一二维数组与多个第二二维数组中的每一个第二二维数组对应的相似度值,得到所述多个第二二维数组各自对应的多个相似度值;
如果所述多个相似度值中最大的相似度值大于第一预设阈值,确定所述待匹配网页为违禁网页。
根据本申请的第二方面,提供了一种识别违禁网页的装置,包括:
第一确定模块,用于确定待匹配网页的网页正文对应的第一二维数组,所述第一二维数组包括所述网页正文经过分词得到的全部词以及每一词在所述网页正文中出现的次数;
获取模块,用于从样本库中获取与多个违禁网页对应的多个第二二维数组,所述多个第二二维数组中的每一个第二二维数组包括对应违禁网页经过分词得到的全部词以及每一个词在该对应违禁网页中出现的次数;
第二确定模块,用于依次确定所述第一确定模块得到的所述第一二维数组与所述获取模块获取到的所述多个第二二维数组中的每一个第二二维数组对应的相似度值,得到所述多个第二二维数组各自对应的多个相似度值;
第三确定模块,用于如果所述第二确定模块确定所述多个相似度值中最大的相似度值大于第一预设阈值,确定所述待匹配网页为违禁网页。
根据本申请的第三方面,提供了一种服务器,所述服务器包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器,用于确定待匹配网页的网页正文对应的第一二维数组,所述第一二维数组包括所述网页正文经过分词得到的全部词以及每一词在所述网页正文中出现的次数;
从样本库中获取与多个违禁网页对应的多个第二二维数组,所述多个第二二维数组中的每一个第二二维数组包括对应违禁网页经过分词得到的全部词以及每一个词在该对应违禁网页中出现的次数;
依次确定所述第一二维数组与多个第二二维数组中的每一个第二二维数组对应的相似度值,得到所述多个第二二维数组各自对应的多个相似度值;
如果所述多个相似度值中最大的相似度值大于第一预设阈值,确定所述待匹配网页为违禁网页。
根据本申请的第四方面,提供了一种识别违禁网页的方法,所述方法包括:
确定待匹配网页的网页正文对应的待匹配二维数组,所述待匹配二维数组包括:所述网页正文经过分词得到的分词子串以及每一分词子串在网页正文中出现的次数;
从样本库中获取与多个违禁网页对应的多个样本二维数组,所述多个样本二维数组中的每一个样本二维数组包括:对应违禁网页正文经过分词得到的分词子串以及每一分词子串在该对应违禁网页正文中出现的次数;
确定待匹配二维数组与至少一个样本二维数组的相似度值,得到至少一个样本二维数组对应的相似度值。
根据本申请的第五方面,提供了一种识别违禁网页的装置,所述装置包括:
第一确定模块,用于确定待匹配网页的网页正文对应的待匹配二维数组,所述待匹配二维数组包括所述网页正文经过分词得到的分词子串以及每一分词子串在网页正文中出现的次数;
获取模块,用于从样本库中获取与多个违禁网页对应的多个样本二维数组,所述多个样本二维数组中的每一个样本二维数组包括:对应违禁网页正文经过分词得到的分词子串以及每一分词子串在该对应违禁网页正文中出现的次数;
第二确定模块,用于确定待匹配二维数组与至少一个样本二维数组的相似度值,得到至少一个样本二维数组对应的相似度值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610819394.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:样式复制方法、装置及设备
- 下一篇:移动终端及其控制方法