[发明专利]识别违禁网页的方法、装置及服务器在审
申请号: | 201610819394.2 | 申请日: | 2016-09-12 |
公开(公告)号: | CN107103012A | 公开(公告)日: | 2017-08-29 |
发明(设计)人: | 阙育飞 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京博思佳知识产权代理有限公司11415 | 代理人: | 陈蕾 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 违禁 网页 方法 装置 服务器 | ||
1.一种识别违禁网页的方法,其特征在于,所述方法包括:
确定待匹配网页的网页正文对应的第一二维数组,所述第一二维数组包括所述网页正文经过分词得到的全部词以及每一词在所述网页正文中出现的次数;
从样本库中获取与多个违禁网页对应的多个第二二维数组,所述多个第二二维数组中的每一个第二二维数组包括对应违禁网页经过分词得到的全部词以及每一个词在该对应违禁网页中出现的次数;
依次确定所述第一二维数组与多个第二二维数组中的每一个第二二维数组对应的相似度值,得到所述多个第二二维数组各自对应的多个相似度值;
如果所述多个相似度值中最大的相似度值大于第一预设阈值,确定所述待匹配网页为违禁网页。
2.根据权利要求1所述的方法,其特征在于,所述网页正文的全部词各自对应的次数定义为第一组次数,所述多个违禁网页中的每一个违禁网页的全部词各自对应的次数定义为第二组次数,多个第二二维数组对应多个第二组次数;所述依次确定所述第一二维数组与多个第二二维数组中的每一个第二二维数组对应的相似度值,包括:
根据所述第一组次数确定第一参数值,以及根据所述第二组次数确定第二参数值;
确定同时出现在所述第一二维数组与该第二二维数组的第三组词,以及确定该第三组词在所述第一二维数组和该第二二维数组中分别记录的第三组次数和第四组次数;
根据所述第三组次数与所述第四组次数,确定第三参数值;
根据所述第一参数值、所述第二参数值、所述第三参数值,基于余弦距离计算方法,确定所述第一二维数组与所述对应的第二二维数组的相似度值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一组次数确定第一参数值,包括:
计算所述第一组词中的每一个词对应的次数的平方,得到多个第一平方值;
计算所述多个第一平方值的和值,得到第一参数值。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第二组次数确定所述第二参数值,包括:
计算所述第二组词中的每一个词对应的次数的平方,得到多个第二平方值;
计算所述多个第二平方值的和值,得到第二参数值。
5.根据权利要求2所述的方法,其特征在于,所述根据所述第三组次数与所述第四组次数确定第三参数值,包括:
将所述第三组词中的每一个词在所述第三组次数中的次数与该每一个词在所述第四组次数中的次数相乘,得到与所述第三组次数所包含元素数量相对应的多个计算结果;
将所述多个计算结果相加,得到所述第三参数值。
6.根据权利要求2所述的方法,其特征在于,所述依次确定所述第一二维数组与多个第二二维数组中的每一个第二二维数组对应的相似度值,包括:
确定同时出现在所述第一二维数组与该第二二维数组的第三组词,以及确定该第三组词在所述第一二维数组和该第二二维数组中分别记录的第三组次数和第四组次数;
根据所述第三组次数与所述第四组次数,基于欧氏距离计算方法,确定所述第一二维数组与所述对应的第二二维数组的相似度值。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述多个相似度值中最大的相似度值小于所述第一预设阈值,确定所述多个相似度值中最大的相似度值是否大于第二预设阈值,其中,所述第二预设阈值小于所述第一预设阈值;
如果所述多个相似度值中最大的相似度值大于所述第二预设阈值,确定所述待匹配网页为疑似违禁网页;
将所述待匹配网页添加到所述样本库中;
如果所述多个相似度值中最大的相似度值小于所述第二预设阈值,确定所述待匹配网页为正常网页。
8.根据权利要求1所述的方法,其特征在于,所述确定待匹配网页的网页正文对应的第一二维数组,包括:
对所述待匹配网页的网页正文进行分词,得到所述网页正文中的每一个词及每一个词在所述网页正文中出现的次数;
通过所述每一个词和所述每一个词对应的次数确定所述网页正文对应的第一二维数组,所述第一二维数组用于表示所述待匹配网页的网页内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610819394.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:样式复制方法、装置及设备
- 下一篇:移动终端及其控制方法