[发明专利]识别违禁网页的方法、装置及服务器在审
申请号: | 201610819394.2 | 申请日: | 2016-09-12 |
公开(公告)号: | CN107103012A | 公开(公告)日: | 2017-08-29 |
发明(设计)人: | 阙育飞 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京博思佳知识产权代理有限公司11415 | 代理人: | 陈蕾 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请提供一种识别违禁网页的方法、装置及服务器,该方法包括确定待匹配网页的网页正文对应的第一二维数组,第一二维数组包括网页正文经过分词得到的全部词以及每一词在网页正文中出现的次数;从样本库中获取与多个违禁网页对应的多个第二二维数组,每一个第二二维数组包括对应违禁网页经过分词得到的全部词以及每一个词在该对应违禁网页中出现的次数;依次确定第一二维数组与多个第二二维数组中的每一个第二二维数组对应的相似度值;如果多个相似度值中最大的相似度值大于第一预设阈值,确定待匹配网页为违禁网页。本申请的技术方案可以避免现有技术中通过关键词检测时由于关键词的变形得到错误的检测结果,提高对待匹配网页监控的准确度。 | ||
搜索关键词: | 识别 违禁 网页 方法 装置 服务器 | ||
【主权项】:
一种识别违禁网页的方法,其特征在于,所述方法包括:确定待匹配网页的网页正文对应的第一二维数组,所述第一二维数组包括所述网页正文经过分词得到的全部词以及每一词在所述网页正文中出现的次数;从样本库中获取与多个违禁网页对应的多个第二二维数组,所述多个第二二维数组中的每一个第二二维数组包括对应违禁网页经过分词得到的全部词以及每一个词在该对应违禁网页中出现的次数;依次确定所述第一二维数组与多个第二二维数组中的每一个第二二维数组对应的相似度值,得到所述多个第二二维数组各自对应的多个相似度值;如果所述多个相似度值中最大的相似度值大于第一预设阈值,确定所述待匹配网页为违禁网页。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610819394.2/,转载请声明来源钻瓜专利网。
- 上一篇:样式复制方法、装置及设备
- 下一篇:移动终端及其控制方法