[发明专利]基于云计算的移动终端不良信息过滤方法及系统有效
申请号: | 201810071433.4 | 申请日: | 2018-01-25 |
公开(公告)号: | CN108319672B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 孙知信;邢府纬;骆冰清 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06V10/764 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 计算 移动 终端 不良信息 过滤 方法 系统 | ||
1.基于云计算的移动终端不良信息过滤方法,其特征在于,包括如下步骤:
S1、客户端根据自定义过滤规则和网站在线检测过滤待检测的网页,再将本地的过滤规则和待检测的网页发送至云端;
S2、待检测的网页按照预先设定的URL过滤和关键字过滤进行初步过滤;
S3、对初步过滤后的网页进行预处理,并输入至云计算的分类器;
S4、分类器通过并行架构计算出待检测的网页上信息之间的关联关系,并对信息进行初步分类,再根据预设好的阈值判断是否为不良网站;
S5、经过初步分类的信息通过决策树算法进行二次分类,识别待检测的网页的类型;
所述步骤S4中初步分类包括网页信息分析阶段和网页信息分类阶段;
网页信息分析阶段的具体步骤为:
从分布式文件系统中读取训练集,并存放到分布式数据集中;根据预先定义好的参数将训练集均匀分割为若干个小训练集,采用分布式操作计算分割后的小训练集与待测样本之间的距离,获取若干个邻近的候选样本,根据每个小训练集与候选样本之间的距离,获取每个小训练集最邻近的候选样本;
网页信息分类阶段的具体步骤为:
汇总网页信息分析阶段获取的每个小训练集最相邻的候选样本,以加权的方式将所有最邻近的候选样本中加权值最高的一类作为训练集的最终分类。
2.根据权利要求1所述的基于云计算的移动终端不良信息过滤方法,其特征在于,所述自定义过滤规则是手动设置黑白名单或所需屏蔽的关键字,网站在线检测是通过识别待检测的网站的URL和文本内容进行过滤。
3.根据权利要求1所述的基于云计算的移动终端不良信息过滤方法,其特征在于,所述客户端通过网络内容检测请求控制模块向云端发起请求,将本地的自定义过滤规则传输到云端更新,再向云端传输待检测的网页信息。
4.根据权利要求1所述的基于云计算的移动终端不良信息过滤方法,其特征在于,所述URL过滤为在云端设置已知不良网站的黑名单和已认证网站的白名单,在黑名单和白名单中查找是否包含待检测的网页网站,所述关键字过滤为将待检测的网页中的文本内容与预先设置的关键字实时对比,当匹配数量达到设定阈值后进行过滤。
5.根据权利要求1所述的基于云计算的移动终端不良信息过滤方法,其特征在于,所述步骤S3中对初步过滤后的网页进行预处理包括文本预处理和图像预处理,所述文本预处理为使用Libpcap函数包抓取网页的文本内容,去除HTML标签及CSS样式,再采用统计模型中文分词,过滤分词出的无帮助词汇;所述图像预处理为对待测图形去噪、分割以及边缘分割,再通过YCbCr色彩模型对分割后的图形进行二值化,提取肤色像素,获取肤色像素的比例以及图片的纹理特征,并通过人脸识别估算人脸的轮廓面积。
6.根据权利要求1所述的基于云计算的移动终端不良信息过滤方法,其特征在于,所述步骤S4中分类器为并行KNN分类过滤器,所述初步分类包括网页信息分析阶段和网页信息分类阶段。
7.根据权利要求6所述的基于云计算的移动终端不良信息过滤方法,其特征在于,所述网页信息分析阶段的具体步骤为:
从分布式文件系统中读取训练集,并存放到分布式数据集中;
根据预先定义好的参数将训练集均匀分割为若干个小训练集,并存储到内存中;采用分布式操作计算分割后的小训练集与待测样本之间的距离,获取若干个邻近的候选样本;
根据每个小训练集与候选样本之间的距离,获取每个小训练集最邻近的候选样本。
8.根据权利要求6所述的基于云计算的移动终端不良信息过滤方法,其特征在于,所述网页信息分类阶段的具体步骤为:
汇总网页信息分析阶段获取的每个小训练集最邻近的候选样本;
以加权的方式将所有最邻近的候选样本中加权值最高的一类作为训练集的最终分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810071433.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文件管理方法及移动终端
- 下一篇:一种基于关系数据库的故障树构建方法