[发明专利]一种基于多分类器融合的敏感网页过滤方法及系统有效

申请号：	200710065181.6	申请日：	2007-04-05
公开（公告）号：	CN101281521A	公开（公告）日：	2008-10-08
发明（设计）人：	胡卫明;陈周耀;吴偶;朱明亮	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06F17/30	分类号：	G06F17/30;G06K9/62;H04L12/26
代理公司：	中科专利商标代理有限责任公司	代理人：	周国城
地址：	100080北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开基于多分类器融合的敏感网页过滤系统及方法，处理对象是一幅网页，其处理结果是该网页是否包含敏感内容，此处的敏感可以定义为色情，反动，暴力等危害社会的不健康互联网内容。系统包括数据流的获取与预处理单元、图像与文本流过滤单元、图像过滤器与文本过滤器的信息融合单元，系统基于多个分类器的协作，在给定网页的统一资源定位器的条件下，获取该网页的源代码，在预处理阶段进行文本和图像的分流，获取文本信息和有效图像信息；利用决策树算法将输入网页分为三种样式；利用连续文本分类器、离散敏感文本分类器和图像分类器对网页进行识别，根据各分类器识别的输出结果进行融合计算，给出判别因子，将最终结果返回给浏览器。
搜索关键词：	一种基于分类融合敏感网页过滤方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1. 一种基于多分类器融合的敏感网页过滤方法，包括步骤：步骤S1：获取目标网页统一资源定位符的源代码，进行预处理，用于获取中文文本信息，获取网页中有效图像集合信息；步骤S2：基于预处理提供信息，利用决策树学习中的C4.5算法将输入网页中文文本和有效图像生成文本、图像及文本与图像的混合网页样式，用于获得文本流、图像流和文本与图像混合流信息；步骤S3：利用多分类器识别与网页样式的指定分配关系，获得目标网页；步骤S4：根据识别结果综合判断目标网页是否敏感，如果敏感，则执行步骤5，如果不敏感，则执行步骤6；步骤S5：将识别的敏感网页送入Web浏览器，并在浏览器中警示用户所浏览网页含有敏感内容，浏览被禁止；步骤S6：在Web浏览器中正常显示原网页。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200710065181.6/，转载请声明来源钻瓜专利网。

上一篇：离子色谱－碱液抑制紫外检测胺类化合物
下一篇：大气燃烧与直喷燃烧组合式炉具

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多分类器融合的敏感网页过滤方法及系统有效

专利文献下载