[发明专利]一种基于多示例学习的有害信息识别和网页分类方法有效

申请号：	201410609728.4	申请日：	2014-11-03
公开（公告）号：	CN104361059B	公开（公告）日：	2018-03-27
发明（设计）人：	胡卫明;胡瑞光	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	中科专利商标代理有限责任公司11021	代理人：	宋焰琴
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于示例学习有害信息识别网页分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及网络内容安全领域，更具体地涉及一种基于多示例学习的有害信息识别和网页分类方法。

背景技术

互联网在促进社会进步与发展的同时，也为各种有害信息的传播提供了极大的便利。这些有害信息日益危害着正常的社会活动和健康的价值体系，对青少年的健康成长尤为不利。最大限度地发挥互联网的积极作用，抑制或消除它的消极作用，将有利于净化互联网环境，促进社会进步，呵护青少年的健康成长。互联网有害信息包括色情、毒品、暴力、恐怖、反动等，其中毒品信息的危害与其他有害信息的危害相比，有过之而无不及。

在互联网中，网页以超文本标记语言(Hyper Text Mark-up Language，HTML)文件的形式存在，HTML文件本质上是文本文件，因此，通常的网页分类方法主要利用文本信息，其中最主要的就是词包模型。词包模型的原理是：首先选择一些关键词(key)，组成文本词典；然后统计每一个关键词在文档或网页中的频数，并组成一个向量；采用合适的分类器对该向量进行分类。

随着各种数字设备的广泛普及，网页中的图像数量越来越多，文本数量越来越少，只利用文本信息对网页进行分类已经不能很好地符合网页的实际形态。因此，非常有必要综合利用图像信息与文本信息来提高实际网页分类性能。

作为一个示例，图1为两个毒品网页，左图为贩卖吸毒工具的网页，右图为贩卖大麻的网页。可以看出，两个网页中均包含了大量的图像和少量的文本，而且图像与文本排列得非常整齐。对于这种情况，只利用文本信息已经不能很好地对其进行分类。另外，目前针对互联网上的毒品信息进行处理的相关专利或文献还非常少，迫切需要一种对毒品等有害信息进行识别处理的方法，来方便各国政府加强对互联网的监管，保护人们免受相关信息的诱惑。

发明内容

有鉴于此，本发明的目的在于提出一种符合网页内图像与本文数量实际分布情况的网页分类方法和有害信息识别方法，解决网页中有害信息的识别和自动分类的技术问题。

为实现上述目的，作为本发明的一个方面，本发明提出了一种网页分类方法，包括以下步骤：

步骤1：提取选定网页内的有效图像，并提取所述有效图像的相关文本；

步骤2：将一幅有效图像及其相关文本作为网页包中的一个示例，生成所述有效图像及其相关文本的描述，并将二者合并起来作为示例的描述；

步骤3：采用多示例核对得到的所述示例进行计算，根据计算的结果对所述选定网页进行分类。

其中，所述步骤1中采用相对大小排序前向比较法来提取所述网页内的有效图像，以及

根据网页树状结构来提取所述有效图像的相关文本。

其中，所述步骤2包括以下步骤：

步骤2a：构建网页训练集，提取所述网页训练集中有效图像的RGB-SIFT特征，聚类生成视觉词典，并采用硬编码结合和聚合的方式通过图像词包模型生成所述有效图像的特征向量；

步骤2b：利用文本词典，采用文本词包模型生成相关文本的特征向量；

步骤2c：将所述有效图像的特征向量与所述相关文本的特征向量合并起来，作为示例描述。