[发明专利]一种基于多示例学习的有害信息识别和网页分类方法有效
申请号: | 201410609728.4 | 申请日: | 2014-11-03 |
公开(公告)号: | CN104361059B | 公开(公告)日: | 2018-03-27 |
发明(设计)人: | 胡卫明;胡瑞光 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 示例 学习 有害信息 识别 网页 分类 方法 | ||
技术领域
本发明涉及网络内容安全领域,更具体地涉及一种基于多示例学习的有害信息识别和网页分类方法。
背景技术
互联网在促进社会进步与发展的同时,也为各种有害信息的传播提供了极大的便利。这些有害信息日益危害着正常的社会活动和健康的价值体系,对青少年的健康成长尤为不利。最大限度地发挥互联网的积极作用,抑制或消除它的消极作用,将有利于净化互联网环境,促进社会进步,呵护青少年的健康成长。互联网有害信息包括色情、毒品、暴力、恐怖、反动等,其中毒品信息的危害与其他有害信息的危害相比,有过之而无不及。
在互联网中,网页以超文本标记语言(Hyper Text Mark-up Language,HTML)文件的形式存在,HTML文件本质上是文本文件,因此,通常的网页分类方法主要利用文本信息,其中最主要的就是词包模型。词包模型的原理是:首先选择一些关键词(key),组成文本词典;然后统计每一个关键词在文档或网页中的频数,并组成一个向量;采用合适的分类器对该向量进行分类。
随着各种数字设备的广泛普及,网页中的图像数量越来越多,文本数量越来越少,只利用文本信息对网页进行分类已经不能很好地符合网页的实际形态。因此,非常有必要综合利用图像信息与文本信息来提高实际网页分类性能。
作为一个示例,图1为两个毒品网页,左图为贩卖吸毒工具的网页,右图为贩卖大麻的网页。可以看出,两个网页中均包含了大量的图像和少量的文本,而且图像与文本排列得非常整齐。对于这种情况,只利用文本信息已经不能很好地对其进行分类。另外,目前针对互联网上的毒品信息进行处理的相关专利或文献还非常少,迫切需要一种对毒品等有害信息进行识别处理的方法,来方便各国政府加强对互联网的监管,保护人们免受相关信息的诱惑。
发明内容
有鉴于此,本发明的目的在于提出一种符合网页内图像与本文数量实际分布情况的网页分类方法和有害信息识别方法,解决网页中有害信息的识别和自动分类的技术问题。
为实现上述目的,作为本发明的一个方面,本发明提出了一种网页分类方法,包括以下步骤:
步骤1:提取选定网页内的有效图像,并提取所述有效图像的相关文本;
步骤2:将一幅有效图像及其相关文本作为网页包中的一个示例,生成所述有效图像及其相关文本的描述,并将二者合并起来作为示例的描述;
步骤3:采用多示例核对得到的所述示例进行计算,根据计算的结果对所述选定网页进行分类。
其中,所述步骤1中采用相对大小排序前向比较法来提取所述网页内的有效图像,以及
根据网页树状结构来提取所述有效图像的相关文本。
其中,所述步骤2包括以下步骤:
步骤2a:构建网页训练集,提取所述网页训练集中有效图像的RGB-SIFT特征,聚类生成视觉词典,并采用硬编码结合和聚合的方式通过图像词包模型生成所述有效图像的特征向量;
步骤2b:利用文本词典,采用文本词包模型生成相关文本的特征向量;
步骤2c:将所述有效图像的特征向量与所述相关文本的特征向量合并起来,作为示例描述。
其中,步骤2a中所述的聚类生成视觉词典的步骤采用K-means聚类方法,得到包含1500个视觉单词的视觉词典。
其中,步骤2b中所述的文本词典包含100个对所需分类主题有代表性的关键词和100个与所需分类主题完全不相关的关键词;
所述采用文本词包模型生成相关文本的特征向量的步骤包括:
对于所述相关文本,根据所述文本词典统计生成其100维的特征向量;
步骤2c中所述将有效图像的特征向量与相关文本的特征向量合并起来的步骤包括:
将所述有效图像的1500维的特征向量与所述相关文本的100维的特征向量直接串起来,得到1600维的特征向量;以及
如果一个网页没有有效图像,则将一个1500维的零向量与所述相关文本的特征向量合并起来。
其中,所述步骤3包括:
步骤3a:采用多示例核对得到的所述示例进行计算;
步骤3b:将上述步骤得到的多示例核与支持向量机结合,对所述选定网页进行分类。
其中,所述步骤3a包括:
将步骤2中生成的一幅有效图像的示例作为一个包中的一个示例,一个网页作为一个包,对于步骤2中生成的包和包其中x为相应的示例表述,采用如下方式度量包Bi和包Bj之间的相似性:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410609728.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自动加油装置
- 下一篇:一种滑阀副主动润滑装置