[发明专利]一种半监督多视图学习的网页分类方法有效
申请号: | 201910652836.2 | 申请日: | 2019-07-18 |
公开(公告)号: | CN110413924B | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 荆晓远;贾晓栋;訾璐;黄鹤;姚永芳;彭志平 | 申请(专利权)人: | 广东石油化工学院 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州润禾知识产权代理事务所(普通合伙) 44446 | 代理人: | 凌衍芬 |
地址: | 510000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监督 视图 学习 网页 分类 方法 | ||
本发明涉及互联网技术领域,更具体地,涉及一种半监督多视图学习的网页分类方法,包括:从网页中获取数据,建立训练集;通过已标记训练集训练分类器;通过训练好的分类器对已标记训练集和未标记训练集进行编码,获取样本特征;对样本特征进行密度聚类,获取聚类结果;根据聚类结果对未标记训练集的样本进行分类。本方案使用已标记训练集对分类器进行训练,在现有的多视图分类方法的基础上加入正交约束和对抗相似约束,再通过训练好的分类器对训练集里所有的数据进行密度聚类标记,最后对分类器进行准确率验证,多次迭代上述过程能使分类器的分类性能得到提升。
技术领域
本发明涉及互联网技术领域,更具体地,涉及一种半监督多视图学习的网页分类方法。
背景技术
计算机技术日新月异,互联网已成为了人类社会不可或缺的一部分。随着移动互联网和web2.0的迅速发展,过去的几十年互联网的网页数目呈现爆炸式的增长。网上信息的日益增多,给网页信息检索和分析(TSIRA)的研究带来了更多难题,对网页信息检索和分析有了更高的要求。网页分类在网页信息检索和分析中具有重要的作用,如何给数目庞大的网页进行更快速更准确的分类,使用户可以更方便地找到需要的信息已成为了这一领域的难题。
网页信息作为一种多视图数据,通常以网页视图和链接视图表示,其不仅包含视图之间的共享信息,还包含视图内的专有信息。比如,网页视图和链接视图会共享一些词句,同时网页视图可能包含更多其他信息。
网页分类最主要的研究就是如何对网页这种多视图数据进行最有效的利用,对于此目前已有不少优秀的方案,但这些方案一般都存在着缺陷,难以适用于大多数的场景。其中,具有代表性的为:典型相关性分析(CCA,Canonical correlation analysis)的子空间学习,此方法将不同视图视为一个潜在共享子空间的不同描述,目标是将不同视图映射至共同的空间内,通过最大化不同视图的相似性利用视图间的共享信息。这种方法虽然利用视图间的共享信息,但却无法对每个视图内的专有信息进行有效的利用,进一步地提高分类准确率。于是研究者们又提出了一种能够同时利用共享专有两种信息的方法,即在CCA的子空间学习的基础上,使用深度学习对特征表现能力进行增强,提升网页分类的表现。此方法在人脸识别,亲缘关系鉴定和行人重识别上有不错的效果。但由于缺乏约束,基于共享专有的子空间学习的方法会引入数据冗余性,导致模型的特征学习能力退化。针对学习能力退化的问题,学者Avrim Blum和Tom Mitchell提出可以用半监督训练中的协同训练解决,即让两个视图上的分类器能够为对方标记数据。而kim等人则提出了一个基于标签传播的半监督训练方法,利用点击记录将类标记传播至未标记的相似网页进行训练数据的扩增。还有的提出双视图直推支持向量机的方法利用多种网页表示和未标记数据提升分类性能。
上述这些方法虽然都实现了网页分类,但随着时间的推移,仅仅利用了多视图数据的部分信息,没有充分考虑到视图间、视图内以及类间、类内的全部信息的话,会导致网页分类发生错误。因此目前亟需一种能全面考虑信息,准确给网页分类的方法。
发明内容
为了解决上述问题,本发明提供一种半监督多视图学习的网页分类方法,该方法能使网页分类更准确。
本发明采取的技术方案是:
一种半监督多视图学习的网页分类方法,包括:
步骤S1:从网页中获取数据,建立训练集;
其中,训练集包括已标记训练集和未标记训练集;
已标记训练集为进行过信息识别的数据集;
未标记训练集为未进行信息识别的数据集;
步骤S2:通过已标记训练集训练分类器,使用验证集计算分类器的准确率;
步骤S3:通过训练好的分类器对已标记训练集和未标记训练集进行编码,获取样本特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东石油化工学院,未经广东石油化工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910652836.2/2.html,转载请声明来源钻瓜专利网。