[发明专利]基于最大间距多任务多示例学习的网页分类方法有效
申请号: | 201610466377.5 | 申请日: | 2016-06-21 |
公开(公告)号: | CN106055705B | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 阮奕邦;肖燕珊;刘波;郝志峰;黎启祥 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/95 | 分类号: | G06F16/95;G06F16/35 |
代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 杨晓松 |
地址: | 510062 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于最大间距多任务多示例学习的网页分类方法。该方法包括:对网页进行多示例化;对若干个网站构建分类器多任务化;为每个类别的网页数据构建一个类包;构建一个类别到多示例包之间的类特定距离公式;为所有多示例学习任务建立一个总的损失函数;总损失函数转换为多任务学习的特定形式;转换多任务损失函数为一个正半定二次优化问题;求解优化问题得到最大间距多任务多示例分类器。本发明涉及了一种不同类别网页距离最大化的多任务多示例网页分类方法,并且把网页转换为合理的多示例表示形式,利用多任务学习方法减低了人工标注的成本,并且利用任务间的相关性提高分类器的性能。 | ||
搜索关键词: | 基于 最大 间距 任务 示例 学习 网页 分类 方法 | ||
【主权项】:
1.一种基于最大间距多任务多示例学习的网页分类方法,其特征在于,包括如下步骤,第一步、获取每个网站的网页,随机抽取每个网站的少量网页,通过人工标记的方式,为这些网页进行分类,赋予分类标签,并且把训练单个网站的网页分类器看成一个学习任务,所以同时为多个网站训练网页分类器可以看成一个多任务学习过程;第二步、把所有学习任务的所有网页,转换为多示例数据;第三步、在每个多示例学习任务中,为每个类别的所有网页多示例数据构建一个特殊的多示例包,简称为类包;第四步、为每个多示例学习任务单独构建一个类别到多示例包之间的类特定距离公式;第五步、为所有多示例学习任务建立一个总的损失函数,损失函数的最小化问题则是本方法所需要解决的最优化问题;第六步、将第五步中的损失函数转换为多任务学习的特定形式,从而将每个学习任务之间的网页关联性利用起来;第七步、转换第六步的多任务损失函数为一个正半定二次优化问题,从而使得求解该优化问题,能够使得不同类别网页之间的间距最大化;第八步、求解第七步中的凸优化问题,可以获得最大化间距多任务多示例网页分类器,从而对每个网站上面的网页进行分类;所述第三步中,利用第二步中生成的T个学习任务的所有多示例数据,将属于同一个类别的所有网页多示例数据归纳在一起,则该类别的所有多示例数据可以组成一个比较大的多示例包,又因为生成该多示例包的网页都来自于同一个类别,则可以简称为类包,在第t个学习任务中,如果可以用来标记的网页类别有K个,则可以构建出K个类包;第四步中,为每个多示例学习任务单独构建一个类别到多示例包之间的类特定距离公式,在进行网页分类的时候,采取的距离公式是类别到多示例包之间的距离公式,而并非是多示例包到多示例包之间的距离;如果在第t个学习任务中,第k个类包到一个多示例包之间的距离要小于其他类别到该多示例包之间的距离,则该多示例包属于第k个类别;单独为每个类包到多示例包之间的距离设定一个类特定距离公式,该类特定距离公式是基于马氏距离公式,如下:
上式为第t个任务的第k个类别到多示例包的距离公式,Ckt为第t个任务的第k个类别的类包,Bit为第t个任务的第i个多示例包,
为类包Ckt的第j个示例,Mkt为马氏距离矩阵,
为类包Ckt中的示例到多示例包Bit的欧式距离矩阵,其中![]()
是多示例包Bit的中心,在该类特定距离公式Distt(Ckt,Bit)中,只有马氏距离矩阵Mkt是变量,其他都是已知常量或者可以由已知常量所求,所以类包Ckt到多示例包Bit的距离,由马氏距离矩阵Mkt影响,所以最优化该马氏距离矩阵Mkt,能够得到最大间距多任务多示例网页分类器;所述第五步中,为所有多示例学习任务建立一个总的损失函数,损失函数的最小化问题则是本方法所需要解决的最优化问题,在多任务多示例学习的环境下,构建一个损失函数,该损失函数需要把与第k个类包相关的多示例包聚在一起,并且需要保证第k个类包与其他多示例的距离最大化,建立一个损失函数,如下:
上式中,(·)+=max(0,1‑·)是数学公式中常用的Hinge Loss,保证了(·)+取值范围在0到1之间,该损失函数的最小化可以保证,在T个任务中,所有的多示例包Bit到它们所属的类包Cpt的距离要远远小于到它们不属于的类包Cnt的距离,并且保证了所有的多示例包Bit到它们所属的类包Cpt的距离是最小化的,CM是训练分类模型时预先输入的一个正则化参数,用来控制平衡损失函数的各项式的大小。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610466377.5/,转载请声明来源钻瓜专利网。
- 上一篇:可拆换灯板的LED影视灯电路及结构
- 下一篇:一种制作杏仁罐头的剥壳机及系统