[发明专利]舆情数据角色识别中异构关系数据的迁移学习界限的确定方法在审

专利信息
申请号: 201811547552.9 申请日: 2018-12-18
公开(公告)号: CN109657159A 公开(公告)日: 2019-04-19
发明(设计)人: 何慧;张伟哲;方滨兴;邰煜;赵蕾;杨洪伟 申请(专利权)人: 哈尔滨工业大学
主分类号: G06F16/9536 分类号: G06F16/9536;G06F16/35;G06N20/00;G06Q50/00
代理公司: 哈尔滨市松花江专利商标事务所 23109 代理人: 杨立超
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 目标域 异构 关系数据 角色识别 迁移 最小化 学习 标记数据 定义度量 分类效果 数据平台 特征空间 训练数据 大数据 类转化 新媒体 散度 算法 源域 抽象 联合 保证
【权利要求书】:

1.一种舆情数据角色识别中异构关系数据的迁移学习界限的确定方法,其特征在于,所述方法的实现过程为:

首先定义度量两个异构领域间差异的散度,用散度来度量两个领域间的距离,然后利用两个领域的有限样本和异构数据转同构算法给出域间经验距离,并且求出经验距离与理论距离之间的差距;为求出目标域的分类误差,则需要考察两个不同的分类器分别在源域和目标域上的表现,然后利用三角不等式和已求得的差距尾项即可得到目标域的分类误差界限;最后,扩展已有的界限,将源域和目标域的样本融合起来进行学习之后对目标域进行分类,得到泛化的目标域分类误差界限。

2.根据权利要求1所述的一种舆情数据角色识别中异构关系数据的迁移学习界限的确定方法,其特征在于,所述的具体实现过程为:

步骤一、给出如下基本定义:

定义1领域,一个领域由两部分组成:输入空间χ上的分布D和标签函数数数f:χ→{0,1};则源域和目标域分别表示为<DS,fS>和<DT,fT>;

定义2假设,一个假设表示为函数h:χ→{0,1};给定分布D,假设h,又称分类函数,与标签函数f之间的分类差异,即误差为:ε(h,f)=Ex~D[|h(x)-f(x)|];

定义3抽象假设空间和假设类,设抽象假设空间的集合为每一个抽象假设空间均可泛化为若干个假设类每一个假设类对应一个领域,同时又是该领域多个分类函数h的集合;那么,由A泛化出的对应于分布D的假设类可表示为

定义4散度,I(h)为使假设函数h(x)=1的x的集合,即设两个领域的概率分布D1和D2,定义散度为:

定义5理想联合假设空间,理想联合假设空间是一个假定的空间,其泛化到源域和目标域的假设类的分类函数能够将源域和目标域的误差联合起来达到最小值:

则,联合误差可表示为

定义6异构特征空间,令目标域样本的特征矩阵为T=(t1,t2,...,tr)T,其中,是列向量,ti~pt(t)由分布pt(t)得到;从矩阵的角度来看,使用T(i,j)或者[T]i,j表示第i个目标实例的第j个特征,同时也表示矩阵T的第(i,j)个元素;令目标数据的输出为Y=(y1,y2,...,yr)T,其中,yi∈γ为ti的输出,且由输出空间γ得到;同样地,源域数据的矩阵表示为S=(s1,s2,...,sq)T,由分布ps(s)得到;令源域的输出为V=(v1,v2,...,vr)T,si的输出为vi∈Λ,从输出空间Λ得到;

步骤二、关系数据迁移界限公式的推导过程:

在独立同分布数据迁移界限研究的基础上,针对关系数据提出了散度度量以及领域间的距离概念,通过将源域和目标域的样本融合起来使得最终得到的迁移界限是一个泛化能力很强的通用上界;具体为:

一)、利用有限样本估算领域间的近似距离

利用已获取的有标签的样本,求出一个经验散度距离,建立经验散度距离与理论散度距离的关系,求得两个域之间的近似距离;

设由抽象假设空间A泛化出的假设类是对称的,即对于其相反的假设1-h也在中,U1,U2的样本大小均为m,和分别表示由抽象假设空间A泛化出的假设类和中的分类器,则根据散度的定义有:

其中,表示当x∈U2时二分类器为1;同理,表示当x∈U1时二分类器为1;将二者转化到同一个空间下,即由同一个抽象假设空间泛化得到,这样两者才能利用同一个假设类中的分类函数进行分类,然后才能对分类结果做相应的比较,从而得到两者之间的距离;由上述可知,若两个样本利用同一个假设类中的分类假设进行分类,则有:

其中,δ1表示转到相同的假设空间后样本U1中被分为0的样例数与原空间下被分为0的样例数的差值,δ2表示转到相同的假设空间后样本U1中被分为1的样例数与原空间下被分为1的样例数的差值;同理,δ3和δ4分别表示转到相同的假设空间后样本U2的0和1分类的相对应的差值;因此,式(3)可以转化为:

所以,经过推导可得两个领域间的经验散度距离为:

二)、确定领域间近似距离与理论距离间的差距

利用有限样本得到的两个域的距离只是散度理论距离的近似,建立经验散度距离和理论散度距离间的不等式以表示二者的差距,见式(7);在非独立同分布数据中,令由A泛化得来的抽象假设类和VC维分别为和U1和U2分别为基于分布D1和D2的两个样本,其大小分别为m1和m2,是样本之间的经验散度,取M=min{m1,m2},则根据推导,对于任意的θ1∈(0,1),式(3-7)成立的概率至少是1-θ1,推导如下:

令且设经过化简和变换则有:

三)、求近似距离时所用的异构转同构算法

将两个用不同的假设类中的假设进行分类的领域转化到同一个空间下,利用由同一个抽象假设空间泛化得到,从而两者能利用同一个假设类中的分类函数进行分类对分类结果进行比较;这样,问题就转化为寻找源域和目标域的一个共同的特征子空间,最佳映射空间定义为:

其中,MT,MS分别为T和S的映射矩阵,l(,)是一个损失函数,用来评价映射矩阵和源矩阵的差距;两个映射矩阵数据集的差别用D(MT,MS)表示;γ作为调节参数来控制变换使两个数据集更接近;将两个领域转化到同一空间下后必定会有一定的损失,因此损失函数的确定是解决问题的关键,考虑到T和S为关系数据,在映射过程中希望能保留各领域的同一个数据块中的数据依然能在同一个块中,因此损失函数被定义为:

l(MT,T)=α·||T-MTPT||2+(1-α)·||BT-MTPTB||2+β·||BTdT-MTPTd||2+(1-β)·||BT-MTPTB||2

l(MS,S)=α·||S-MSPS||2+(1-α)·||BS-MSPSB||2+β·||BSdS-MSPSd||2+(1-β)·||BS-MSPSB||2 (9)

则最佳映射空间就可转化为:

对上式(10)中的范数项||T-MTPT||2展开可得:

通过观察所得到的代换后的最优化式子及对其进行变换后发现,原最优化问题可以转化为:

根据Ky-Fan定理,使用算法1即可求出两个领域映射到同一空间后的目标域和源域矩阵MT,MS,继而实现关系数据的异构转同构;

算法1关系数据的异构转同构算法HeMapRD

输入:目标域矩阵T;源域矩阵S;新的特征空间维度l;多余参数α,β,γ

输出:目标域映射矩阵MT,源域映射矩阵MS

1.以一个属性为桥梁生成目标域分块矩阵BT,同时根据分块矩阵的每一块的自相关系数生成目标域的向量dT;以一个属性为桥梁生成源域分块矩阵Bs,同时根据分块矩阵的每一块的自相关系数生成源域的向量ds

2.根据式(13)(14)构造矩阵A;

3.计算矩阵A的top-l本征值,及其相关本征向量U=[u1,u2,…,ul];

4.U的一半分块矩阵标记为MT,另一半标记为Ms;

5.返回MT和Ms;

6.结束;

四)、利用散度距离建立目标域分类误差的界限

在两个域之间的迁移界限通过联合多个分类函数来表示,假设一个抽象类里的分类函数都是成对或对称出现的,即一个假设标记为0的样本,另一个假设全部标记为1,反之也成立;

对一个抽象假设空间而言,对称差异抽象假设空间定义为:

其中即,对于每一个而言,其均为中任意两个不同的A泛化到不同领域得到的假设类中的假设做异或运算得到的集合;

由的定义,可推导得出:

运用三角不等式和上式(17),令由A泛化得来的抽象假设类和VC维分别为和US和UT分别为未标记的基于分布DS和DT的两个样本,其大小分别为m1和m2,则根据推导,对于任意的θ1∈(0,1)和任意的下式成立的概率至少是1-θ1

五)、对目标域分类误差界限的泛化

式(18)表示的界限展示了如何关联源域和目标域的误差,现进一步扩展,给出结合源域和目标域的带标签数据进行训练使得经验误差最小的学习界限,

给出最小化源域和目标域的经验误差的凸组合:α∈[0,1];εα(hA)则表示二者的真实误差;要给出使得最小的域适应算法的目标域误差的界限需要2个因素:一是目标域误差和联合误差εα(hA)的差异,二是联合真实误差εα(hA)和联合经验误差间的差异;根据三角不等式,得到:

上式表明,当α趋于1的时候,就逐渐越依赖于目标域的数据,并且两个域间的距离起得作用也越来越小;α误差的一致收敛界限和有限VC维的假设类的标准一致收敛界限几乎是相同的,只有源域误差和目标域误差前面的权重不同而已;证明的第二个关键因素则依赖于稍作修改之后的霍夫丁不等式,对于关系数据而言,其满足:

其中,δ=maxi,j∈{1,K,m}(bi-aj),k为数据块数,为相应块的自相关系数,nj为每个数据块中的样本个数;设目标域的βm个样例的取值是则有,

所以,对每一个h而言,将上述结果合并可得:

上式表明,随着α和β的关联的疏远,通过有限样本对联合真实误差εα(hA)的估计也变得越来越不可靠;利用式(23)、三角不等式和近似距离与理论距离间的差距进行化简变换之后,便可得出结合源域和目标域训练数据的泛化界限:

令由A泛化得来的抽象假设类和VC维分别为和US和UT分别为未标记的基于分布DS和DT的两个样本,其大小分别为m1和m2;S是由来自DT的βm个样例和来自DS的(1-β)m个样例组成,这些样例分别根据fT和fS进行了标记;如果是使最小的假设,是使目标域误差最小的假设,则根据推导,对于任意的θ∈(0,1),下式成立的概率至少是1-θ:

其中,M=min{βm,(1-β)m},当α=0,即忽略目标数据,除了对源域的经验误差的估计,该界限和得出的界限完全相同;同样地,当α=1,即只使用目标数据,该界限是只使用目标数据的标准学习界限;取最佳的α时,即整个右边最小;通过选择不同的α,该界限可有效地在少量目标域数据和大量不相关的源域数据间作以平衡。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811547552.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top