[发明专利]舆情数据角色识别中异构关系数据的迁移学习界限的确定方法在审
申请号: | 201811547552.9 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109657159A | 公开(公告)日: | 2019-04-19 |
发明(设计)人: | 何慧;张伟哲;方滨兴;邰煜;赵蕾;杨洪伟 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/35;G06N20/00;G06Q50/00 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 杨立超 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标域 异构 关系数据 角色识别 迁移 最小化 学习 标记数据 定义度量 分类效果 数据平台 特征空间 训练数据 大数据 类转化 新媒体 散度 算法 源域 抽象 联合 保证 | ||
舆情数据角色识别中异构关系数据的迁移学习界限的确定方法,涉及迁移学习技术领域。为了解决现有技术没有联合两个领域的数据进行学习再运用到目标域中,分类效果不准确的问题。定义度量两个异构领域间差异的散度,利用它求出均来自同一个抽象假设类A的两个领域的经验距离并给出将两个类转化到同一个特征空间下的算法,给出经验距离和真实距离之间的差异界限,给出最小化目标域误差的界限,最终又给出泛化能力最强并结合源域和目标域训练数据的泛化误差,通过最小化联合误差来得到目标域误差的界限。所得出的界限保证在目标域标记数据很少的情况下也能得到一个合理的界限值。适用于公共大数据及新媒体数据平台中的各种识别问题。
技术领域
本发明涉及一种迁移学习界限的确定方法,涉及迁移学习技术领域。
背景技术
迁移学习过程中,若假设源域和目标域有不同的分布、特征空间和输出空间,则需要考虑源域的分类函数是否适用于目标域的问题,这便有了域适应问题,只有解决了这个问题,得到源域和目标域的误差,才能给出不同领域间的迁移学习界限。现有的工作为迁移学习界限的研究提供了可行的思路,奠定了一定的基础,但也明显存在着一些问题。
首先,训练集和测试集来自相同领域或具有相同分布。大部分学习算法表现得很好的前提是基于源域和目标域的数据都是独立同分布的。当分布发生了改变,大部分统计模型需要通过新获取的数据进行重新构建,浪费资源。其次,训练集和测试集具有相同特征空间。例如,文本分类一般都有相同的特征空间,例如网页文档分类的目的就是为了归纳给定的网页到事先定义的种类中去。文本分类,有标签的样例可能是通过事先人工打标签将大学网站和种类信息联系起来。而对于一个新建立的网站的分类任务,数据特征和数据分布可能都是不同的,缺乏有标签的训练数据。对于新的web的分类,直接将已经建立好的分类器应用上去并不合理。在这种情况下,如果能将分类的知识迁移到新的领域中,或将二者的特征空间统一起来将会非常有帮助。最后,源域和目标域的数据彼此分离,没有融合。大多数的迁移学习都只考虑将在拥有大量有标签的数据的源领域上训练得到的分类模型运用到目的领域中。目标域有时会有少量的数据,却没被好好利用,如果能够联合两个领域的数据进行学习,然后再运用到目标域中,能够取得更加准确的分类效果。
发明内容
本发明的目的是提供一种公共大数据中舆情数据角色识别中异构关系数据的迁移学习界限的确定方法,为了解决现有技术没有联合两个领域的数据进行学习再运用到目标域中,分类效果不准确的问题。
本发明为解决上述技术问题采取的技术方案是:
一种舆情数据角色识别中异构关系数据的迁移学习界限的确定方法,所述方法的实现过程为:
首先定义度量两个异构领域间差异的散度,用散度来度量两个领域间的距离,然后利用两个领域的有限样本和异构数据转同构算法给出域间经验距离,并且求出经验距离与理论距离之间的差距;为求出目标域的分类误差,则需要考察两个不同的分类器分别在源域和目标域上的表现,然后利用三角不等式和已求得的差距尾项即可得到目标域的分类误差界限;最后,扩展已有的界限,将源域和目标域的样本融合起来进行学习之后对目标域进行分类,得到泛化的目标域分类误差界限。
进一步地,所述的具体实现过程为:
步骤一、给出如下基本定义:
定义1领域,一个领域由两部分组成:输入空间χ上的分布D和标签函数数数f:χ→{0,1};则源域和目标域分别表示为<DS,fS>和<DT,fT>;
定义2假设,一个假设表示为函数h:χ→{0,1};给定分布D,假设h,又称分类函数,与标签函数f之间的分类差异,即误差为:ε(h,f)=Ex~D[|h(x)-f(x)|];
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811547552.9/2.html,转载请声明来源钻瓜专利网。