[发明专利]一种基于潜在语义分析的迁移学习方法有效
申请号: | 201310069560.8 | 申请日: | 2013-03-05 |
公开(公告)号: | CN103176961B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 初妍;陈曼;夏琳琳;沈洁;张健沛;杨静;王勇;高迪;王兴梅;李丽洁 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 潜在 语义 分析 迁移 学习方法 | ||
技术领域
本发明涉及的是一种机器学习方法。
背景技术
随着互联网的发展,有越来越多的信息以文本的方式存储在网络上,成为人们获取信息的来源。面对巨大的文本库,人们急需一种高效的技术手段来对文本库中的数据进行整理分类。机器学习通过研究计算机如何模拟人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构达到不断改善自身的性能的目的。但是机器学习有一个很重要的假设前提,就是训练数据和测试数据必须服从相同的分布。这给实际应用带来了很大的麻烦。当出现一个新的领域时,样本空间的数据往往较少、特征稀疏,此时再利用传统的机器学习对数据分类就会产生较大泛化误差。而迁移学习放松了对训练数据和测试数据同分布假设的要求,是一种跨领域、跨任务的学习方法。迁移学习具有识别和应用先前领域、任务中学习到的知识和技巧到新的领域、任务中的能力。如先学会骑自行车,再学骑摩托车就比较容易;学会C语言,再学习Java语言也变得相对容易。
目前有一些对迁移学习方法的研究,大多只是从词汇表层对数据进行分析并没有考虑到源领域与目标领域之间的语义相关性问题,一些“噪音”因素很可能会影响迁移学习的效果。此外一些迁移学习方法或者对训练数据要求独立性假设,或者预先知道数据先验概率,这都不符合实际。
发明内容
本发明的目的在于提供无需对训练数据进行独立性假设、无需预先知道数据先验概率分布,自动地捕捉文本中深层的语义关系的一种基于潜在语义分析的迁移学习方法。
本发明的目的是这样实现的:
本发明一种基于潜在语义分析的迁移学习方法,其特征是:
(1)对训练数据做去停用词、词干化处理,分别计算源领域与目标领域词汇权重,得到词汇-文本矩阵M;
(2)对矩阵M进行奇异值分解,将M中词汇与文本映射到低维潜在语义空间:
矩阵M可表示为:
M=UΣVT
U、V是正交阵(UUT=VVT=I),Σ=diag(a1,a2,...,ak,...,av)是对角阵,(a1,a2,...,av为M的奇异值),潜在语义分析只取前k个最大的奇异值,而将剩余的值设为零,
(3)去除源领域中同义词噪音影响,调整矩阵M结构:
计算词汇与词汇之间的相似度,即对矩阵做正向乘法:
所求得的结果中,第i行第j列表明了词汇i与词汇j之间的相似程度,设定阈值θ1,从源领域中找出与目标领域词汇相似度大于θ1的词汇,记为目标领域词汇的同义词汇,将源领域该词汇用目标领域词汇替换,调整矩阵M结构;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310069560.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:中快走丝线切割可调节机头喷嘴
- 下一篇:一种燃油箱组合法兰攻丝装置