[发明专利]一种基于潜在语义分析的迁移学习方法有效

申请号：	201310069560.8	申请日：	2013-03-05
公开（公告）号：	CN103176961B	公开（公告）日：	2017-02-08
发明（设计）人：	初妍;陈曼;夏琳琳;沈洁;张健沛;杨静;王勇;高迪;王兴梅;李丽洁	申请（专利权）人：	哈尔滨工程大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于潜在语义分析迁移学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及的是一种机器学习方法。

背景技术

随着互联网的发展，有越来越多的信息以文本的方式存储在网络上，成为人们获取信息的来源。面对巨大的文本库，人们急需一种高效的技术手段来对文本库中的数据进行整理分类。机器学习通过研究计算机如何模拟人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构达到不断改善自身的性能的目的。但是机器学习有一个很重要的假设前提，就是训练数据和测试数据必须服从相同的分布。这给实际应用带来了很大的麻烦。当出现一个新的领域时，样本空间的数据往往较少、特征稀疏，此时再利用传统的机器学习对数据分类就会产生较大泛化误差。而迁移学习放松了对训练数据和测试数据同分布假设的要求，是一种跨领域、跨任务的学习方法。迁移学习具有识别和应用先前领域、任务中学习到的知识和技巧到新的领域、任务中的能力。如先学会骑自行车，再学骑摩托车就比较容易；学会C语言，再学习Java语言也变得相对容易。

目前有一些对迁移学习方法的研究，大多只是从词汇表层对数据进行分析并没有考虑到源领域与目标领域之间的语义相关性问题，一些“噪音”因素很可能会影响迁移学习的效果。此外一些迁移学习方法或者对训练数据要求独立性假设，或者预先知道数据先验概率，这都不符合实际。

发明内容

本发明的目的在于提供无需对训练数据进行独立性假设、无需预先知道数据先验概率分布，自动地捕捉文本中深层的语义关系的一种基于潜在语义分析的迁移学习方法。

本发明的目的是这样实现的：

本发明一种基于潜在语义分析的迁移学习方法，其特征是：

（1）对训练数据做去停用词、词干化处理，分别计算源领域与目标领域词汇权重，得到词汇-文本矩阵M；

（2）对矩阵M进行奇异值分解，将M中词汇与文本映射到低维潜在语义空间：

矩阵M可表示为：

M＝UΣV^T

U、V是正交阵（UU^T＝VV^T＝I），Σ＝diag(a₁,a₂,...,a_k,...,a_v)是对角阵，(a₁,a₂,...,a_v为M的奇异值)，潜在语义分析只取前k个最大的奇异值，而将剩余的值设为零，

M~=UΣ~VT≈UΣVT=M;]]>