[发明专利]一种融合迁移学习与主题模型的文本分类方法及系统在审
申请号: | 202010032236.9 | 申请日: | 2020-01-13 |
公开(公告)号: | CN111209402A | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 唐焕玲;郑涵;窦全胜;宋英杰;于立萍;鲁明羽 | 申请(专利权)人: | 山东工商学院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/34;G06K9/62;G06N20/00 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
地址: | 264005 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 迁移 学习 主题 模型 文本 分类 方法 系统 | ||
本发明公开了一种融合迁移学习与主题模型的文本分类方法及系统,包括:建立共享主题知识的迁移主题模型Tr‑SLDA;模型训练过程中在源域与目标域数据各自类别标签的约束下,将其采样到同一主题空间中,有效的缓解由于目标域与源域数据不满足同分布而导致的“负迁移”现象;在训练模型Tr‑SLDA完成后,测试文档的潜在主题空间是目标领域的文档集Dt和训练文档集Ds共享的主题空间T,对测试文档的每个词的隐含主题进行采样;将待测文本输入到训练完成的Tr‑SLDA模型,推断出待测文本的主题,进而预测文本类别。可有效的缓解由于目标域与源域数据不满足同分布而导致的“负迁移”现象。进而提高模型在目标领域仅有较少标注数据的实际应用场景下的分类性能。
技术领域
本发明属于文本数据技术领域,尤其涉及一种融合迁移学习与主题模型的文本分类方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
文本分类研究的核心内容主要包括分类算法和文本表示两个部分,文本表示是文本分类问题的研究重点与难点,目前最广泛的文本表示方法是词袋法,和向量空间模型(Vector Space Model,VSM)。其假设每个词均为独立无序特征,忽略了词序和句法信息,这会带来“维数灾难”、“稀疏性”、“语义丢失”等诸多问题。
主题模型(topic model)是可用于解决“维度灾难”、“稀疏性”的一种方法,并且从全文角度抽取词的语义信息。Blei等人提出的LDA(Latent Dirichlet Allocation)主题模型,用词的概率分布来表示主题,通过隐含主题来建立语义相近词之间的关联,将文本从高维的词表示变换到低维的主题表示。LDA主题模型用于文本分类任务时,将文本表示从高维的词空间变换到低维的主题空间,然后采用KNN、Naive Bayesian、SVM等算法直接分类,其效果并不好。原因在于LDA主题模型是无监督学习,不考虑文本的类别,并没有利用训练文本已标注的类别这一重要信息。
SLDA(Supervised LDA,SLDA)在LDA的基础上引入了用以表示主题-类别的新参数,提出新的采样方法,建立主题与类别间的精准映射,进而提出SLDA-TC分类方法提高了主题模型在文本分类任务上的分类性能。
发明人在研究中发现,在传统的有监督文本分类方法中,为了得到较好的分类器,都有两个基本假设:(1)训练样本与测试样本独立同分布;(2)拥有足够可利用的已标注训练样本。但在实际应用中往往无法获取大量的已标注数据用于模型的训练,但相关不同的领域可能存在大量可用的标注文本。所以在文本分类任务中目标领域标注数据较少,相关辅助领域存在大量标注数据,二者标注数据关联的类别空间不同,但共享部分类别标签的实际应用问题中,虽然SLDA在类别的约束下有效的提升了主题模型在文本分类任务的分类性能,但其是有监督学习方法,无法利用相关但不同源领域的数据进行辅助模型的训练。
LDA主题模型为无监督主题模型,在模型训练的过程中可以迁移源域数据知识进行辅助建模,但在建模过程中会因目标域与源域数据不满足同分布而产生严重的主题偏移,从而导致“负迁移”现象,最终使得模型分类性能下降。
发明内容
为克服上述现有技术的不足,本发明提供了一种融合迁移学习与主题模型的文本分类方法,能够解决解决上述现有技术无法在标注数据不足下训练性能较好分类模型以及由于源域与目标域不满足同分布而带来的“负迁移”问题。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
一种融合迁移学习与主题模型的文本分类方法,包括:
建立共享主题知识的迁移主题模型Tr-SLDA;
模型训练过程中在源域与目标域数据各自类别标签的约束下,将其采样到同一主题空间中,有效的缓解由于目标域与源域数据不满足同分布而导致的“负迁移”现象;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东工商学院,未经山东工商学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010032236.9/2.html,转载请声明来源钻瓜专利网。