[发明专利]一种低资源文档分类方法及分类系统有效

申请号：	201811365384.1	申请日：	2018-11-16
公开（公告）号：	CN109522554B	公开（公告）日：	2022-12-02
发明（设计）人：	周刚;邢昌帅;周艳芳;陈海勇;兰明敬;南煜;张凤娟	申请（专利权）人：	中国人民解放军战略支援部队信息工程大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F16/35
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	骆宗力;王宝筠
地址：	450001 ***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种资源文档分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种低资源文档分类方法及分类系统，所述低资源文档分类方法基于迁移学习技术实现了无需低资源语言有标注训练样本下的文档分类。如基于迁移学习，将高资源有标注训练样本得到的高资源语言文档分类模型迁移至低资源语言的文档分类中，降低了低资源语言的研究门槛，为文档分类技术在低资源语言中的发展和应用提供了可能。

本申请要求于2018年11月06日提交中国专利局、申请号为201811312613.3、发明名称为“一种低资源文档分类方法及分类系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及迁移学习技术领域，更具体地说，涉及一种低资源文档分类方法及分类系统。

背景技术

文档分类是指从一组已知的训练样本数据中训练分类模型，并使用这个分类模型识别待分类文档的过程，随着机器学习技术的不断发展，多语音文档分类已经成为大规模数据处理的热点之一。

目前常用的分类方法有：K近邻法(KNearest Neighbor，KNN)、朴素贝叶斯(NativeBes，NB)、支持向量机(Support Vector Machine，SVM)以及深度学习(DeepLearning)等，基于这些算法获得的分类模型的性能主要取决于分类模型训练过程中的有标注的训练样本的数量，特别是以数据驱动的深度学习算法，其获得的分类模型的性能更加依赖于有标注的训练样本的数量。

但是标注(labeling)训练样本的过程是一个困难且需要消耗大量的人力物力的过程，特别是对于低资源语言而言，关于低资源语言的有标注的训练样本长期处于匮乏状态，并且低资源语言、语音的研究普遍比较落后，低资源语音的文档分类模型研究几乎是空白的，这些原因都严重的制约了文档分类技术在低资源语言中的发展和应用。

发明内容

为解决上述技术问题，本申请提供了一种低资源文档分类方法及分类系统，以实现在不需要低资源语言的训练样本的基础上，获得适用于低资源语言的高资源语言文档分类模型的目的。

为实现上述技术目的，本申请实施例提供了如下技术方案：

一种低资源文档分类方法，包括：

构建句子平行语料库，所述句子平行语料库中存储有高资源语料和低资源语料的对应关系；

将所述句子平行语料库中的高资源语料和低资源语料表示在同一向量空间中，以获得双语词向量；

获取有标记的高资源文档，以所述高资源语言词向量作为文档特征表示，得到高资源训练样本；

利用所述高资源训练样本训练预设高资源文档分类模型，以获得高资源语言文档分类模型；

获取无标记的低资源文档，以所述低资源语言词向量作为文档特征表示，得到低资源训练样本；

利用高资源语言文档分类模型对待分类低资源样本进行分类。

可选的，所述构建句子平行语料库包括：

通过同一媒体高资源和低资源收集高资源句子和低资源句子的对应关系；