[发明专利]一种基于元学习的少样本分类方法有效
申请号: | 202110798113.0 | 申请日: | 2021-07-15 |
公开(公告)号: | CN113535953B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 全哲;赵征;乐雨泉;彭阳 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 长沙明新专利代理事务所(普通合伙) 43222 | 代理人: | 叶舟 |
地址: | 410000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 样本 分类 方法 | ||
本发明公开了一种基于元学习的少样本分类方法,其结合LCM的元学习方法,训练过程主要有两个方面:Attention和岭回归分类器,Attention模块通过组合源池和支持集的分布统计信息来生成特定于类的注意力;岭回归分类器的目标是在从支持集学习之后,对查询集进行预测,由于测试阶段数据量较小,通过LCM试图挽救预测错误的标签,达到在低数据量下较高的分类准确度。
技术领域
本发明涉及服务计算技术领域,具体涉及一种基于元学习的少样本分类方法。
背景技术
目前有效的文本分类方法都是建立在具有大量的标签数据下的有监督学习,例如常见的textcnn,textrnn等,但是在很多场景下的文本分类是无法提供这么多训练数据的,比如对话场景下的意图识别,这个时候如果我们还以传统的深度学习模型+softmax的形式来分类的话,是极容易陷入过拟合的状态。因此就有很多人研究在少量样本下如何建模。one-shot learning,few-shot learning,甚至是zero-shot learning都是旨在解决这类的问题。
目前对于少样本的文本分类的做法主要分为以下几种:
2.1文本增强。
2.1.1无条件增强
词汇短语替换:
基于词典:主要从文本中选择词汇或短语进行同义词替换,词典可以采取WordNet或哈工大词林等。著名的EDA(Easy DataAugmentation)就采用了这种方法。
基于词向量:在嵌入空间中找寻相邻词汇进行替换,我们所熟知的TinyBERT就利用这种技术进行了数据增强。
Masked LM:借鉴预训练语言模型(如BERT)中的自编码语言模型,可以启发式地Mask词汇并进行预测替换。
TF-IDF:实质上是一种非核心词替换,对那些low TF-IDF scores进行替换,这一方法最早由Google的UDA提出。
随机噪音注入:
随机插入:随机插入一个词汇、相应的拼写错误、占位符等,UDA则根据Uni-gram词频分布进行了采样。
随机交换:随机交换词汇或交换shuffle句子。
随机删除:随机删除(drop)词汇或句子。
混合交叉:
混合增强:起源于图像领域的Mixup,这是一种表示增强方法,借鉴这种思想,后来提出了wordMixup和sentMixup将词向量和句向量进行Mixup。
交叉增强:类似于“染色体的交叉操作”,是将相同极性的文本进行交叉
回译:基于机器翻译技术,例如从中文-英文-日文-中文;我们熟知的机器阅读理解模型QANet和UDA都采用了回译技术进行数据增强。
句法交换:通过句法树对文本句子进行解析,并利用相关规则进行转换,例如将主动式变成被动式句子。
对抗增强:不同于CV领域利用GAN生成对抗进行数据增强,NLP中通常在词向量上添加扰动并进行对抗训练。
2.1.1条件增强
定义:所谓条件增强(Conditional Data Augmentation),就是意味着需要强制引入「文本标签」信息到模型中再产生数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110798113.0/2.html,转载请声明来源钻瓜专利网。