[发明专利]一种基于半监督学习的多标签微博文本分类方法有效
申请号: | 202110720798.7 | 申请日: | 2021-06-28 |
公开(公告)号: | CN113254599B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 张丰;叶华鑫;汪愿愿;杜震洪;吴森森 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08;G06Q50/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 标签 文本 分类 方法 | ||
本发明公开了一种基于半监督学习的多标签微博文本分类方法,涉及自然语言处理领域。该方法首先对原始微博文本进行预处理,并对少量文本进行标注;然后使用反向翻译生成标注数据集的增广数据,使用同义词替换和随机噪声注入生成无标注数据集的增广数据,使用分类器猜测生成无标注数据的伪标签,与增广后的标注数据集共同组成新的训练集;再将多标签分类任务转化为多个二分类任务,训练半监督微博文本分类模型,训练时每次从新的训练集中随机抽取两个样本,在文本隐藏空间使用样本混合技术生成新的样本,计算损失值,更新网络参数;最后综合使用训练好的多个分类器对微博文本进行分类。本发明对微博文本的细粒度信息提取具有重要的应用价值。
技术领域
本发明涉及自然语言处理领域,具体涉及一种通过半监督模型对微博文本进行多标签分类的方法。
背景技术
社交媒体每时每刻都在产生着海量的数据,其中有大量的信息比如灾情信息、情感信息等可以挖掘,但社交媒体数据具有信息碎片化密度低、不规范用语多的特点,面对如此庞大的数据体量以及多种多样的讨论主题,若只是依靠人工进行文本分类相关信息提取会造成数据分析成本过高,若使用词典或规则对文本进行快速过滤又面临着文本歧义等网络语言多样性与口语化问题的困扰。相较于从海量文本数据中使用人工或使用词表和规则筛选所需信息,近年来兴起的深度学习以其出色的性能成为文本分类的首选。但深度学习往往需要先对大量数据进行高质量标注才可以使得神经网络得到充分训练,而数据标注需要昂贵的成本。因此如何降低训练数据集创建成本且能充分提取未标注文本的语义信息,成为微博文本分类的一个关键突破点。
以深度神经网络为代表的深度学习方法,能充分利用计算机处理性能,具有对非线性问题超强的参数计算和拟合能力。在自然语言领域的研究中,神经网络语言模型以深度神经网络为基础,能够以高维向量的形式去表达字符、词语、语句甚至文章的语义特征。而微博文本作为一种口语化特异化的自然语言,能够很好地与当前语言模型结合。
随着迁移学习在自然语言领域的深入应用,当前主流的神经网络语言模型已从神经网络结构设计着手开始支持微调任务的展开,方便使用者基于其通用模型实例进行下游任务的神经网络改造,核心是将已训练好的模型中的神经网络节点迁移到一个新的网络结构中去,而非从头开始。相比于传统重新训练模型的方式,该方法在数据要求、训练时间和实践效果等方面都具有显著的优势,使模型输出的结果信息包含微调目标的融合权重,并实现目标任务的求解。
在另一方面,一种重要的样本混合技术Mixup已经在计算机视觉领域得到广泛应用,却鲜有在NLP(Natural Language Processing)领域的半监督学习中得到应用,之前NLP领域的半监督学习研究大多数都将标注数据与未标注数据完全分离开来分别进行训练,虽然可以利用到未标注数据中的语义信息,但是模型仍然容易过拟合于有限的标注数据中,而Mixup样本混合技术可以将标注数据和未标注数据进行混合以生成新的样本数据,而且由于Mixup采用的是线性插值法,理论上可以生成无限多的不重复样本从而避免过拟合问题。
发明内容
本发明的目的是克服现有技术存在的问题,提供一种基于半监督学习的多标签微博文本分类方法。
本发明的目的是通过以下技术方案来实现的:
一种基于半监督学习的多标签微博文本分类方法,其步骤如下:
S1:对原始微博文本进行预处理得到用于分类的无标注样本,将所有无标注样本分为待标注数据集和无标注数据集两部分;
S2:对于待标注数据集中的无标注样本进行多标签标注,得到标注数据集;再使用反向翻译对标注数据集进行数据增强,形成增广标注数据集;
S3:对无标注数据集使用同义词替换和随机噪声注入进行数据增强,形成增广无标注数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110720798.7/2.html,转载请声明来源钻瓜专利网。