[发明专利]基于提示模板的金融文本分类方法、装置及电子设备在审
申请号: | 202210280524.5 | 申请日: | 2022-03-21 |
公开(公告)号: | CN114817528A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 景泳霖;周靖宇 | 申请(专利权)人: | 北京快确信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 广东良马律师事务所 44395 | 代理人: | 李良 |
地址: | 100000 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 提示 模板 金融 文本 分类 方法 装置 电子设备 | ||
本发明公开了一种基于提示模板的金融文本分类方法、装置及电子设备,方法包括:获取原始的金融语料,将金融语料转化为基于提示模板的MLM标签;对MLM标签进行转换,生成MLM标签训练样本;构建预训练模型,将MLM标签训练样本输入预训练模型,对预训练模型进行训练,生成金融文本分类模型;将待识别的金融文本数据输入金融文本分类模型,获取金融文本分类结果。本发明实施例能实现仅有少量标注数据的情况下,仍然使分类模型达到接近预训练模型类似的泛化能力;大大减少了标注的量,减少了大规模数据依赖;提高了金融文本分类效率。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于提示模板的金融文本分类方法、装置及电子设备。
背景技术
在金融领域,需要对各种文本进行分类判断。例如对债券发行价格的咨询,问价等,这一类文本数据比较杂乱,在通常的建模过程中涉及商业机密,因此数据收集量往往不足,给分类建模带来了很多困难。通常解决办法是使用数据增强,但小样本学习的困难仍很难解决。
金融领域的文本,或者样本文本的样式由于行业自身的保密性特点,通常是不容易进行收集的,一般的泛化方法,比如问候语,前后词缀的调整等并不能真正意义的增强数据的丰富程度,在此基础上的建模通常容易限于严重的过拟合。
文本分类任务的做法有非常多,从经典的text-CNN结构,抽取数据特征汇总计算,还有预训练方法encoder得到池化隐层,再由池化隐层进行后续全连接操作得到结果。这些成熟的方法在数据充分的情况下有很高的准确率。对于小样本学习,近年来也提出过很多不同的方案,比如对比学习,孪生网络,数据增强等框架。基本分为两大类:第一类是对于原始数据加以扰乱和替换,在金融语料中举例,改变金融主语的词缀就是一个很好的例子。第二类是根据已有数据进行生成和判别,比如用GAN的结构,生成假金融语料,再用判别器判别真伪,从而在训练中得到一个很好的文本生成器。
除了经典的语言类深度学习的方法,在金融上还常用一些‘金融理论逻辑’做知识图谱,去预先给定一部分信息和结构的先验知识,再根据这些先验知识去丰富网络结构或者生成新的数据的方式去提高模型的性能。这种方法对于外部信息的依赖程度很高,极其依赖外部信息的准确性和丰富性。
数据增强的做法,本质在于不影响数据分布的前提下,加大已有数据的泛用性,并不影响数据的原始分布。然而在小样本学习的大前提下,测试集合实际情况比较严苛,可能完全不同于训练集的分布,对模型的泛化程度要求极高,通常的数据增强或生成判别方法很难达到泛化性目标。
对于金融语料而言,不同机构的分类任务和目标之间的差异可能很大,一般的规则梳理和先验知识很难做到全面涵盖。准确性和丰富性的要求使得能够泛用的规则数量十分有限。且规则需要专家的细致梳理,成本和回报产出之间的不对等会影响具体工程的落地,诸多限制下,规则和外部知识让任务变得难以开展和维护。
因此现有的金融文本分类方法,需要大量的先验知识,在标注数量较少情况下,数据分类效果较差。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明提供了一种基于提示模板的金融文本分类方法、装置及电子设备,旨在解决现有技术中金融文本分类方法,需要大量的先验知识,在标注数量较少情况下,数据分类效果较差的问题。
本发明的技术方案如下:
本发明第一实施例提供了一种基于提示模板的金融文本分类方法,方法包括:
获取原始的金融语料,将金融语料转化为基于提示模板的MLM标签;
对MLM标签进行转换,生成MLM标签训练样本;
构建预训练模型,将MLM标签训练样本输入预训练模型,对预训练模型进行训练,生成金融文本分类模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京快确信息科技有限公司,未经北京快确信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210280524.5/2.html,转载请声明来源钻瓜专利网。