[发明专利]一种基于图注意力的半结构文本分类方案在审
申请号: | 202110415787.8 | 申请日: | 2021-04-19 |
公开(公告)号: | CN113312477A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 周靖宇;黄嘉鑫;景泳霖;袁阳平;邹鸿岳 | 申请(专利权)人: | 上海快确信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 深圳华屹智林知识产权代理事务所(普通合伙) 44785 | 代理人: | 陈裕恒 |
地址: | 201700 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 结构 文本 分类 方案 | ||
一种基于图注意力的半结构文本分类方案,它包含以下技术方案步骤:步骤一,文本预处理、数据清洗,形成图矩阵;步骤二,形成编码层,采用albert预训练模型获取embedding矩阵;步骤三,对embedding矩阵进行attention操作,并基于图矩阵进行加权计算;步骤四,对特征向量矩阵压缩后进行文本分类。针对金融领域文本分类问题,尤其是在半结构化的文本的情况下,寻常的分类器无法结合结构化信息进行识别,给出一种提取结构信息并且融入到分类系统中,对最终的分类器准确率提升是行之有效的,同时针对模型结构,尤其是取末尾几层transformer、跨句间结构权重比同句内更高、multi‑headattention等步骤,大大提高了信息表征抽取的能力,从而增加最后softmax分类的准确率,具有较大的市场推广价值。
技术领域
本发明涉及文本分类技术领域,具体涉及一种基于图注意力的半结构文本分类方案。
背景技术
在自然语言处理中,文本的分类是一个比较成熟也比较常见的文本处理任务。常见的有文本的标签分类,情感分类等任务,在训练样本充分的情况下,当前的这些任务都能取得比较好的效果,在一些私有领域(如金融领域),存在一类比较特殊的文本数据信息,它主要由大量的数字构成,并且根据一定的排列顺序来区分不同的数据类型,如图1、图2所示,图1是二级现券成交信息,图2是一级投标信息,判断它们不仅需要依赖文字信息,还需要考虑它们的结构信息,在各种文本处理的任务中,需要对这类数据进行分类。专业人员根据文字信息,以及它们的排列结构信息来判断一段文本的类别。因此如何构建既考虑文本信息,又考虑文本排列的结构信息,这对现有的分类算法来说,是一个难点问题。
关于文本分类的任务,有一系列的算法模型,如Fasttext,textcnn和textrnn等,以及随着预训练模型的发展,衍生的一系列基于bert的分类模型,融合attention机制的textcnn+attention,textrnn+attention等等,这些模型能够比较好地解决通用域的一些文本分类问题,针对金融领域的文本语料,很大一部分是如上描述的半结构文本数据,当前的处理技术主要有两种,一是基于“关键词+规则引擎”的技术,根据关键词判别或其余的说辞方式区分所属的不同业务。二是采用以上提到的NLP领域常见的文本分类算法模型,如Bert+的分类模型,需要考虑计算性能的则采用FastText、TextCNN等模型,针对带有结构信息,或者需要依赖结构信息来进行判断的分类任务;两种方法都有一定的局限性,首先基于关键词+规则引擎的方案,需要行业专家提供经验并整合起来,一般在比较理想化的语料中会处理得比较好,在应对实际线上业务数据就会捉襟见肘,要么是规则冲突要么是考虑不周,而且规则堆积之后维护成本极高,且运行效率也会越来越低;其次,基于深度学习的文本分类算法,目前的方案都没有将“结构信息”融合进模型的学习中,虽然基于Bert+的一些预训练模型,能够学习到字符的位置信息,但是仍然不能有效的学习到结构特征,在区分闲聊等语料和业务语料(一级投标、二级现券成交等)数据的时候效果很不错,但是针对相似度比较高的半结构化文本(一级投标和二级现券成交等)的分类时,效果会明显下降很多。
现有方案均没有很好得利用数据内部的结构化信息,因此,若可以将此部分的信息融入到判断方案里头,理应会得到不错的提升。
发明内容
本发明的目的在于针对现有技术的缺陷和不足,提供一种基于图注意力的半结构文本分类方案,以解决上述背景技术中提出的问题,本发明针对金融领域文本分类问题,尤其是在半结构化的文本的情况下,寻常的分类器无法结合结构化信息进行识别,给出一种提取结构信息并且融入到分类系统中,对最终的分类器准确率提升是行之有效的,同时针对模型结构,尤其是取末尾几层transformer、跨句间结构权重比同句内更高、multi-headattention等步骤,大大提高了信息表征抽取的能力,从而增加最后softmax分类的准确率,具有较大的市场推广价值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海快确信息科技有限公司,未经上海快确信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110415787.8/2.html,转载请声明来源钻瓜专利网。