[发明专利]文本分类方法及系统、电子设备、计算机可读存储介质有效
申请号: | 202010252774.9 | 申请日: | 2020-04-02 |
公开(公告)号: | CN111159414B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 罗镇权;刘世林;张发展;李焕;曾途 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/08;G06F40/117;G06F40/284 |
代理公司: | 北京市领专知识产权代理有限公司 11590 | 代理人: | 林辉轮 |
地址: | 610015 四川省成都市自由贸易试*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 系统 电子设备 计算机 可读 存储 介质 | ||
本发明涉及一种文本分类方法及系统、电子设备、计算机可读存储介质,该文本分类方法是增加BERT预训练模型的输入层并参与训练,并基于训练后得到的分类模型对待分类文本进行分类识别;增加的输入层为辅助分类识别的特征表示层。本发明通过增加BERT预训练模型的输入层的方式,增加了模型文本分类识别时的参考特征量,因此可以提高文本分类的准确性。另外,本发明没有对BERT预训练模型的结构进行改变,因此无需请求提供BERT预训练模型的谷歌公司等对BERT模型进行改进,即本发明方法并不受基础模型提供公司的限制,也不存在任何不便利性的问题。
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于BERT预训练模型的文本分类方法及系统、电子设备、计算机可读存储介质。
背景技术
文本分类任务是指在给定的分类体系中,将文本指定分到某个或某几个类别中。目前常用BERT (Bidirectional Encoder Representations from Transformers) 预训练模型进行文本分类。BERT是最近谷歌公司发布的基于双向Transformer的大规模预训练语言模型,该预训练模型能分别捕捉词语和句子级别的表示,高效抽取文本信息并应用于各种NLP任务。BERT预训练模型一般需要强大计算能力和大量的语料花费大量时间才能训练完成,所以一般由大型公司如谷歌公司等训练完成,其他用户只需要通过下载训练好的预训练模型微调(finetuning)使用,经过微调后,BERT直接取第一个[CLS]token的finalhidden state加一层权重后通过softmax预测各个类别标签的可能性,取可能性最高的标签作为分类标签,完成文本分类任务,且具有较高的准确率。也正是由于BERT的分类准确率较高,且只需要进行微调即可,因此BERT预训练模型成为了文本分类的首选。
发明内容
本发明的目的在于提供一种基于BERT预训练模型的文本分类方法及系统,可以进一步提高分类结果的准确性。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一方面,本发明实施例中提供了一种基于BERT预训练模型的文本分类方法,包括以下步骤:
收集各种文本类型的关键词,并构成关键词集;
对准备的文本语料的类别进行标注,以及基于关键词集对文本语料中的关键词进行标注;
以标注后的文本语料中的关键词为对象,对标注后的文本语料进行序列标注;
将关键词表示层作为BERT预训练模型新增的输入向量层,并对每个向量初始化赋值;
将处理后的文本语料送入BERT预训练模型进行微调,关键词表示层同时训练,得到训练好的分类模型以及关键词表示层的向量矩阵;
将待分类文本输入训练好的分类模型进行推理,以及将待分类文本中的关键词通过所述向量矩阵索引输入,输出得到分类结果。
一般地,文本分类使用的BERT预训练模型的输入层为3层,通过增加一层或多层输入层,增加的输入层也会参与训练,且增加的输入是辅助分类识别的特征,因此可以提高分类结果的准确性。不同文本类型都有相应的关键词,通过将关键词作为新增的输入层参与训练,学习不同类别的关键词的特点,模型在进行识别时即会引入关键词的信息,继而可以有效提高识别结果的准确性。
对标注后的文本语料进行序列标注时,采用BIEO标注法对文本语料进行序列标注。
另一方面,本发明实施例同时提供了一种基于BERT预训练模型的文本分类系统,包括文本分类装置和预下载的BERT预训练模型,所述文本分类装置包括:
关键词收集模块:收集各种文本类型的关键词,并构成关键词集;
人工标注模块:对准备的文本语料的类别进行标注,以及基于关键词集对文本语料中的关键词进行标注;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010252774.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种医用轮椅
- 下一篇:序列标注方法及系统、事件要素抽取方法及系统