[发明专利]一种建立短文本多层级分类模型的方法和系统在审
申请号: | 202111636972.6 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114579737A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 王亚平;林文辉;王志刚;马兰;李瑞祥;伺彦伟;祁洪波 | 申请(专利权)人: | 航天信息股份有限公司;河北航天信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 刘海蓉 |
地址: | 100195 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 建立 文本 多层 分类 模型 方法 系统 | ||
本发明实施例公开了一种建立短文本多层级分类模型的方法和系统,所述方法包括:对同一份短文本数据集,按照设置的不同层级的短文本类别标签进行标注后生成的不同层级的标注数据集,并将其作为输入,对基于公开的预训练模型Bert base后接全连接层建立的分类模型分层级进行训练,生成不同层级的分类模型,并在训练下一层级分类模型时,将上一层级经过微调的预训练模型Bert base的部分训练参数迁移到下一层级初始预训练模型Bert base的对应部分,最后将生成的多层级的分类模型进行组合生成最终的分类模型。所述方法和系统可有效扩增每种类别下的数据总量,解决模型训练的数据稀疏度问题;并对低层级的分类学习,通过迁移高层级分类模型的通用参数提升训练效果。
技术领域
本发明涉及文本分类领域,尤其是一种建立短文本多层级分类模型的方法和系统。
背景技术
近年来,随着在线社交网络应用的爆炸式增长,短文本分类技术得到了广泛的研究,如微博、聊天信息、新闻主题、观点评论、问题文本、手机短信、文献摘要等。相较于长文本,短文本缺乏主题性,解决的方式可以从文本库、专业词典以及同义词典提取的知识扩展短文本信息,然而由于专业词典以及同义词典的领域独立性,导致外部知识的数据分布与某些特殊领域收集的测试数据分布差异较大,从而影响分类的整体性能。随着深度学习技术的发展,一些深度网络模型在短文本分类应用中取得了较好的结果,如TextCNN,LSTM等,但目前主流的网络模型并没有考虑文本所属类别的层次性,如“猫”,“狗”属于动物,“兰花”,“菊花”属于植物,若简单的忽略高层级类别(动物,植物),网络只学习最底层的类别分类任务,会出现将“动物”预测为“植物”的高层级跨类别错误,且面临类别多导致的数据稀疏问题,从而降低网络预测精度。
发明内容
为了解决现有技术中对短文本分类只学习最底层的类别分类任务,会出现高层级跨类别错误,并且因面临类别过多导致的数据稀疏等问题,本发明的实施例提供了一种建立短文本多层级分类模型的方法和系统。
根据本发明实施例的一个方面,提供了一种建立短文本多层级分类模型的方法,所述方法包括:
步骤101、获取第一层级标注数据集,其中,所述第一层级标注数据集是按照预先设置的第一层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集;
步骤102、将第一层级标注数据集输入初始第一层级分类模型进行模型训练,生成最优第一层级分类模型,其中,所述初始第一层级分类模型是公开的预训练模型Bert base后接初始第一层级全连接层,所述最优第一层级分类模型是最优第一层级预训练模型Bertbase后接最优第一层级全连接层,所述最优第一层级预训练模型Bert base是对公开的预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第一层级全连接层是对初始第一层级全连接层调整参数后得到的全连接层;
步骤103、获取第二层级标注数据集,其中,所述第二层级标注数据集是是按照预先设置的第二层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集;
步骤104、将第二层级标注数据集输入初始第二层级分类模型进行模型训练,生成最优第二层级分类模型,其中,所述初始第二层级分类模型是初始第二层级预训练模型Bert base后接初始第二层级全连接层,所述初始第二层级预训练模型Bert base是将最优第一层级预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Bert base,最优第二层级分类模型是最优第二预训练模型Bertbase后接最优第二全连接层,所述最优第二层级预训练模型Bert base是对初始第二层级预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第二层级全连接层是对初始第二层级全连接层调整参数后得到的全连接层,N为自然数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司;河北航天信息技术有限公司,未经航天信息股份有限公司;河北航天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111636972.6/2.html,转载请声明来源钻瓜专利网。