[发明专利]文本分类模型的训练方法、装置、计算机设备和存储介质在审
申请号: | 202010621817.6 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111767400A | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 于溦 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 训练 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及人工智能技术领域,提供文本分类模型的训练方法、装置、计算机设备和存储介质,选取预设数量的目标类别;针对每个目标类别,从训练集中随机抽取多个训练样本组成支持集;输入至文本分类模型中,提取对应的类向量;将训练集中除支持集之外的样本组成查询集,输入至文本分类模型中,提取对应的查询向量;计算查询向量与类向量之间的距离,并基于距离计算得到训练样本的类别与查询样本的类别之间的关系得分模型;训练文本分类模型以及关系得分模型。本申请只需少量的训练样本,训练得到文本分类模型以及关系得分模型后,可用于所有类别的文本分类,对于未知类别也具有分类能力。本申请还可将各模型存储于区块链中,应用于区块链领域。
技术领域
本申请涉及人工智能技术领域,特别涉及一种文本分类模型的训练方法、装置、计算机设备和存储介质。
背景技术
文本分类在法律领域里是一个很常见的任务,其包括法律文本的自动分类,文本进行分类后可以提高归档效率和后期利用率;还包括法律文本中法律论证的自动总结分类,法律决策建立在法律论证之上,而法律论证埋藏在法律文本之中。
目前大多数法律文件以电子形式提交,对于这些电子文件自动分类的方法,包括了基于传统机器学习的方法,如TF-IDF做特征加分类器;还有基于深度学习的方法,如TextCNN、TextRNN等。但目前文本分类的方法都面临着两个难题:一是对于一般基于深度学习的模型,需要大量标注好的数据来喂给分类模型进行训练,对于样本不足的情况,分类模型难以满足需求;二是对于新出现的类别,分类模型无法进行分类。
发明内容
本申请的主要目的为提供一种文本分类模型的训练方法、装置、计算机设备和存储介质,克服目前需要大量样本进行模型训练以及无法对新出现的类别进行分类的缺陷。
为实现上述目的,本申请提供了一种文本分类模型的训练方法,包括以下步骤:
接收到训练指令时,从业务领域中的文本对应的分类类别中选取预设数量的目标类别;
针对每个所述目标类别,分别从训练集中随机抽取多个训练样本组成支持集;
将所述支持集中的每个训练样本输入至文本分类模型中,提取所述训练样本的类别所对应的类向量;其中,所述文本分类模型包括双向LSTM模型以及attention机制;
将所述训练集中除支持集之外的样本组成查询集,并将所述查询集中的每个查询样本输入至所述文本分类模型中,提取每个所述查询样本对应的查询向量;
计算每个所述查询向量与每个所述训练样本的类别所对应的类向量之间的距离,并基于所述距离计算得到所述训练样本的类别与所述查询样本的类别之间的关系得分模型;
使用均方误差作为损失函数训练所述文本分类模型以及所述关系得分模型。
进一步地,所述提取所述训练样本的类别所对应的类向量的步骤,包括:
基于所述双向LSTM模型,提取所述训练样本对应的隐藏状态序列;
基于所述attention机制,对所述训练样本对应的隐藏状态序列进行self-attention处理,得到所述训练样本对应的表征向量;
基于动态路由方法,构建所述训练样本的表征向量对应的类向量,作为所述训练样本的类别所对应的类向量。
进一步地,所述基于动态路由方法,构建所述表征向量对应的类向量的步骤,包括:
获取所有类别共享的随机初始化矩阵,并基于所述随机初始化矩阵对每个所述表征向量进行仿射变换;
对所述表征向量的动态路由值进行归一化处理,并基于所述动态路由值,对仿射变换后的每个所述表征向量进行加权求和,得到每个类别的表征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010621817.6/2.html,转载请声明来源钻瓜专利网。