[发明专利]文本分类的融合分类器的训练方法及设备有效
申请号: | 201910337468.2 | 申请日: | 2019-04-25 |
公开(公告)号: | CN110245227B | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 周凯敏;舒畅;李竹桥;陆晨昱;郑思璇;朱婷婷;李先云;刘尧 | 申请(专利权)人: | 义语智能科技(广州)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 上海百一领御专利代理事务所(普通合伙) 31243 | 代理人: | 王奎宇;甘章乖 |
地址: | 511458 广东省广州市南沙区丰泽东路106*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的目的是提供一种文本分类的融合分类器的训练方法及设备,本发明采用大量的普通自然语言文本数据和未标注的分类文本领域数据,结合半监督学习的方式扩充标注数据,最后以深度学习的模型将多个文本分类器融合,从而使得分类能在实际应用中取得更高的准确率。 | ||
搜索关键词: | 文本 分类 融合 训练 方法 设备 | ||
【主权项】:
1.一种文本分类的融合分类器的训练方法,其中,该方法包括:步骤S1,获取一个大规模的文本语料库A,包括:一个已标记的文本分类训练集a1,一个已标记的文本分类验证集a2和一个未标记的文本分类数据集a3;步骤S2,用所述未标记的文本分类数据集a3训练自然语言表示模块;步骤S3,设置一系列待训练的文本分类器,将所述已标记的文本分类训练集a1经过所述自然语言表示模块,得到对应的文本的数值矩阵表示L1,将所述文本的数值矩阵表示L1输入各个待训练的文本分类器,以得到各个训练后的文本分类器,其中,每个训练后的文本分类器由所述文本的数值矩阵表示L1的输入,得到对应的各个文本分类器的分类结果R1;步骤S4,以所述已标记的文本分类验证集a2评估各个训练后的文本分类器的准确率,根据所述准确率的评估结果从各个训练后的文本分类器中筛选出M个文本分类器,其中,M为正整数;步骤S5,将所述已标记的文本分类验证集a2经过所述自然语言表示模块,得到对应的文本的数值矩阵表示L2,将所述文本的数值矩阵表示L2输入这M个文本分类器,得到对应的各个文本分类器的分类结果R2,将所述分类结果R2输入一个融合深度神经网络,并以所述分类结果R2为标注调整该融合深度神经网络,从而完成文本分类器的融合,得到融合后的文本分类器;步骤S6,判断所述融合后的文本分类器的准确率是否达到预设阈值,若是,步骤S7,将当前得到的融合后的文本分类器作为最终的融合分类器。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于义语智能科技(广州)有限公司,未经义语智能科技(广州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910337468.2/,转载请声明来源钻瓜专利网。
- 上一篇:企业行业分类方法及其装置
- 下一篇:确定文本类别的方法和装置