[发明专利]一种文本分类方法和装置在审
申请号: | 202010542761.5 | 申请日: | 2020-06-15 |
公开(公告)号: | CN113761181A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 陈生泰;刘洋 | 申请(专利权)人: | 北京京东振世信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;韩黎捷 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 | ||
本发明公开了一种文本分类方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据第一系统的第一训练文本及所述第一训练文本的类别标签训练预设的初始分类模型,得到文本分类模型;根据所述第一训练文本及其类别标签、第二系统的第二训练文本训练所述文本分类模型,得到预测模型;将所述第二系统的预测样本输入所述预测模型,得到所述预测样本的类别标签。该实施方式能够降低文本分类的成本,缩短文本分类的时间。
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本分类方法和装置。
背景技术
在实际应用场景中,常常需要对用户反馈的文本进行分类,以确定用户反馈的问题所属的类别。目前,一般通过用户反馈的文本及其类别标签训练分类模型,利用训练后的分类模型预测文本所属的类别。
在系统升级的过程中,数据的风格会产生变化。对于同一类别的问题,在不同系统中可能存在不同的表述,例如,文本的长短和文本的用词发生变化。以第一系统升级至第二系统为例,为了适应系统的变化,现有技术对从第二系统中获取的文本进行标注,重新训练分类模型。
但是,由于需要标注大量的文本,现有技术对文本进行分类的成本较高,而且,需要花费较长的时间。
发明内容
有鉴于此,本发明实施例提供一种文本分类方法和装置,能够降低文本分类的成本,缩短文本分类的时间。
第一方面,本发明实施例提供了一种文本分类方法,包括:
根据第一系统的第一训练文本及所述第一训练文本的类别标签训练预设的初始分类模型,得到文本分类模型;
根据所述第一训练文本及其类别标签、第二系统的第二训练文本训练所述文本分类模型,得到预测模型;
将所述第二系统的预测样本输入所述预测模型,得到所述预测样本的类别标签。
可选地,
所述根据所述第一训练文本及其类别标签、第二系统的第二训练文本训练所述文本分类模型,得到预测模型,包括:
根据经过k-1次训练的文本分类模型,确定所述第二训练文本第k 次分类的类别标签;
根据所述第一训练文本及其类别标签、所述第二训练文本及第二训练文本第k次分类的类别标签训练经过k-1次训练的文本分类模型;
根据经过k次训练的文本分类模型,确定所述第二训练文本第k+1 次分类的类别标签;
确定第二训练文本第k次和第k+1次分类的类别标签是否满足预设的相似条件,如果是,确定经过k次训练的文本分类模型为所述预测模型,否则,将k更新为k+1后执行所述根据经过k-1次训练的文本分类模型,确定所述第二训练文本第k次分类的类别标签;
其中,k为大于0的整数。
可选地,
所述相似条件,包括:第二训练文本第k次和第k+1次分类的类别标签的重合率大于相似阈值。
可选地,
所述初始分类模型,包括:BERT(Bidirectional Encoder Representations fromTransformers,基于Transformer的双向编码器表征)模型和全连接层。
可选地,
进一步包括:
确定超参数;其中,所述超参数用于控制所述第一训练文本和所述第二训练文本对损失值的影响程度;
根据所述超参数,确定所述损失函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东振世信息技术有限公司,未经北京京东振世信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010542761.5/2.html,转载请声明来源钻瓜专利网。