[发明专利]用于获取文本分类模型的方法、用于文本分类的方法、装置及设备在审
申请号: | 202110123014.2 | 申请日: | 2021-01-29 |
公开(公告)号: | CN112800226A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 王硕;徐凯波;付骁弈;杨康;徐成国 | 申请(专利权)人: | 上海明略人工智能(集团)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/194;G06F40/216 |
代理公司: | 北京康盛知识产权代理有限公司 11331 | 代理人: | 陶俊洁 |
地址: | 200000 上海市徐汇区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 获取 文本 分类 模型 方法 装置 设备 | ||
1.一种用于获取文本分类模型的方法,其特征在于,包括:
获取样本文本;
获取所述样本文本对应的文本类型关键词和所述样本文本对应的文本关键词;
获取所述文本类型关键词和所述文本关键词的第一相似度;
根据所述第一相似度为所述样本文本生成伪标签;
利用带有所述伪标签的样本文本对预设的神经网络模型进行训练,获得文本分类模型。
2.根据权利要求1所述的方法,其特征在于,获取所述样本文本对应的文本类型关键词,包括:
获取所述样本文本对应的文本类型备选词;
根据所述文本类型备选词获取所述样本文本对应的文本类型关键词。
3.根据权利要求2所述的方法,其特征在于,根据所述文本类型备选词获取所述样本文本对应的文本类型关键词,包括:
对所述文本类型备选词进行扩展,获得文本类型词集合;
在所述文本类型词集合中确定出所述样本文本对应的文本类型关键词。
4.根据权利要求3所述的方法,其特征在于,对所述文本类型备选词进行扩展,获得文本类型词集合,包括:
获取所述文本类型备选词的语义;
根据所述语义对所述文本类型备选词进行扩展,获得文本类型词集合。
5.根据权利要求3所述的方法,其特征在于,在所述文本类型词集合中确定出所述样本文本对应的文本类型关键词,包括:
将所述文本类型词集合中满足第二预设条件的词确定为所述样本文本对应的文本类型关键词。
6.根据权利要求1所述的方法,其特征在于,根据所述第一相似度为所述样本文本生成伪标签,包括:
获取所述文本类型关键词在所述样本文本中的第一词频;
根据所述第一词频和所述第一相似度进行计算,获得计算结果;
将满足第一预设条件的计算结果所对应的文本类型关键词确定为所述样本文本的伪标签。
7.根据权利要求1至6任一项所述的方法,其特征在于,获得文本分类模型后,还包括:
获取测试文本,将所述测试文本输入所述文本分类模型,获得所述测试文本的第一分类结果;
将满足第三预设条件的第一分类结果所对应的测试文本确定为训练文本,利用所述训练文本及其对应的第二文本类别关键词对所述文本分类模型进行训练。
8.一种用于文本分类的方法,其特征在于,包括:
获取待分类文本;
将所述待分类文本输入如权利要求1至7任一项所述的文本分类模型,获得所述待分类文本的第二分类结果。
9.一种用于获取文本分类模型的装置,包括第一处理器和存储有程序指令的第一存储器,其特征在于,所述第一处理器被配置为在执行所述程序指令时,执行如权利要求1至7任一项所述的用于获取文本分类模型的方法。
10.一种用于文本分类的装置,包括第二处理器和存储有程序指令的第二存储器,其特征在于,所述第二处理器被配置为在执行所述程序指令时,执行如权利要求8所述的用于文本分类的方法。
11.一种设备,其特征在于,包括如权利要求9所述的用于训练文本分类模型的装置。
12.一种设备,其特征在于,包括如权利要求10所述的用于文本分类的装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110123014.2/1.html,转载请声明来源钻瓜专利网。