[发明专利]文本处理模型的训练方法、装置、电子设备及存储介质在审
申请号: | 202110037861.7 | 申请日: | 2021-01-12 |
公开(公告)号: | CN113408284A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 刘志强;刘源;邓浩辉;张金超 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/205 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁;张海秀 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 模型 训练 方法 装置 电子设备 存储 介质 | ||
本申请实施例提供了一种文本处理模型的训练方法、装置、电子设备及存储介质,涉及云技术及人工智能技术领域。该文本处理模型的训练方法包括:构建包括第一文本处理模型和第二文本处理模型的初始神经网络模型,采用第一训练数据集、与第一训练数据集不同领域的第二训练数据集,对第一文本处理模型和第二文本处理模型进行联合训练,直至满足预设的训练结束条件,从而得到满足要求的文本处理模型。通过联合训练可以实现对第一文本处理模型的辅助训练,而且,采用不同领域的训练数据集,有助于文本处理模型的领域扩展,提高模型处理不同领域数据的准确率。
技术领域
本申请涉及云技术及人工智能技术领域,具体而言,本申请涉及一种文本处理模型的训练方法、装置、电子设备及存储介质。
背景技术
文本处理技术是目前工业界在自然语言处理中普遍使用的技术,通过文本处理模型,根据应用场景以及实际处理任务的不同,对文本数据进行相应的处理。其中,文本处理可以包括文本匹配、文本分类、文本生成等。现有技术中,对于训练好的文本处理模型,该模型的处理性能主要限于该模型的训练数据所属的领域,在对扩展领域的文本进行处理时,文本处理的效果通常不够理想。
发明内容
本申请实施例提供了一种文本处理模型的训练方法、装置、电子设备及存储介质,基于该方案,能够有效提高文本匹配模型在扩展领域的文本匹配效果。
为实现上述目的,本申请实施例提供的具体技术方案如下:
一方面,本申请实施例提供了一种文本处理模型的训练方法,该方法包括:
构建初始神经网络模型,初始神经网络模型包括第一文本处理模型和第二文本处理模型,其中,第一文本处理模型包括级联的文本特征提取模块和结果预测模块,第二文本处理模型与文本特征提取模块的输出相连接,第二文本处理模型包括掩码语言模型或命名实体识别模型中的至少一项;
获取对应于第一文本处理模型的第一训练数据集、以及对应于第二文本处理模型的第二训练数据集,其中,第一训练数据集与第二训练数据集属于不同领域;
基于第一训练数据集和第二训练数据集,对初始神经网络模型进行训练,直至满足预设的训练结束条件,将训练结束时的第一文本处理模型作为最终的文本处理模型。
另一方面,本发明实施例还提供了一种文本处理方法,该方法包括:
获取待处理文本;
将待处理文本输入至文本处理模型,得到处理结果;
基于处理结果,进行相应的处理;
其中,文本处理模型是基于第一方面的任一种实现方式的方法训练得到的。
本发明实施例还提供了一种文本处理模型的训练装置,该装置包括:
模型构建模块,用于构建初始神经网络模型,初始神经网络模型包括第一文本处理模型和第二文本处理模型,其中,第一文本处理模型包括级联的文本特征提取模块和结果预测模块,第二文本处理模型与文本特征提取模块的输出相连接,第二文本处理模型包括掩码语言模型或命名实体识别模型中的至少一项;
数据获取模块,用于获取对应于第一文本处理模型的第一训练数据集、以及对应于第二文本处理模型的第二训练数据集,其中,第一训练数据集是与第二训练数据集属于不同领域;
模型训练模块,用于基于第一训练数据集和第二训练数据集,对初始神经网络模型进行训练,直至满足预设的训练结束条件,将训练结束时的第一文本处理模型作为最终的文本处理模型。
本发明实施例还提供了一种文本处理装置,该装置包括:
文本获取模块,用于获取待处理文本;
模型处理模块,用于将待处理文本输入至文本处理模型,得到处理结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110037861.7/2.html,转载请声明来源钻瓜专利网。