[发明专利]问答模型的训练方法、问答处理方法、装置及存储介质在审
申请号: | 202310065730.9 | 申请日: | 2023-01-13 |
公开(公告)号: | CN116257611A | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 庞超;王硕寰;朱鹏飞;孙宇;李芝 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F18/214;G06N20/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 刘海莲 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问答 模型 训练 方法 处理 装置 存储 介质 | ||
本公开公开了一种问答模型的训练方法、问答处理方法及装置,涉及人工智能领域,尤其涉及自然语言处理、深度学习技术领域。具体实现方案为:获取训练数据集;利用训练数据集中的训练数据对预设问答模型中的预设检索网络进行训练,以得到目标检索网络;利用目标检索网络输出训练数据的候选答案向量集和训练向量;利用训练数据的候选答案向量集,训练向量和/或训练数据对预设问答模型中的预设生成网络进行训练,以得到目标生成网络;基于目标检索网络和目标生成网络,以得到目标问答模型。本公开实施例的目标问答模型适用范围较广,且目标检索网络和目标生成网络与行业数据解耦,均只需训练一次即可,无需重新训练,降低了模型训练成本。
技术领域
本公开涉及人工智能领域,尤其涉及自然语言处理、深度学习技术领域。
背景技术
随着深度学习的发展,问答模型得到了广泛应用。其中,问答模型可以通过海量的训练数据进行训练,使得问答模型捕获多种多样的知识,进而使得问答模型可以在下游任务上获得较好的效果。但是,不同行业对应的知识不同,因此需要通用适用于各个行业的问答模型,以使得问答模型的适用范围更加广泛。
现有技术中,问答模型通过人工收集大量某个行业的无监督文本数据,问答模型通过在该数据上的语言模型任务学习该数据中的行业知识,并训练好的问答模型应用到该行业的下游任务中去。但是,相关技术中的训练数据仅为该行业的无监督文本数据,数据来源单一,使得问答模型仅可以分析无监督文本数据,适用范围局限,并且问答模型需要针对不同行业进行重新训练,以及有新的行业知识时问答模型同样需要进行重新训练,增加了模型训练成本。
发明内容
本公开提供了一种问答模型的训练方法、问答处理方法、装置及存储介质。
根据本公开的一方面,提供了一种问答模型的训练方法,所述方法包括:获取训练数据集;利用所述训练数据集中的训练数据对预设问答模型中的预设检索网络进行训练,以得到目标检索网络;利用所述目标检索网络输出所述训练数据的候选答案向量集和训练向量;利用所述训练数据的候选答案向量集,所述训练向量和/或所述训练数据对所述预设问答模型中的预设生成网络进行训练,以得到目标生成网络;基于所述目标检索网络和所述目标生成网络,以得到目标问答模型。
根据本公开的另一方面,提供了一种问答处理方法,所述方法包括:获取需要回答的问题数据;将所述问题数据输入目标问答模型中的目标检索网络,以生成所述问题数据对应的问题向量和候选答案向量集;将所述问题数据和/或所述问题向量,和所述候选答案向量集输入所述目标问答模型中的目标生成网络,以生成所述问题数据的目标答案。
根据本公开的另一方面,提供了一种问答模型的训练装置,包括:获取模块,用于获取训练数据集;第一训练模块,用于利用所述训练数据集中的训练数据对预设问答模型中的预设检索网络进行训练,以得到目标检索网络;输出模块,用于利用所述目标检索网络输出所述训练数据的候选答案向量集和训练向量;第二训练模块,用于利用所述训练数据的候选答案向量集,所述训练向量和/或所述训练数据对所述预设问答模型中的预设生成网络进行训练,以得到目标生成网络;构建模块,用于基于所述目标检索网络和所述目标生成网络,以得到目标问答模型。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少个处理器执行,以使所述至少一个处理器能够执行本公开的问答模型的训练方法和问答处理方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开的问答模型的训练方法和问答处理方法。
根据本公开的另一方面,提供了一种计算机程序产品,所述计算机程序被处理器执行时实现本公开的问答模型的训练方法和问答处理方法。
本公开相比于现有技术具备以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310065730.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:面部认证服务器装置、登记处理方法及程序
- 下一篇:一种预钻铁口眼的作业方法