[发明专利]一种基于GPT模型的生化知识问答方法、系统及存储介质有效
申请号: | 202310958861.X | 申请日: | 2023-08-01 |
公开(公告)号: | CN116662523B | 公开(公告)日: | 2023-10-20 |
发明(设计)人: | 何加铭;郑韶伟;王家功;金錱 | 申请(专利权)人: | 宁波甬恒瑶瑶智能科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F16/951;G06F40/289;G06F40/242;G06F40/126 |
代理公司: | 苏州科权知识产权代理事务所(普通合伙) 32561 | 代理人: | 李雅 |
地址: | 315201 浙江省宁波市镇海区庄*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 gpt 模型 生化 知识 问答 方法 系统 存储 介质 | ||
本发明提供一种基于GPT模型的生化知识问答方法、系统及存储介质,涉及智能问答技术领域,包括:步骤S1,收集生化知识相关的语料,记为生化知识语料;建立若干成对的问答语料,将若干成对的问答语料记为生化知识问答语料库;步骤S2,将生化知识问答语料库中的文本数据进行分词并构建字典进行编码;步骤S3,构建生化问答模型;步骤S4,当生化问答模型通过测试时,将生化问答模型部署在服务器上,通过接口进行访问使用;本发明用于解决现有技术中通常是对问答系统中覆盖的问题数量以及涉及的领域数量进行改进,导致无法对生化领域的问答系统进行比较细致的改进的问题。
技术领域
本发明涉及智能问答技术领域,尤其涉及一种基于GPT模型的生化知识问答方法、系统及存储介质。
背景技术
GPT是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型,使用GPT可以将文本录入并根据需要的条件对模型进行训练;同时目前生成式问答系统主要基于ELMo、BERT、XLNet、Transformer、GPT等经典的深度学习算法来实现。这些预训练模型通过提高训练样本数量与质量、增加深度神经网络成熟的方式来对文本自动生成算法进行优化;
现有的基于GPT用于问答方面的改进通常是对问答系统中文本生成方面的改进,比如在申请公开号为:“CN115809322A”的发明专利中,公开了“一种基于GPT3的问答系统文本生成方法及装置”,该方案就是“通过该生成式问答系统,能够对答案库进行扩展,便于与用户进行无感交互,解决了现有业务知识库中业务问答对较多,但无法覆盖所有业务场景、无法覆盖用户问题的技术问题”,其他现有的问答系统通常是对问答系统中覆盖的问题数量以及涉及的领域数量进行改进,这会导致无法对某一领域的问答系统进行比较细致的改进,比如生物领域以及化学领域,鉴于此,有必要对现有的基于GPT模型的问答系统进行改进。
发明内容
针对现有技术存在的不足,本发明目的是提供一种基于GPT模型的生化知识问答方法、系统及存储介质,用于解决现有技术中通常是对问答系统中覆盖的问题数量以及涉及的领域数量进行改进,导致无法对生化领域的问答系统进行比较细致的改进的问题。
为了实现上述目的,第一方面,本发明提供一种基于GPT模型的生化知识问答方法,包括:
步骤S1,使用网络爬虫以及API下载从科学论文以及数据库中收集生化知识相关的语料,记为生化知识语料;
使用GPT基于生化知识语料生成问题语料,建立若干成对的问答语料,将若干成对的问答语料记为生化知识问答语料库;
步骤S2,将生化知识问答语料库中的文本数据进行分词并构建字典进行编码,将生化知识问答语料库中的文本数据记为数据集,将数据集划分为训练集、验证集以及测试集;
步骤S3,构建生化问答模型,使用生化问答模型对生化知识问答语料库内的文本数据进行模拟训练;
步骤S4,基于步骤S3中生化问答模型的模拟训练结果,判断生化训练模型是否通过测试,当生化问答模型通过测试时,将生化问答模型部署在服务器上,通过接口进行访问使用。
进一步地,所述步骤S1包括如下子步骤:
步骤S101,使用网络爬虫以及API下载在科学论文以及数据库中以生化知识为关键词搜索并获取生化知识相关的语料,记为生化基础语料;
步骤S102,对生化基础语料进行数据清洗;
步骤S103,对生化基础语料进行数据去噪;
步骤S104,对生化基础语料进行标准化处理;
步骤S105,将经过步骤S102、步骤S103以及步骤S104处理后的生化基础语料记为生化知识语料。
进一步地,所述步骤S101包括如下子步骤:
步骤S1011,将网络爬虫以及API下载在科学论文以及数据库中以生化知识为关键词搜索到的若干语料记为未处理语料;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波甬恒瑶瑶智能科技有限公司,未经宁波甬恒瑶瑶智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310958861.X/2.html,转载请声明来源钻瓜专利网。