[发明专利]一种基于GPT网络模型的中文问题重写方法在审
申请号: | 202211603685.X | 申请日: | 2022-12-14 |
公开(公告)号: | CN116011425A | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 张峻崎;曹肖攀;陈先磊;吴磊;赵凯文;赵俊容 | 申请(专利权)人: | 中电万维信息技术有限责任公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/289;G06F18/214;G06N3/0464 |
代理公司: | 兰州嘉诺知识产权代理事务所(普通合伙) 62202 | 代理人: | 郭海 |
地址: | 730000 甘肃省兰州市城关*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 gpt 网络 模型 中文 问题 重写 方法 | ||
本发明属于自然语言处理技术领域,具体涉及一种基于GPT网络模型的中文问题重写方法。在智能问答中,当训练集话术语料少时,模型泛化性效果较差,此时需要人工添加中文问题的相似问题,即话术,用于扩增话术语料,来提高模型的泛化性,使得在智能问答任务中能够取得较好的效果。本文提出了一种中文问题重写方案,非常适用于在智能问答场景中,来对数据集进行生成式文本扩增,从而提升问答效果、降低人工添加话术的成本。本发明实现了基于GPT模型的中文问题重写技术方案,降低了智能问答中人工添加话术的人力成本。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于GPT网络模型的中文问题重写方法。
背景技术
在智能客服运行中,特别是在具体单独任务执行中,一般获得的训练数据都很匮乏,当训练集语料较少时,通过少样本训练得到的模型很难达到预期效果,急需一种中文问题重写方案,可以有效地为少样本数据集进行扩充,使模型能够在更多的数据上得到较好的效果。以解决现有聊天机器人、智能客服中对话数据集及话术扩增,进而提升模型的效果。基于以上技术背景,本申请提出了一种基于GPT模型的中文问题重写技术方案。
发明内容
本发明实现了一种基于大数据集训练GPT模型的中文问题重写技术方案,充分利用了GPT网络模型本身简单,以及利用了深度学习端到端的特点。该发明的使用条件为:训练集中每条训练样本中的两个问题拼接后输入模型的最大长度不超过72。相比于传统的中文问题重写方案,本发明充分利用了GPT本身具有的文本生成的特性,将中文问题重写方案转换成端到端的文本生成任务,除了准备收集中文相似问题的平行语料,训练模型,推理模型,中间不需要任何人工干预操作。
一种基于GPT网络模型的中文问题重写方法,包括如下步骤:
S1.构造训练数据集
参考github开源项目公开的相似度匹配数据集构造训练数据集,挑选出中文文本数据集中两个文本相似的文本组合;中文问题匹配对放在一个train.txt文件中,每一行放置匹配的两个中文问题,中间用’sep’分开,对数据进行删除过滤操作,设定文本最大长度max_len为72,即删除总长度大于72的文本,同时交换文本匹配的两条数据顺序进行扩增两条训练样本,经过整理得到中文问题匹配训练数据集;
S2.建立词表
将步骤S1中得到的中文问题匹配训练数据所有字符去重后,建立词表序列,记为Dict,Dict的前项key为字符索引编号,Dict的后项value为具体的单个字符, Dict为{字符索引编号0:‘[CLS]’,1:’[PAD]’,2:’[SEP]’,.......},其中[CLS]为文本起始符,[PAD]代表当文本长度不够最大长度时,采用[PAD]填充到max_len长度,[SEP]为中文问题和该中文问题重写后的问题的分割符,max_len为步骤S1中所提及的每条文本数据最大长度;
S3.数据和模型适配
假如现在在步骤S1中得到的训练数据集中的某条文本样本记为列表A,本条文本不够最大长度72,则将列表A通过[PAD]填充到该文本最大长度72,然后通过字典Dict,映射成索引编号列表,进而变成输入GPT模型Tensor张量X,对应的Y输出为缺少起始符通过索引编号列表,变成Tensor张量,作为模型输出的优化目标Y,将训练数据集中的其它文本执行同样操作,得到整个输入数据和优化目标,作为后续模型的输入和优化目标;
S4.构建GPT网络模型结构
模型约定文本最大长度为72,嵌入维度为256,针对在步骤S3中模型输入的每条输入,先经过token_embedding、postional_embedding将文本进行嵌入表示,此时文本嵌入表示的矩阵形状为[72,256],将该文本嵌入表示输入到GPT网络模型,即:具有遮掩mask的多头注意力机制Multi_Head_Attention、前馈全连接神经网络Feed_forward作为一个单元,重复6次,即6层相同的网络,得到整体网络模型结构;
S5.训练模型
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电万维信息技术有限责任公司,未经中电万维信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211603685.X/2.html,转载请声明来源钻瓜专利网。