[发明专利]基于Transformer模型的数据预测方法、装置、服务器及存储介质在审

专利信息
申请号: 202110603398.8 申请日: 2021-05-31
公开(公告)号: CN113282707A 公开(公告)日: 2021-08-20
发明(设计)人: 陈庆伟 申请(专利权)人: 平安国际智慧城市科技股份有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F40/211;G06F40/216;G06F40/284
代理公司: 深圳市力道知识产权代理事务所(普通合伙) 44507 代理人: 张传义
地址: 518000 广东省深圳市前海深港合*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 transformer 模型 数据 预测 方法 装置 服务器 存储 介质
【说明书】:

本申请涉及人工智能,提供一种基于Transformer模型的数据预测方法、装置、服务器及存储介质,该方法包括:获取样本语句的多个字词的词向量组成的词向量矩阵,并调用包括自注意力层的Transformer模型;将词向量矩阵输入自注意力层,以根据词向量矩阵生成查询矩阵、键矩阵和值矩阵,并根据随机失活算法和词向量矩阵生成注意力矩阵,以及根据查询矩阵、键矩阵、值矩阵和注意力矩阵,确定多个字词之间的关注程度的概率分布矩阵;根据概率分布矩阵调整Transformer模型的模型参数,直至模型收敛;获取待预测的目标词向量矩阵,将目标词向量矩阵输入至收敛的Transformer模型进行处理,得到预测向量矩阵。能够提高模型泛化性能,并提高模型预测结果准确度。

技术领域

本申请涉及智能决策的技术领域,尤其涉及一种基于Transformer模型的数据预测方法、装置、服务器及存储介质。

背景技术

Transformer模型是一种NLP(自然语言处理)经典模型,现在比较火热的Bert模型也是基于Transformer模型建立的。Transformer模型完全基于注意力来编码输入和计算输出,而不依赖于序列对齐的循环神经网络或卷积神经网络,Transformer模型使用Self-Attention(自注意力)机制,而不采用RNN的顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。

然而,当前的Transformer模型可以很好地提取各个词向量间的语义信息,但也非常容易导致模型过拟合。例如句子中存在某个符合模型数据分布的特殊字符,可能导致Transformer模型学习到该特殊字符的信息而不是真正的语义信息,使得实际应用中模型泛化性能和预测准确度不高。目前还没有针对Attention结构防止过拟合的方法,因此,如何防止Transformer模型过拟合,从而提高Transformer模型预测结果的准确性成为了亟需解决的问题。

发明内容

本申请的主要目的在于提供一种基于Transformer模型的数据预测方法、装置、服务器及存储介质,旨在利用人工智能的深度学习来防止Transformer模型过拟合,提高模型泛化性能,从而使得模型预测结果更加准确。

第一方面,本申请提供一种基于Transformer模型的数据预测方法,包括:

获取样本语句的多个字词的词向量组成的词向量矩阵,并调用预设的Transformer模型,所述Transformer模型包括自注意力层;

将所述词向量矩阵输入至所述自注意力层,以使所述自注意力层根据所述词向量矩阵生成查询矩阵、键矩阵和值矩阵,并根据预设的随机失活算法和所述词向量矩阵生成注意力矩阵,以及根据所述查询矩阵、键矩阵、值矩阵和注意力矩阵,确定所述样本语句的多个字词之间的关注程度的概率分布矩阵;

根据所述概率分布矩阵调整所述Transformer模型的模型参数,直至所述Transformer模型收敛;

获取待预测的目标语句的词向量矩阵,将所述目标语句的词向量矩阵输入至收敛的所述Transformer模型进行处理,得到预测向量矩阵。

第二方面,本申请还提供一种数据预测装置,所述数据预测装置包括:

获取模块,用于获取样本语句的多个字词的词向量组成的词向量矩阵,并调用预设的Transformer模型,所述Transformer模型包括自注意力层;

输入模块,用于将所述词向量矩阵输入至所述自注意力层,以使所述自注意力层根据所述词向量矩阵生成查询矩阵、键矩阵和值矩阵,并根据预设的随机失活算法和所述词向量矩阵生成注意力矩阵,以及根据所述查询矩阵、键矩阵、值矩阵和注意力矩阵,确定所述样本语句的多个字词之间的关注程度的概率分布矩阵;

调整模块,用于根据所述概率分布矩阵调整所述Transformer模型的模型参数,直至所述Transformer模型收敛;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110603398.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top