[发明专利]基于Transformer模型的数据预测方法、装置、服务器及存储介质在审
申请号: | 202110603398.8 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113282707A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 陈庆伟 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/211;G06F40/216;G06F40/284 |
代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 张传义 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transformer 模型 数据 预测 方法 装置 服务器 存储 介质 | ||
本申请涉及人工智能,提供一种基于Transformer模型的数据预测方法、装置、服务器及存储介质,该方法包括:获取样本语句的多个字词的词向量组成的词向量矩阵,并调用包括自注意力层的Transformer模型;将词向量矩阵输入自注意力层,以根据词向量矩阵生成查询矩阵、键矩阵和值矩阵,并根据随机失活算法和词向量矩阵生成注意力矩阵,以及根据查询矩阵、键矩阵、值矩阵和注意力矩阵,确定多个字词之间的关注程度的概率分布矩阵;根据概率分布矩阵调整Transformer模型的模型参数,直至模型收敛;获取待预测的目标词向量矩阵,将目标词向量矩阵输入至收敛的Transformer模型进行处理,得到预测向量矩阵。能够提高模型泛化性能,并提高模型预测结果准确度。
技术领域
本申请涉及智能决策的技术领域,尤其涉及一种基于Transformer模型的数据预测方法、装置、服务器及存储介质。
背景技术
Transformer模型是一种NLP(自然语言处理)经典模型,现在比较火热的Bert模型也是基于Transformer模型建立的。Transformer模型完全基于注意力来编码输入和计算输出,而不依赖于序列对齐的循环神经网络或卷积神经网络,Transformer模型使用Self-Attention(自注意力)机制,而不采用RNN的顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。
然而,当前的Transformer模型可以很好地提取各个词向量间的语义信息,但也非常容易导致模型过拟合。例如句子中存在某个符合模型数据分布的特殊字符,可能导致Transformer模型学习到该特殊字符的信息而不是真正的语义信息,使得实际应用中模型泛化性能和预测准确度不高。目前还没有针对Attention结构防止过拟合的方法,因此,如何防止Transformer模型过拟合,从而提高Transformer模型预测结果的准确性成为了亟需解决的问题。
发明内容
本申请的主要目的在于提供一种基于Transformer模型的数据预测方法、装置、服务器及存储介质,旨在利用人工智能的深度学习来防止Transformer模型过拟合,提高模型泛化性能,从而使得模型预测结果更加准确。
第一方面,本申请提供一种基于Transformer模型的数据预测方法,包括:
获取样本语句的多个字词的词向量组成的词向量矩阵,并调用预设的Transformer模型,所述Transformer模型包括自注意力层;
将所述词向量矩阵输入至所述自注意力层,以使所述自注意力层根据所述词向量矩阵生成查询矩阵、键矩阵和值矩阵,并根据预设的随机失活算法和所述词向量矩阵生成注意力矩阵,以及根据所述查询矩阵、键矩阵、值矩阵和注意力矩阵,确定所述样本语句的多个字词之间的关注程度的概率分布矩阵;
根据所述概率分布矩阵调整所述Transformer模型的模型参数,直至所述Transformer模型收敛;
获取待预测的目标语句的词向量矩阵,将所述目标语句的词向量矩阵输入至收敛的所述Transformer模型进行处理,得到预测向量矩阵。
第二方面,本申请还提供一种数据预测装置,所述数据预测装置包括:
获取模块,用于获取样本语句的多个字词的词向量组成的词向量矩阵,并调用预设的Transformer模型,所述Transformer模型包括自注意力层;
输入模块,用于将所述词向量矩阵输入至所述自注意力层,以使所述自注意力层根据所述词向量矩阵生成查询矩阵、键矩阵和值矩阵,并根据预设的随机失活算法和所述词向量矩阵生成注意力矩阵,以及根据所述查询矩阵、键矩阵、值矩阵和注意力矩阵,确定所述样本语句的多个字词之间的关注程度的概率分布矩阵;
调整模块,用于根据所述概率分布矩阵调整所述Transformer模型的模型参数,直至所述Transformer模型收敛;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110603398.8/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置