[发明专利]基于注意力模型的语言输入关联性检测方法有效
申请号: | 201710501293.5 | 申请日: | 2017-06-27 |
公开(公告)号: | CN107358948B | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 俞凯;曹迪 | 申请(专利权)人: | 上海交通大学;苏州思必驰信息科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/18;G06F3/023 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 模型 语言 输入 关联性 检测 方法 | ||
1.一种基于注意力模型的语言输入关联性检测方法,其特征在于,包括:
步骤S1:采集训练语言模型所需的训练语料并进行预处理;
步骤S2:对语料中的每个词序列数据进行标注;
步骤S3:使用标注后的训练序列对语言模型中的循环神经网络进行训练,即以梯度回传的方式或批量随机梯度下降方式对语言模型中的循环神经网络的参数进行更新;
步骤S4:采用训练语料中所有数据集合对更新后的语言模型进行训练,当所得到的预测词的概率分布在验证集上是收敛时语言模型训练完成;
步骤S5:使用训练后的语言模型对输入句子进行评分,从而得到词之间的关系。
2.根据权利要求1所述的方法,其特征是,所述的预处理,具体包括以下步骤:
①使用预先设置好的词表,即相关领域所有已知词汇的集合,将语料中的词汇转换成其在词表中对应的数字序号;将语料中未出现在词表中的词汇替换成unk,并返回相应序号,即词序列数据;
②在语料集合的每个句子中,句首添加开始符号s,并在句尾添加结束符号/s;
③选取出语料集合5~15%的部分数据作为验证集,防止模型过拟合。
3.根据权利要求2所述的方法,其特征是,当语料中包含中文字符,收集的语料本身不包含空格,在未知词替换后,以词汇为单位,需要对语料进行分词,将一个句子以空格为分隔符,切成多个词汇片段。
4.根据权利要求1所述的方法,其特征是,对于语言模型,标注即是需要预测的下一个词语,句子中的词序列是w1,w2,...,wn-1,wn,则训练序列为w1,w2,...,wn-1,对应的标注序列为w2,...,wn-1,wn,n为预处理后每个句子的词序列总数。
5.根据权利要求1所述的方法,其特征是,所述的语言模型包括:词向量层、循环神经网络、注意力模块以及解码模块,其中:词向量层接受当前时刻的词序号输入,输出对应的词向量,循环神经网络和注意力模块分别接收当前时刻的词向量,注意力模块接收来自循环神经网络的前一时刻的隐层状态,存储所有历史词向量,根据隐层状态与历史词向量的关系得到辅助词向量并输出至循环神经网络,循环神经网络根据输入序列和辅助词向量得到当前时刻的隐层状态并输出至解码模块进行解码,最终得到所预测词的概率分布。
6.根据权利要求5所述的方法,其特征是,所述的辅助词向量,通过以下方式得到:
1)计算关系权重,该关系权重的激活函数为Tanh、sigmoid或relu函数;
2)计算辅助词权重然后根据加权平均和求出辅助词向量,其中:为i时刻的词向量对t时刻历史隐层的关系权重,exp为以e为底的指数函数,wi为i时刻的词向量。
7.根据权利要求6所述的方法,其特征是,所述的关系权重为计算,其中:vT为神经网络中待训练的参数向量,wi为i时刻的词向量,ht-1为t-1时刻的隐层向量,Tanh为激活函数,Ww为词向量对应的待训练矩阵参数,Wh为隐层对应的待训练矩阵参数,bv为偏置参数。
8.根据权利要求6所述的方法,其特征是,所述的关系权重其中w′t-1为上一时刻计算得到的辅助词向量,Ww,为上一时刻词向量对应的待训练矩阵参数,vT为神经网络中待训练的参数向量,wi为i时刻的词向量,ht-1为t-1时刻的隐层向量,Tanh为激活函数,Ww为词向量对应的待训练矩阵参数,wh为隐层对应的待训练矩阵参数,bv为偏置参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学;苏州思必驰信息科技有限公司,未经上海交通大学;苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710501293.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:说话人重识别方法及系统
- 下一篇:机器人发声自动调整系统