[发明专利]用于言语转换系统的分级编码器在审
申请号: | 202010597958.9 | 申请日: | 2020-06-28 |
公开(公告)号: | CN112233645A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 普纳杰·查克拉瓦蒂;丽莎·斯卡里亚;瑞恩·伯克;弗朗索瓦·沙雷特;普拉韦恩·纳拉亚南 | 申请(专利权)人: | 福特全球技术公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L25/30;G06N3/04 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 张涛;陈黎明 |
地址: | 美国密歇根*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 言语 转换 系统 分级 编码器 | ||
1.一种言语转换系统,其包括:
处理器;以及
存储器,所述存储器存储能由所述处理器执行的指令,所述指令包括:
使用第二递归神经网络(RNN)(GRU1)和从谱图得到的第一组编码器向量作为所述第二RNN的输入,确定第二级联序列;
通过将所述第二级联序列的堆叠高度加倍并且将长度减半来确定第二组编码器向量;
使用所述第二组编码器向量,确定第三组编码器向量;并且
使用注意力块对所述第三组编码器向量进行解码。
2.如权利要求1所述的系统,其中所述指令还包括,在确定所述第二级联序列之前:
使用第一RNN(GRU0)和多个预处理的编码器向量作为所述第一RNN的输入,确定第一级联序列;并且
通过将所述第一级联序列的堆叠高度加倍并将长度减半来确定所述第一组编码器向量。
3.如权利要求2所述的系统,其中所述第一和第二RNN是门控递归单元(GRU),并且每个都是双向传递。
4.如权利要求1所述的系统,其中所述处理器还使用第三RNN,其中所述第三RNN接收所述第二组编码器向量作为输入,并提供所述第三组编码器向量作为输出。
5.如权利要求4所述的系统,其中所述第三RNN是门控递归单元(GRU)并进行双向传递。
6.如权利要求1所述的系统,其中所述谱图是梅尔谱图。
7.如权利要求1所述的系统,其中所述谱图包括多个级联向量,其中所述谱图是言语话语的视觉表示。
8.如权利要求1所述的系统,其中所述指令还包括,在确定所述第二组编码向量之前:
基于所述输入并使用编码器预处理神经网络(PRENET)及卷积滤波器组和高速通道(CFBH)层,确定多个预处理的编码器向量;并且
使用第一RNN(GRU0)和所述多个预处理的编码器向量作为所述第一RNN的输入,确定所述第一组编码器向量。
9.如权利要求1所述的系统,其中所述指令还包括:在所述注意力块处,迭代地生成注意力上下文向量;并且提供所述注意力上下文向量。
10.如权利要求9所述的系统,其中所述指令还包括:通过将所述第三组编码器向量与先前最佳匹配向量进行比较,从所述第三组编码器向量中确定最佳匹配向量;并且为所述注意力块提供所述最佳匹配向量,以确定更新后的注意力上下文向量。
11.如权利要求1所述的系统,其中所述指令还包括:
在所述注意力块处:接收所述第三组编码向量中的一个作为输入;
在所述注意力块处:接收一组解码器隐藏向量中的至少一个作为输入;
在所述注意力块处:确定注意力上下文向量;以及
提供所述注意力上下文向量。
12.如权利要求1所述的系统,其中所述第三组编码向量是一组隐藏的编码器向量。
13.如权利要求1所述的系统,其中所述解码指令还包括:
通过在注意力递归神经网络(RNN)处接收第一组解码器向量作为输入,确定一组隐藏的解码器向量,其中所述第一组解码器向量中的至少一个包括注意力上下文向量与多个预处理的解码器向量中的至少一个的级联;
使用残差解码器堆叠和所述一组隐藏的解码器向量,确定一组解码器输出向量;
将所述一组解码器输出向量中的至少一个反馈为解码器预处理神经网络(PRENET)的输入;并且
使用所述解码器PRENET来确定和更新所述多个预处理的解码器向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福特全球技术公司,未经福特全球技术公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010597958.9/1.html,转载请声明来源钻瓜专利网。