[发明专利]使用机器学习模型确定与实时语音相对应的嘴部的运动在审
申请号: | 201910179536.7 | 申请日: | 2019-03-07 |
公开(公告)号: | CN110624247A | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | W·李;J·波波维克;D·阿尼加;D·西蒙斯 | 申请(专利权)人: | 奥多比公司 |
主分类号: | A63F13/822 | 分类号: | A63F13/822;G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 11256 北京市金杜律师事务所 | 代理人: | 酆迅;彭梦晔 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频序列 视位 训练数据集 视位序列 映射 句子 音频样本 应用访问 预测模型 时间戳 预测 音素 应用 讲话 创建 | ||
1.一种从音频序列预测视位的方法,所述方法包括:
访问第一训练数据集,所述第一训练数据集包括:
(i)表示由第一讲话者说出并且具有第一长度的句子的样本的第一音频序列,其中所述音频序列表示音素序列,以及
(ii)视位序列,其中每个视位被映射到所述第一音频序列的相应音频样本;
通过以下创建第二训练数据集:
访问表示由第二讲话者说出并且具有第二长度的相同句子的样本的第二音频序列,其中所述第二音频序列包括所述音素序列;
调节所述第二音频序列,使得(i)第二序列长度等于所述第一长度,并且(ii)至少一个音素出现在所述第一音频序列和所述第二音频序列中的相同时间戳处;
将所述视位序列映射到所述第二音频序列;以及
训练视位预测模型以从所述第一训练数据集和所述第二训练数据集预测视位序列。
2.根据权利要求1所述的方法,其中训练所述视位预测模型包括:
确定针对每个训练数据集的相应音频序列的每个样本的特征向量;
向所述视位预测模型提供所述特征向量;
从所述视位预测模型接收预测视位;
通过计算所述预测视位与预期视位之间的差异来计算损失函数;以及
调节所述视位预测模型的内部参数以最小化所述损失函数。
3.根据权利要求2所述的方法,其中所述特征向量包括:
针对所述多个语音样本的一组梅尔频率倒谱系数,
所述多个语音样本的平均能量的对数,以及
所述多个语音样本的第一时间导数。
4.根据权利要求1所述的方法,还包括:
访问与一时间段相对应的多个语音样本,其中所述语音样本的当前子集对应于当前时间段,并且所述语音样本的过去子集对应于过去时间段;
计算表示所述多个语音样本的特征向量;
通过将所述特征向量应用于被训练为从多个预定视位来预测视位的所述视位预测模型,来确定表示针对所述当前子集的语音的预测视位序列,其中所述预测基于所述过去子集和所述当前子集;以及
提供与所述预测视位序列相对应的可视化,其中提供所述可视化包括:
访问可视化列表,
将所述视位映射到列出的可视化,以及
将显示设备配置为显示所述列出的可视化。
5.根据权利要求4所述的方法,还包括:
将所述视位序列中的每个视位映射到帧速率;
确定所述视位序列中的特定视位与视频帧相对应;以及
从所述视位序列中移除所述特定视位。
6.根据权利要求4所述的方法,还包括:
将所述视位序列中的每个视位映射到帧速率;
将所述预测视位序列的输出延迟预定数目的帧;以及
响应于确定(i)当前帧包括特定视位并且(ii)后续帧和先前帧缺少所述特定视位,将所述先前帧的所述视位映射到所述当前帧。
7.根据权利要求4所述的方法,还包括:
将所述视位序列中的每个视位映射到帧速率;以及
根据所述帧速率在图形时间线上表示所述视位序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥多比公司,未经奥多比公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910179536.7/1.html,转载请声明来源钻瓜专利网。