[发明专利]以声音特征为条件的声学模型在审
申请号: | 202110452098.4 | 申请日: | 2021-04-26 |
公开(公告)号: | CN113643693A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 高孜哲;莫轲文 | 申请(专利权)人: | 声音猎手公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/183;G10L15/26;G10L19/16 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 杨佳婧 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声音 特征 条件 声学 模型 | ||
1.一种推断话音音频中的音素概率的由计算机实现的方法,该方法包括:
从关键短语的第一话音片段编码第一声音嵌入以生成第一向量;
存储所述第一向量;
利用将以下各项作为输入的声学模型来推断所述音素概率:
在所述第一话音片段之后不久的第二话音片段;以及
存储的第一向量。
2.如权利要求1所述的方法,其中所述声学模型是在话音音频的标记样本上被训练的,每个样本具有对应的关键短语声音嵌入。
3.如权利要求2所述的方法,其中训练样本包括多种语音与多种噪声剖面相混合,所述关键短语声音嵌入是用与其对应的话音音频样本相同的混合噪声剖面来计算的。
4.如权利要求1所述的方法,其中所述编码使用与所述声学模型联合训练的编码器模型。
5.如权利要求1所述的方法,还包括:
从所述第一话音片段编码第二声音嵌入以生成第二向量;并且
存储第二向量,
其中所述声学模型将存储的第二向量作为另一输入。
6.一种计算机化的话音处理系统,能够:
接收完整关键短语的话音音频;
从所述关键短语的话音音频编码声音嵌入;并且
在接收到所述完整关键短语之后不久将所述声音嵌入存储在存储器设备中,
其中:
所述编码器模型是与其输出以所述声音嵌入为条件的声学模型联合训练的。
7.如权利要求6所述的设备,还能够:
在所述关键短语的话音片段之后不久接收未知短语的话语的话音音频;并且
通过网络将存储的声音嵌入和所述话语的话音音频传输到话音识别服务器。
8.如权利要求6所述的设备,还能够:
在所述关键短语的话音片段之后不久接收未知短语的话语的话音音频;并且
利用所述声学模型在所述话语的话音音频和所述声音嵌入上推断音素概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于声音猎手公司,未经声音猎手公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110452098.4/1.html,转载请声明来源钻瓜专利网。