[发明专利]用于生成语音样本的方法、装置、电子设备和介质有效
申请号: | 202010082923.1 | 申请日: | 2020-02-07 |
公开(公告)号: | CN111292766B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 蔡猛;梁镇麟 | 申请(专利权)人: | 抖音视界有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L15/06;G10L15/16;G10L15/07 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 王刚 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 生成 语音 样本 方法 装置 电子设备 介质 | ||
1.一种用于生成语音样本的方法,包括:
获取语音样本,其中,所述语音样本是通过如下步骤生成的:
获取初始样本语音的语音相关信息,所述语音相关信息包括所述初始样本语音的说话人信息和内容信息;
根据所述语音相关信息,获取第一候选语音和第二候选语音,其中,所述第一候选语音与所述初始样本语音的说话人信息相匹配且内容信息不匹配,所述第二候选语音与所述初始样本语音的说话人信息不匹配且内容信息不匹配;
从所述初始样本语音、所述第一候选语音和所述第二候选语音的各种组合中选择一种组合作为所述语音样本;
确定第一样本语音和第二样本语音之间的评分是否满足第一预设要求,其中,所述第一样本语音、所述第二样本语音和第三样本语音组成所述语音样本;所述第一样本语音、所述第二样本语音和第三样本语音是有顺序的;
响应于确定满足,确定所述第一样本语音和所述第三样本语音之间的评分是否满足第二预设要求;
响应于确定满足,确定所述语音样本为目标语音样本。
2.根据权利要求1所述的方法,其中,所述获取初始样本语音的语音相关信息,包括:
将所述初始样本语音输入语音处理模型,得到所述说话人信息和内容信息。
3.根据权利要求1所述的方法,其中,所述获取初始样本语音的语音相关信息,包括:
从存储所述初始样本语音的语音库中获取语音相关信息,其中,所述语音库中样本语音和语音相关信息是关联存储的。
4.根据权利要求1所述的方法,其中,所述第一样本语音和第二样本语音之间的评分是通过如下步骤确定的:
从所述第一样本语音中提取所述第一样本语音对应的第一帧向量;
从所述第二样本语音提取第二帧向量;
利用所述第一帧向量和所述第二帧向量,计算所述第二样本语音对应的说话人是所述第一样本语音对应的说话人的评分。
5.根据权利要求1所述的方法,其中,所述第一样本语音和第三样本语音之间的评分是通过如下步骤确定的:
从所述第一样本语音中提取第三帧向量;
从所述第三样本语音中提取第四帧向量;
利用所述第三帧向量和所述第四帧向量,确定所述第三样本语音对应的说话人是所述第一样本语音对应的说话人的评分。
6.根据权利要求1所述的方法,其中,所述第一预设要求包括第一样本语音和第二样本语音之间的评分大于或等于第一目标值。
7.根据权利要求1所述的方法,其中,所述第二预设要求包括第一样本语音和第三样本语音之间的评分小于第二目标值。
8.根据权利要求1所述的方法,其中,所述方法还包括:
使用所述目标语音样本来训练深度神经网络,其中,所述深度神经网络包括操作语音帧的层、聚合到帧级表示的统计池层、在段级操作的附加层和输出层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于抖音视界有限公司,未经抖音视界有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010082923.1/1.html,转载请声明来源钻瓜专利网。