[发明专利]语音对齐方法及装置有效
申请号: | 201810449585.3 | 申请日: | 2018-05-11 |
公开(公告)号: | CN108682436B | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 邵志明;郝玉峰 | 申请(专利权)人: | 北京海天瑞声科技股份有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/24 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨泽;刘芳 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 对齐 方法 装置 | ||
1.一种语音对齐方法,其特征在于,包括:
获取由不同录音设备采集的同一语音内容对应的多个语音数据,并从任一语音数据中选取所述任一语音数据的中间部分的一语音片段作为语音样本;
确定所述语音样本的样本帧数,并根据所述样本帧数提取所述语音样本的语音特征参数;
根据所述语音样本的语音特征参数在各其他语音数据中确定与所述语音样本相似度最高的目标语音片段;其中所述其他语音数据为所述多个语音数据中除所述任一语音数据以外的语音数据;
根据所述语音样本和各目标语音片段,将所述多个语音数据的时间轴进行对齐处理;
所述根据所述语音样本的语音特征参数在各其他语音数据中确定与所述语音样本相似度最高的目标语音片段,包括:
针对所述其他语音数据中的每一待处理语音数据;
选取所述待处理数据的目标帧作为当前帧,并将所述当前帧和所述当前帧之后的连续若干帧作为当前语音片段,其中,所述连续若干帧的帧数与所述样本帧数相同;
提取当前语音片段的语音特征参数,并根据所述当前语音片段的语音特征参数和所述语音样本的语音特征参数计算所述当前语音片段的相似度;
选取将所述目标帧的下一帧作为当前帧,并重复所述将所述当前帧和所述当前帧之后的连续若干帧作为当前语音片段的步骤,直至获取所述当前语音片段的最后一帧为所述待处理语音数据的最后一帧;
根据获得的各相似度,将相似度最高的当前语音片段作为所述待处理语音数据的目标语音片段;
所述从任一语音数据中选取一语音片段作为语音样本,包括:
确定所述任一语音数据的时长;
根据所述任一语音数据的时长选取一语音片段作为语音样本;
其中,在所述获取由不同录音设备采集的同一语音内容对应的多个语音数据之后,对所述多个语音数据进行切分处理,以获得每个语音数据对应的多个语音数据块,并相应地从针对任一语音数据的每个语音数据块中选取一语音片段作为语音样本;以及
所述在各其他语音数据中确定与所述语音样本相似度最高的目标语音片段包括:在各其他语音数据对应的各语音数据块中确定与各语音样本对应的相似度最高的各目标语音片段。
2.根据权利要求1所述的语音对齐方法,其特征在于,所述确定所述语音样本的帧数,并根据所述样本帧数提取所述语音样本的语音特征参数,包括:
根据所述语音样本的时长确定所述语音样本的样本帧数;
根据所述样本帧数对所述语音样本进行倒谱分析,获得所述语音样本的梅尔频率倒谱系数。
3.根据权利要求1-2任一项所述的语音对齐方法,其特征在于,所述根据所述语音样本和各目标语音片段,将所述多个语音数据的时间轴进行对齐处理,包括:
根据所述语音样本在其所属语音数据的时间轴上的位置以及各目标语音片段在其所属语音数据的时间轴上的位置,对所述多个语音数据的时间轴进行对齐处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海天瑞声科技股份有限公司,未经北京海天瑞声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810449585.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新风净化系统
- 下一篇:基于生成对抗网络与自适应比例生成样本图片的方法