[发明专利]一种多个说话人的语音转折点检测方法及装置有效
申请号: | 202110419474.X | 申请日: | 2021-04-19 |
公开(公告)号: | CN112951212B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 张鹏远;张学帅;颜永红 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/10;G10L15/16;G10L25/03 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 说话 语音 转折点 检测 方法 装置 | ||
1.一种多个说话人的语音转折点检测方法,其特征在于,包括:
接收多个说话人的混合语音;
切分所述混合语音,得到M个语音片段,M为正整数;
提取每个语音片段的特征;
将每两个相邻的语音片段的特征进行拼接,得到与所述每两个相邻的语音片段对应的M-1个特征对;
将所述M-1个特征对输入训练后的语音转折点检测网络中,得到与所述每两个相邻的语音片段对应的M-1个相似度输出;
若所述相似度输出小于预设相似度阈值,则确定与所述相似度输出对应的两个相邻的语音片段存在转折点;
其中,语音转折点检测网络进行训练时使用的训练数据集包括包含转折点的语音和不包含转折点的语音。
2.根据权利要求1所述的方法,其特征在于,所述切分所述混合语音,得到M个语音片段,包括:
以预设长度,每隔预设步长切分所述混合语音,得到M个预设长度的语音片段。
3.根据权利要求1所述的方法,其特征在于,所述提取每个语音片段的特征,包括:
提取所述每个语音片段的x-vector特征。
4.根据权利要求1所述的方法,其特征在于,所述训练后的语音转折点检测网络通过以下步骤获得:
切分训练数据集,得到M个第一语音片段;
提取每个第一语音片段的特征;
将每两个相邻的第一语音片段的特征进行拼接,得到与所述每两个相邻的第一语音片段对应的M-1个第一特征对;
将所述M-1个第一特征对输入语音转折点检测网络中,得到与所述每两个相邻的第一语音片段对应的M-1个第一相似度输出。
5.根据权利要求4所述的方法,其特征在于,所述切分训练数据集,得到M个第一语音片段,包括:
以预设长度,每隔预设步长切分所述训练数据集,得到M个预设长度的第一语音片段。
6.根据权利要求4所述的方法,其特征在于,所述提取每个第一语音片段的特征,包括:
提取所述每个第一语音片段的x-vector特征。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述第一相似度输出小于预设相似度阈值,则确定与所述第一相似度输出对应的两个相邻的第一语音片段存在转折点;或者
若所述第一相似度输出大于预设相似度阈值,则确定与所述第一相似度输出对应的两个相邻的第一语音片段不存在转折点。
8.一种多个说话人的语音转折点检测装置,其特征在于,包括:
接收模块,用于接收多个说话人的混合语音;
切分模块,用于切分所述混合语音,得到M个语音片段,M为正整数;
提取模块,用于提取每个语音片段的特征;
拼接模块,用于将每两个相邻的语音片段的特征进行拼接,得到与所述每两个相邻的语音片段对应的M-1个特征对;
相似度输出模块,用于将所述M-1个特征对输入训练后的语音转折点检测网络中,得到与所述每两个相邻的语音片段对应的M-1个相似度输出;
确定模块,用于若所述相似度输出小于预设相似度阈值,则确定与所述相似度输出对应的两个相邻的语音片段存在转折点;
其中,语音转折点检测网络进行训练时使用的训练数据集包括包含转折点的语音和不包含转折点的语音。
9.一种多个说话人的语音转折点检测装置,其特征在于,包括至少一个处理器,所述处理器用于执行存储器中存储的程序,当所述程序被执行时,使得所述装置执行:
如权利要求1-7任一项所述的方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110419474.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:陶瓷件清洗方法
- 下一篇:运动学误差映射矩阵的迭代修正方法及其迭代修正系统