[发明专利]一种多个说话人的语音转折点检测方法及装置有效
申请号: | 202110419474.X | 申请日: | 2021-04-19 |
公开(公告)号: | CN112951212B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 张鹏远;张学帅;颜永红 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/10;G10L15/16;G10L25/03 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 说话 语音 转折点 检测 方法 装置 | ||
本申请实施例公开了一种多个说话人的语音转折点检测方法及装置,方法包括:接收多个说话人的混合语音;切分混合语音,得到M个语音片段,M为正整数;提取每个语音片段的特征;将每两个相邻的语音片段的特征进行拼接,得到与每两个相邻的语音片段对应的M‑1个特征对;将M‑1个特征对输入训练后的语音转折点检测网络中,得到与每两个相邻的语音片段对应的M‑1个相似度输出;若相似度输出小于预设相似度阈值,则确定与相似度输出对应的两个相邻的语音片段存在转折点。本申请实施例提高了语音转折点检测的精度,提高了语音转折点检测在多个说话人应用环境下的鲁棒性。
技术领域
本发明涉及语音识别技术领域。尤其涉及一种多个说话人的语音转折点检测方法及装置。
背景技术
随着移动互联网时代的到来,人们每天会接触到海量的不同种类的音频数据。如何在这些音频数据中获取感兴趣的信息成为了目前的研究热点。
说话人分段聚类系统的主要任务是在多人会话的混合语音中把各自说话人的语音分割并聚合起来。该系统作为一项重要的前端处理技术,可以很方便的实现后续的信息处理任务,同时说话人分割聚类技术在音频自动转录、音频检索、安防和军事等领域也都有非常广阔的应用场景。
目前传统的说话人分段方法主要有两种:基于距离尺度的分段方法和基于模型的分段方法。其中基于距离的分段方法采用的主要是贝叶斯信息准则(BayesianInformation Criterion,BIC)和KL距离(Kullback-Leibler Divergence)等准则来进行判定。这种方法对两个相邻的滑动窗进行假设检验来判断临界点是否为说话人的转折点。基于距离尺度的分段方法是一个假设检验的问题,它首先假设两个窗内的片段来自同一个说话人,假设两个窗内的片段来自不同的说话人,然后用不同的距离尺度对两个假设进行比较。但是这种方法窗长的选择和分割阈值的设定需要经验知识,如果分割窗太短则没有足够的信息准确判断说话人转折点,而分割窗太长则计算量较大,在实际应用中长度大小难以设定。而且BIC产生的片段比较碎和小,在说话人片段较短或者说话人身份交换快速转变时,性能急速下降,容易产生比较高的漏警率。KL距离主要是用来衡量两个概率分布的相似度,但是当语音背景、信道变化时特征值会有偏移,导致距离计算出现误差。基于模型的分段方法主要通过离线数据训练出通用背景模型(Universal Background Model,UBM)。它首先对测试音频分割成小段音频,使用最大后验概率估计(Maximum a posterioriestimation,MAP)估算出语音帧的高斯混合模型(Gaussian Mixture Model,GMM),然后通过计算相邻帧之间模型的相似度来判定转折点。这种方法判定的精准度比较高但是比较过度依赖于训练数据。
发明内容
由于现有方法存在上述问题,本申请实施例提出一种多个说话人的语音转折点检测方法及装置。
第一方面,本申请实施例提出一种多个说话人的语音转折点检测方法,包括:
接收多个说话人的混合语音;
切分所述混合语音,得到M个语音片段,M为正整数;
提取每个语音片段的特征;
将每两个相邻的语音片段的特征进行拼接,得到与所述每两个相邻的语音片段对应的M-1个特征对;
将所述M-1个特征对输入训练后的语音转折点检测网络中,得到与所述每两个相邻的语音片段对应的M-1个相似度输出;
若所述相似度输出小于预设相似度阈值,则确定与所述相似度输出对应的两个相邻的语音片段存在转折点。
在一种可能的实现中,所述切分所述混合语音,得到M个语音片段,包括:
以预设长度,每隔预设步长切分所述混合语音,得到M个预设长度的语音片段。
在一种可能的实现中,所述提取每个语音片段的特征,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110419474.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:陶瓷件清洗方法
- 下一篇:运动学误差映射矩阵的迭代修正方法及其迭代修正系统