[发明专利]一种端到端说话人分割方法及系统在审

申请号：	201811536622.0	申请日：	2018-12-14
公开（公告）号：	CN109545228A	公开（公告）日：	2019-03-29
发明（设计）人：	叶志坚;李稀敏;肖龙源;蔡振华;刘晓葳;谭玉坤	申请（专利权）人：	厦门快商通信息技术有限公司
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/04;G10L17/18;G10L21/028
代理公司：	厦门仕诚联合知识产权代理事务所(普通合伙) 35227	代理人：	乐珠秀
地址：	361007 福建省厦门***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种端到端说话人分割方法及系统，其通过分别提取训练用混合语音的混合STFT特征和参考语音的参考特征；再经三层全连接网络生成参考语音的掩膜；将所述掩膜与所述混合STFT特征相乘得到待识别说话人的分割STFT特征；最后将所述分割STFT特征通过ISTFT变换得到训练用混合语音中属于所述待分割说话人的分割语音，从而训练得到所需的模型；使用时，无需先将混合语音分割成多段短语音，再通过聚类算法将属于同一个说话人的多个短语音进行聚类处理得到同一个说话人的长语音；而是直接将待分割的混合语音和待分割说话人的参考语音输入训练好的模型即可输出待分割说话人的分割语音，这种端到端的方法可以避免中间过程的误差积累，分割精度更高。
搜索关键词：	分割语音混合语音端到端短语音参考掩膜相乘参考特征聚类处理聚类算法连接网络误差积累中间过程多段三层输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种端到端说话人分割方法，其特征在于，包括以下步骤：a.模型训练步骤：a1.提取训练用混合语音的混合STFT特征；a2.获取所述混合语音中的待识别说话人的参考语音，并提取所述参考语音的参考特征；a3.根据所述混合STFT特征和所述参考特征，经三层全连接网络，生成所述参考语音的掩膜；a4.将所述掩膜与所述混合STFT特征相乘，得到待识别说话人的分割STFT特征；a5.将所述分割STFT特征通过ISTFT变换得到训练用混合语音中属于所述待分割说话人的分割语音，完成模型的训练；b.说话人分割步骤：将待分割的混合语音和待分割说话人的参考语音输入所述模型中，输出待分割说话人的分割语音；或者，对待分割的混合语音提取混合STFT特征，对所述待分割说话人的参考语音提取参考特征，并将所述待分割的混合语音的混合STFT特征和所述待分割说话人的参考特征输入所述模型中，输出所述待分割说话人的分割STFT特征，并进一步通过ISTFT变换得到所述待分割说话人对应的分割语音。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门快商通信息技术有限公司，未经厦门快商通信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811536622.0/，转载请声明来源钻瓜专利网。

上一篇：基于深度自编码网络的说话人性别自动识别方法及系统
下一篇：一种基于语音样本特征空间轨迹的说话人识别方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种端到端说话人分割方法及系统在审

专利文献下载