[发明专利]一种单声道说话人分离模型、训练方法和分离方法在审
申请号: | 202010163915.X | 申请日: | 2020-03-11 |
公开(公告)号: | CN111009258A | 公开(公告)日: | 2020-04-14 |
发明(设计)人: | 王磊 | 申请(专利权)人: | 浙江百应科技有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0308;G06N3/08;G06N3/04 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 311121 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 单声道 说话 分离 模型 训练 方法 | ||
本发明公开了一种单声道说话人分离模型、训练方法和分离方法,单声道说话人分离方法包括:获取包含第一说话人和第二说话人的音频;分割音频获得至少一份分割音频;输入至少一份分割音频至单声道说话人分离模型,获得至少一份分割音频对应的至少一份第一embedding;输入预先录制的仅包括第二说话人的音频至单声道说话人分离模型,获得仅包括第二说话人的音频对应的第二embedding;判断至少一份第一embedding和第二embedding的余弦相似度是否小于预设阈值,如果是,至少一份分割音频为第一说话人音频,如果否,至少一份分割音频为第二说话人音频。
技术领域
本发明涉及深度学习领域,尤其涉及一种单声道说话人分离模型、训练方法和分离方法。
背景技术
目前,在销售、回访、催款等场景中,大部分公司仍旧采用单声道的方式采集录音,由于客户和客服的声音都在同一声道上,再经过asr(Automatic Speech Recognition,语音识别)转化成文字,无法知道文字段对应的是客户还是客服,导致在语音质检中,需要人工听取一个个录音。而且有的录音长达数分钟,而有效的信息只有几秒钟的时间,这将大大的造成企业的资源浪费,不仅使得人力成本大大升高、效率底下,而且不能保证质检的质量,可能因为人的疏忽导致一通有问题的录音成为漏网之鱼,造成企业无法挽回的损失。
目前大部分的说话人分离技术方案采用无监督学习的模式,将录音分割成一段段的小音频,然后在提取每段音频的特征,进行聚类。但是在催收等场景中,存在着大量的场景音,而且聚类算法极易受异常点干扰(噪音、汽车喇叭等),同时客服、客户的情绪在催收过程中经常波动,导致无法做到精确的说话人分离。
发明内容
本发明要解决的技术问题,在于提供一种单声道说话人分离模型、训练方法和分离方法,在对话语音中能不受干扰的分离出说话人语音。
为实现上述目的,本发明采用下述技术方案:
第一方面,本发明提供一种单声道说话人分离模型,包括ResCNN(深度残差网络),所述ResCNN包括8个ResBlock(残差块),每个ResBlock(残差块)包含四个卷积核为3×3、步长为2的卷积层,每个ResBlock(残差块)之前包括一个卷积核为5×5、步长为4的卷积层。
第二方面,本发明提供一种单声道说话人分离模型的训练方法,所述方法包括:
获取说话人的至少一句话作为锚样本,获取同一说话人的至少另一句话作为正样本,获取不同说话人与锚样本相同的至少一句话作为负样本;
单声道说话人分离模型的每个卷积层之间在序列维度上使用Batch Normalization(批数据归一化),并对每个卷积层使用裁剪修正线性函数作为非线性映射;
利用所述锚样本、正样本和负样本训练单声道说话人分离模型,输出所述锚样本、正样本和负样本对应的embedding(集合);
所述正样本、锚样本对应的embedding之间的余弦相似度作为第一距离,所述负样本、锚样本对应的embedding之间的余弦相似度作为第二距离;
利用所述第一距离和第二距离优化模型参数。
在上述方案中,所述优化模型参数目标为减小第一距离和/或增加第二距离。
第三方面,本发明提供一种基于单声道说话人分离模型的单声道说话人分离方法,所述方法包括:
获取包含第一说话人和第二说话人的音频;
分割所述音频获得至少一份分割音频;
输入所述至少一份分割音频至单声道说话人分离模型,获得所述至少一份分割音频对应的至少一份第一embedding;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江百应科技有限公司,未经浙江百应科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010163915.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:改进型拉弯机
- 下一篇:一种用于建筑施工的可调节配重装置及其工作方法