[发明专利]语音检测方法、电子设备及计算机存储介质在审
申请号: | 202210745641.4 | 申请日: | 2022-06-29 |
公开(公告)号: | CN114822511A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 郑斯奇 | 申请(专利权)人: | 阿里巴巴达摩院(杭州)科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/26;G10L25/78 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰;兰淑铎 |
地址: | 310023 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 检测 方法 电子设备 计算机 存储 介质 | ||
本申请实施例提供了一种语音检测方法、电子设备及计算机存储介质,其中,语音检测方法包括:获取待检测的音频数据对应的多个音频帧向量,其中,所述音频数据中包含有至少一个说话人对应的语音数据;对所述多个音频帧向量进行聚类,获得特征聚类结果;从所述特征聚类结果中确定出目标说话人对应的特征向量,并基于所述目标说话人对应的特征向量对所述多个音频帧向量进行掩码,根据掩码结果获得所述目标说话人的音频帧向量。通过本申请实施例,使得提取出的目标说话人的音频帧向量能够准确地代表目标说话人的声音,实现目标说话人音频的精准分离。
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种语音检测方法、电子设备及计算机存储介质。
背景技术
随着智能语音技术的发展,越来越多的领域和服务将其作为基础功能加以使用。在智能语音技术中,说话人日志(Speaker Diarization)技术是其中的一个重要组成部分。说话人日志技术是给定一段多人交流的音频(通常为单通道口语对话语音,有较多的多人混叠片段),由计算机自动地识别出音频中有几个说话人,并检测出音频中每个说话人发言的起止时间戳,解决“谁在什么时候说话”的问题的一种技术。在一种应用场景中,希望通过说话人日志技术,将会议或多人说话的一段音频中,每个说话人的声音和说话内容区分出来,为后续应用提供基础。
传统方式中,多采用将一个完整音频切分为多个音频分段,然后针对每一个音频分段,利用预先训练好的机器学习模型进行说话人特征提取的方式。但在实际应用中,一个音频片段中可能包含多个说话人的声音和噪声。因此,在某个音频片段中提取出的说话人特征难以代表真实的说话人声音,导致将不同说话人,尤其是目标说话人的音频分离出来的效果很差。
发明内容
有鉴于此,本申请实施例提供一种语音检测方案,以至少部分解决上述问题。
根据本申请实施例的第一方面,提供了一种语音检测方法,包括:获取待检测的音频数据对应的多个音频帧向量,其中,所述音频数据中包含有至少一个说话人对应的语音数据;对所述多个音频帧向量进行聚类,获得特征聚类结果;从所述特征聚类结果中确定出目标说话人对应的特征向量,并基于所述目标说话人对应的特征向量对所述多个音频帧向量进行掩码,根据掩码结果获得所述目标说话人的音频帧向量。
根据本申请实施例的第二方面,提供了另一种语音检测方法,包括:获取待检测的会议音频数据对应的多个音频帧向量,其中,所述会议音频数据中包含有会议发言人对应的语音数据;对所述多个音频帧向量进行聚类,获得特征聚类结果;从所述特征聚类结果中确定出所述会议发言人对应的特征向量,并基于所述会议发言人对应的特征向量对所述多个音频帧向量进行掩码,根据掩码结果获得所述会议发言人的音频帧向量;基于所述会议发言人的音频帧向量进行语音识别,根据语音识别结果生成会议记录文本。
根据本申请实施例的第三方面,提供了又一种语音检测方法,包括:获取待检测的第一音频数据对应的多个第一音频帧向量和第二音频数据对应的多个第二音频帧向量;分别获得所述第一音频帧向量对应的第一主说话人音频帧向量和所述第二音频帧向量对应的第二主说话人音频帧向量;其中,所述第一主说话人音频帧向量和所述第二主说话人音频帧向量均通过以下方式获得:分别对多个第一或第二音频帧向量进行聚类,获得对应的特征聚类结果;从所述特征聚类结果中确定出对应的第一主说话人或第二主说话人对应的特征向量,并基于所述特征向量对多个第一或第二音频帧向量进行掩码,根据掩码结果获得第一主说话人或第二主说话人的音频帧向量;根据所述第一主说话人音频帧向量和所述第二主说话人音频帧向量,确定所述第一音频数据和所述第二音频数据是否为同一说话人的音频数据。
根据本申请实施例的第四方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面或第二方面或第三方面所述方法对应的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴达摩院(杭州)科技有限公司,未经阿里巴巴达摩院(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210745641.4/2.html,转载请声明来源钻瓜专利网。