[发明专利]一种录音控制方法及装置有效
申请号: | 201811076604.9 | 申请日: | 2018-09-14 |
公开(公告)号: | CN109065026B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 任晓楠;崔保磊;陈中帅 | 申请(专利权)人: | 海信集团有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/06;G10L17/00;G10L17/04 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 266071 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 录音 控制 方法 装置 | ||
本申请提供一种录音控制方法及装置,该方法包括:当检测到目标说话人的特定语音数据时,控制拾音设备开始录音;按照预设的采样规则对拾音设备录制的语音数据进行采样,得到采样数据;对采样数据进行特征提取,得到特征值;将特征值输入已训练的目标说话人模型,得到目标说话人模型的输出结果;若根据输出结果确定采样数据与目标说话人不匹配,则控制拾音设备停止录音。应用该方法,可以实现准确确定出目标说话人的语音结束点,从而有效保障拾音设备录制的语音仅包括目标说话人的讲话语音,继而提高后续基于拾音设备录制的语音进行语音识别的准确性,提升用户体验。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种录音控制方法及装置。
背景技术
VAD(Voice Activity Detection,语音活动检测)检测算法是一种语音端点检测技术,应用该技术可从带有噪声的语音中准确地定位出语音的起始点和结束点。基于此,在涉及到录音的应用场景中,可应用该技术实现自动控制拾音设备,例如麦克风、可穿戴设备、智能电视、智能音箱等在目标说话人讲话时进行录音。
然而,在实际应用中,不可避免地会出现目标说话人已停止讲话,但周围突然有其他人开始讲话的情形,在此类情形下,应用语音端点检测技术将无法检测到语音的结束点,这也就导致拾音设备在目标说话人已停止讲话后仍在继续录音,从而导致拾音设备录入了非期望的语音,进一步影响后续基于录制的语音进行语音识别结果的准确性,影响用户体验。
发明内容
有鉴于此,本申请提供一种录音控制方法及装置,以实现准确确定出目标说话人的语音结束点,从而有效保障拾音设备录制的语音仅包括目标说话人的讲话语音,继而提高后续基于拾音设备录制的语音进行语音识别的准确性,提升用户体验。
具体地,本申请是通过如下技术方案实现的:
根据本说明书实施例的第一方面,提供一种录音控制方法,所述方法包括:
基于目标说话人的特定语音数据控制拾音设备开始录音;
按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据;
对所述采样数据进行特征提取,得到所述采样数据的特征值;
将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果,其中,所述已训练的目标说话人模型以语音数据的特征值为输入值,以所述语音数据与所述目标说话人的匹配程度为输出值;
若根据所述输出结果确定所述采样数据与所述目标说话人不匹配,则控制所述拾音设备停止录音。
可选的,所述方法还包括:
获取至少一条历史语音数据;
对获取到的历史语音数据进行聚类,得到至少一个类,其中,任一所述类中包括至少一条历史语音数据;
针对任一所述类执行以下步骤:分别对所述类中的每一条历史语音数据进行特征提取,获得所述类对应的训练样本,其中,所述训练样本以提取到的特征值为输入值;
利用所述训练样本进行训练,得到所述类对应的说话人模型,其中,所述说话人模型以语音数据的特征值为输入值,以所述语音数据与所述类对应的说话人的匹配程度为输出值。
可选的,所述将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果,包括:
确定已训练的至少一个说话人模型中,是否存在所述目标说话人对应的目标说话人模型;
若存在,则将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果。
可选的,所述确定已训练的至少一个说话人模型中,是否存在所述目标说话人对应的目标说话人模型,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海信集团有限公司,未经海信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811076604.9/2.html,转载请声明来源钻瓜专利网。