[发明专利]检测调域值的方法和装置有效
申请号: | 201810697966.3 | 申请日: | 2018-06-29 |
公开(公告)号: | CN108922516B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 张劲松;张微;张琦;林举;解焱陆 | 申请(专利权)人: | 北京语言大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L25/03;G10L25/18;G10L25/51 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测 调域值 方法 装置 | ||
本发明公开了一种检测调域值的方法和装置。其中,该方法包括:采用获取频谱特征和调域值,其中,频谱特征是与音质有关的频谱参数,调域值是话者的调域高度值和/或调域宽度值;根据频谱特征和调域值通过机器学习算法训练预测模型,其中,预测模型是频谱特征和调域值建立的映射关系;输入待检测频谱特征利用预测模型获得待检测调域值,其中,待检测调域值与待检测频谱特征相对应,待检测频谱特征是从话者的待预测语音中截取的方式。本发明解决了现有技术在用户不确定情况下需要较长的输入语音样本来估计调域而导致的准确率和速度都较低的技术问题。
技术领域
本发明涉及语音识别领域,具体而言,涉及一种检测调域值的方法和装置。
背景技术
在语音交流中,音高是信息传递的重要载体。话者的音高变化时,最大值与最小值之间的范围叫做调域。调域值的大小主要取决于说话人发声的生理器官构造,不同的说话人调域一般存在差异,例如女性或者儿童,其调域一般显著高于男性成年话者。因生理差异造成的音高差异,却并不影响听者正确理解不同话者差异显著的音高参数所传递的语言信息。例如在汉语这样的声调语言中,虽然一个女性话者在其低音调(lowtone)实现的音高参数F0(Fundamental frequency)可能会高于男性话者的高音调(high tone)的F0,但是“低/高”音调信息都会被听者正确识别。人类解决这一问题的关键在于人类的听觉机制有这样一种能力,能够在接受到少量说话人语音信号后,就会迅速判断出说话人的调域范围,然后推断出后续输入语音的音高参数F0在说话人调域中的相对位置,从而理解其所表征的语言信息。这样的听觉机制称作调域规整、音高规整、话者规整等,其核心在于听者能够基于话者的少量语音可靠地估计出其调域范围。
对话者调域进行估计不仅在语音交际中有着重要作用,在语音智能技术中也有很多需求。例如,在口语对话系统中,对话者的调域估计可以提高用户分类性能,进而把交互控制实现得更好。又如,在第二语言发音评估任务中,调域估计可以对让机器对于二语学习者的发音错误进行更好的判断。
目前,现有技术的调域估计方法主要是基于F0参数的统计估计,需要采集话者较长的语音输入,在检测出其中的高音调与低音调样本后再计算出话者调域。对于在用户为相对固定的特定话者语音智能系统场景下,现有技术这种方法是满足需求的。但是,在用户不确定和系统需要快速响应的场景下,此时现有技术存在需要用户输入较长语音样本才可以检测出话者调域值的问题,导致现有技术这样的调域估计方法不能保证实时响应需求,调域估计的准确率和速度都较低。
针对上述现有技术在用户不确定情况下需要较长的输入语音样本来估计调域导致的准确率和速度都较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种检测调域值的方法,以至少解决现有技术在用户不确定情况下需要较长的输入语音样本来估计调域而导致的准确率和速度都较低的技术问题。
根据本发明实施例的一个方面,提供了一种检测调域值的方法,包括:获取频谱特征和调域值,其中,所述频谱特征是与音质有关的频谱参数,所述调域值是话者的调域高度上限、下限值之间的取值,或者所述调域值是话者基频的频率高度均值和话者基频的宽度值;根据所述频谱特征和所述调域值通过机器学习算法训练预测模型,其中,所述预测模型是所述频谱特征和所述调域值建立的映射关系;输入待检测频谱特征利用所述预测模型获得待检测调域值,其中,所述待检测调域值与待检测频谱特征相对应,所述待检测频谱特征是从话者的待预测语音中截取。
进一步地,获取所述调域值包括:获取话者基频值的对均值和标准差。
进一步地,获取所述频谱特征和所述调域值包括:通过语料数据库获取所述频谱特征和所述调域值。
进一步地,根据所述频谱特征和所述调域值通过机器学习算法训练所述预测模型包括:根据所述频谱特征和所述调域值通过长短时记忆模型训练预测模型,其中,所述长短时记忆模型的模型深度是所述待预测语音的长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810697966.3/2.html,转载请声明来源钻瓜专利网。