[发明专利]语音识别方法、装置、计算机设备、存储介质和程序产品在审
申请号: | 202210194783.6 | 申请日: | 2022-03-01 |
公开(公告)号: | CN114664313A | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 崔洋洋;余俊澎 | 申请(专利权)人: | 游密科技(深圳)有限公司 |
主分类号: | G10L17/22 | 分类号: | G10L17/22;G10L17/02;G10L17/04;G10L17/20 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 周旋 |
地址: | 518051 广东省深圳市南山区粤*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 计算机 设备 存储 介质 程序 产品 | ||
本申请涉及一种语音识别方法、装置、计算机设备、存储介质和计算机程序产品,包括:计算机设备对原始语音数据进行分段处理,得到多个子语音数据,并对子语音数据进行特征处理,得到候选语音数据,对候选语音数据进行模态分解处理,得到待识别的语音数据,将待识别的语音数据输入至预设的语音识别模型中,得到语音识别结果;语音识别结果用于表示待识别的语音数据是否为真实语音数据。在本方案中,计算机设备对原始语音数据进行分段处理,细化原始语音数据的处理粒度,得到较为准确的候选语音数据,对候选语音数据进行模态分解处理,从候选语音数据中提取模态分量独立性较高的数据,将待识别的语音数据输入语音识别模型中,语音识别结果更准确。
技术领域
本申请涉及计算机技术领域,特别是涉及一种语音识别方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
近年来,随着声纹识别技术的日益成熟,具有声纹识别功能的认证系统已经被广泛应用于各种场景中,如语音助理、网上银行等。
然而,随着机器人和虚拟技术的发展,现有的应用中存在很多虚拟语音、仿声语音等具有欺骗攻击性的语音,比如,合成语音、转换语音等,降低了语音识别的准确性,进而降低了声纹识别功能的认证系统使用的安全性。
基于此,如何准确识别合成语音或转换语音的方法成为了目前声纹识别应用中亟待解决的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够准确识别合成语音或转换语音等虚假语音的语音识别方法、装置、计算机设备、存储介质和计算机程序产品。
第一方面,本申请提供了一种语音识别方法,该方法包括:
对原始语音数据进行分段处理,得到多个子语音数据,并对各子语音数据进行特征处理,得到候选语音数据;
对候选语音数据进行模态分解处理,得到待识别的语音数据;
将待识别的语音数据输入至预设的语音识别模型中,得到语音识别结果;语音识别结果用于表示待识别的语音数据是否为真实语音数据。
在其中一个可选地实施例中,对各子语音数据进行特征处理,得到候选语音数据,包括:
对各子语音数据进行语音信号特征提取处理,确定各子语音数据的特征度;
将特征度大于预设阈值的子语音数据进行特征合成处理,得到候选语音数据。
在其中一个可选地实施例中,该方法还包括:
对各子语音数据进行去噪处理,得到去噪之后的子语音数据;
对各子语音数据进行特征处理,得到候选语音数据,包括:
对各去噪之后的子语音数据进行特征处理,得到候选语音数据。
在其中一个可选地实施例中,对候选语音数据进行模态分解处理,得到待识别的语音数据,包括:
对候选语音数据进行模态分解处理,得到多个模态分量;
将满足预设独立性要求的模态分量确定为候选模态分量;
将候选模态分量转换为待识别的语音数据。
在其中一个可选地实施例中,该方法还包括:
对原始语音数据进行语音分割,得到原始语音数据中的无声片段和有声片段;
将有声片段进行合并,得到合并语音数据;
对原始语音数据进行分段处理,得到多个子语音数据,包括:
对合并语音数据进行分段处理,得到多个子语音数据。
在其中一个可选地实施例中,该方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于游密科技(深圳)有限公司,未经游密科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210194783.6/2.html,转载请声明来源钻瓜专利网。