[发明专利]一种语音端点检测方法、装置、设备及存储介质有效
申请号: | 201811219815.3 | 申请日: | 2018-10-19 |
公开(公告)号: | CN109119070B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 江勇军;潘嘉;王智国;胡国平 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/04;G10L25/87 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王云晓;王宝筠 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 端点 检测 方法 装置 设备 存储 介质 | ||
本申请提供了一种语音端点检测方法、装置、设备及存储介质,方法包括:从待检测音频数据中提取用于确定动态检测间隔的音频特征,作为动态检测间隔特征;根据动态检测间隔特征,通过预先建立的音频属性确定模型,确定待检测音频数据的属性,并根据动态检测间隔特征,通过预先建立的动态检测间隔模型,确定待检测音频数据的动态检测间隔;基于待检测音频数据的属性和动态检测间隔,确定待检测音频数据的语音端点。本申请提供的语音端点检测方法基于动态检测间隔实现语音端点检测,具有较好的检测效果,且用户体验较好。
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音端点检测方法、装置、设备及存储介质。
背景技术
语音识别是人机交互的重要组成部分,语音识别指的是通过机器学习等方法将语音自动转换成相应文字。
随着人工智能浪潮的一波又一波推进,语音识别作为人工智能的一个重要领域,其正取得突飞猛进的发展。虽然语音识别技术目前已达到商用阶段,但其识别效果仍然不理想,这其中一个重要的原因就是,目前的语音端点检测方案的检测效果不佳。
由于语音端点检测是语音识别的前端处理过程,因此,若语音端点检测效果不佳,必然导致后续的语音识别效果不佳,因此,亟需提供一种检测效果较好的语音端点检测方案。
发明内容
有鉴于此,本申请提供了一种语音端点检测方法、装置、设备及存储介质,用以提供一种具有较好检测效果的语音端点检测方案,其技术方案如下:
一种语音端点检测方法,包括:
从待检测音频数据中提取用于确定动态检测间隔的音频特征,作为动态检测间隔特征;
根据所述动态检测间隔特征,通过预先建立的音频属性确定模型,确定所述待检测音频数据的属性,并根据所述动态检测间隔特征,通过预先建立的动态检测间隔模型,确定所述待检测音频数据的动态检测间隔;
基于所述待检测音频数据的属性和动态检测间隔,确定所述待检测音频数据的语音端点。
优选地,所述从待检测音频数据中提取用于确定动态检测间隔的音频特征,作为动态检测间隔特征,包括:
从所述音频数据中提取频谱特征、后验特征、解码特征中的一种或多种音频特征,作为所述动态检测间隔特征。
其中,从所述待检测音频数据中提取所述后验特征,包括:
从所述待检测音频数据中提取频谱特征;
将所述频谱特征输入预先建立的声学模型,获得所述声学模型输出的声学后验得分,作为所述后验特征。
其中,从所述待检测音频数据中提取所述解码特征,包括:
从所述待检测音频数据中提取频谱特征;
通过所述频谱特征确定声学后验特征;
对所述声学后验特征进行解码,获得解码结果;
基于所述解码结果确定解码特征。
其中,所述基于所述解码结果确定解码特征,包括:
基于所述解码结果获得多个目标候选识别结果以及每个所述目标候选识别结果的持续时间;
将每个所述目标候选识别结果转换为词向量;
将每个所述词向量和每个所述词向量对应的目标候选识别结果的持续时间作为所述解码特征。
优选地,所述根据所述动态检测间隔特征,通过预先建立的动态检测间隔模型,确定所述待检测音频数据的动态检测间隔,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811219815.3/2.html,转载请声明来源钻瓜专利网。