[发明专利]针对流式音频端点检测的方法、系统、设备及介质在审
申请号: | 202210551586.5 | 申请日: | 2022-05-18 |
公开(公告)号: | CN115019823A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 杨赫;张启祥;郝竹林;罗超;邹宇 | 申请(专利权)人: | 携程旅游信息技术(上海)有限公司 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/09;G10L25/27;G10L25/51 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 罗朗;林嵩 |
地址: | 201203 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 音频 端点 检测 方法 系统 设备 介质 | ||
本发明公开了一种针对流式音频端点检测的方法、系统、设备及介质,所述方法包括:获取流式音频帧,所述流式音频帧由流式音频片段分帧得到;判断所述流式音频帧是否为有效帧;获取有效流式音频片段,所述有效流式音频片段是以动态指针记录有效帧的流式音频帧为开始点,以无效帧数达到预设阈值的所述流式音频帧为结束点的流式音频片段;输入所述有效流式音频片段至语音识别系统。利用短时能量将高信噪比中的非人声帧进行过滤,利用短时过零率将浊音进行过滤,动态指针标记对流式音频进行实时有效性判别得到有效流式音频片段,对有效音频片段输入语音识别系统进行后续处理,兼顾了端点检测的准确性和实时性,便于后续对有效流式音频片段进行转写。
技术领域
本发明涉及语音处理领域,尤其涉及一种针对流式音频端点检测的方法、系统、设备及介质。
背景技术
随着人工智技术的发展,OTA(在线旅游服务平台)呼叫中心电话座席端的流式语音识别可以支持及时的信息质检。但是往往为了提升语音转写服务的性能,转写功能仅关注有效的人声说话片段,此时就需要对音频进行端点检测。通过部署针对流式音频场景的端点检测技术,对端点检测到的有效声音进行动态切割,切割后的音频片段再进行语音识别。目前的现有技术是采用复杂的深度学习模型对流式音频进行端点检测,虽然深度学习模型可以达到较高的准确率,但实时率却很低,因此需要一种兼顾准确率和实时率的流式音频端点检测方法。
发明内容
本发明要解决的技术问题是为了克服现有技术中无法实时对流式音频进行端点检测的缺陷,提供一种针对流式音频端点检测的方法、系统、设备及介质。
本发明是通过下述技术方案来解决上述技术问题:
作为本发明的第一方面,提供一种针对流式音频端点检测的方法,所述方法包括:
获取流式音频帧,所述流式音频帧由流式音频片段分帧得到;
判断所述流式音频帧是否为有效帧;
获取有效流式音频片段,所述有效流式音频片段是以动态指针记录有效帧的流式音频帧为开始点,以无效帧数达到预设阈值的所述流式音频帧为结束点的流式音频片段;
输入所述有效流式音频片段至语音识别系统。
较佳地,所述判断所述流式音频帧是否为有效帧的步骤包括:
对所述流式音频帧作帧内预加重处理;
获取所述流式音频帧的帧能量;
若所述帧能量在预设阈值内,则进行所述流式音频帧的过零率判断。
较佳地,所述若所述帧能量在预设阈值内,则进行所述流式音频帧的过零率判断的步骤包括:
获取所述流式音频帧的过零率;
若所述流式音频帧的过零率在预设阈值内,则输出所述流式音频帧为有效帧的结果;
存储所述流式音频帧的判断结果至实时状态变量集合中。
较佳地,所述判断所述流式音频帧是否为有效帧的步骤还包括:
判断所述流式音频帧是否为空帧,若为空帧,则输出所述流式音频帧为无效帧的结果。
较佳地,所述输入所述有效流式音频片段至语音识别系统的步骤之前还包括:
判断所述有效流式音频片段中的有效帧占比是否在预设阈值内,若所述有效帧占比在预设阈值内,则保留所述有效流式音频片段,若所述有效帧占比不在预设阈值内,则滤除所述有效流式音频片段,所述有效帧占比表示有效帧数量和所述有效流式音频片段的帧总数量的比值。
较佳地,所述输入所述有效流式音频片段至语音识别系统的步骤之后包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程旅游信息技术(上海)有限公司,未经携程旅游信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210551586.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种制备高强高塑钼合金的方法
- 下一篇:一种餐厅自动化送餐装置