[发明专利]使用一个或更多个神经网络的语音检测结束在审
申请号: | 202110533407.0 | 申请日: | 2021-05-17 |
公开(公告)号: | CN113689887A | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | U·维迪雅;S·巴塔查里亚;V·卡兰迪卡;N·沃迪卡 | 申请(专利权)人: | 辉达公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L15/26;G10L15/22;G10L15/05;G06N5/04;G06N3/08;G06N3/04 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 赵楠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 一个 更多 神经网络 语音 检测 结束 | ||
1.一种处理器,包括:
一个或更多个电路,至少部分地基于预测在一个或更多个语音段中的一个或更多个字符,来指示所述一个或更多个语音段的结束。
2.根据权利要求1所述的处理器,其中所述一个或更多个电路基于从包含所述一个或更多个语音段的一个或更多个音频信号中提取的特征,进一步将连接主义时间分类(CTC)函数与一个或更多个神经网络一起使用,以针对每个所述一个或更多个字符生成概率。
3.根据权利要求2所述的处理器,其中所述一个或更多个电路进一步使用贪婪解码器来分析每个所述一个或更多个字符的所述概率,以针对各个时间步长生成一串字符。
4.根据权利要求3所述的处理器,其中所述一个或更多个电路进一步使用指定长度的滑动窗口来分析所述字符串,其中所述一个或更多个语音段的所述结束响应于所述滑动窗口内包含的空白字符的百分比而确定,所述滑动窗口被确定为满足语音结束阈值。
5.根据权利要求4所述的处理器,其中每个所述一个或更多个字符中的所述概率被解码直到所述一个或更多个语音段的所述结束,以便生成所述一个或更多个语音段的一个或更多个文本转录本。
6.根据权利要求1所述的处理器,其中所述一个或更多个语音段的转录本将作为一个或更多个语音可控设备的输入而被提供。
7.一种系统,包括:
一个或更多个处理器,至少部分地基于预测在一个或更多个语音段中的一个或更多个字符,来指示所述一个或更多个语音段的结束。
8.根据权利要求7所述的系统,其中所述一个或更多个处理器基于从包含所述一个或更多个语音段的一个或更多个音频信号中提取的特征,进一步将连接主义时间分类(CTC)函数与一个或更多个神经网络一起使用,以针对每个所述一个或更多个字符生成概率。
9.根据权利要求8所述的系统,其中所述一个或更多个处理器进一步使用贪婪解码器来分析每个所述一个或更多个字符的所述概率,以针对各个时间步长生成一串字符。
10.根据权利要求9所述的系统,其中所述一个或更多个处理器进一步使用指定长度的滑动窗口来分析所述字符串,其中所述一个或更多个语音段的所述结束响应于所述滑动窗口内包含的空白字符的百分比而确定,所述滑动窗口被确定为满足语音结束阈值。
11.根据权利要求10所述的系统,其中每个所述一个或更多个字符中的所述概率被解码直到所述一个或更多个语音段的所述结束,以便生成所述一个或更多个语音段的一个或更多个文本转录本。
12.根据权利要求7所述的系统,其中所述一个或更多个语音段的转录本将作为一个或更多个语音可控设备的输入而被提供。
13.一种方法,包括:
至少部分地基于预测在一个或更多个语音段内的一个或更多个字符,来指示所述一个或更多个语音段的结束。
14.根据权利要求13所述的方法,进一步包括:
基于从包含所述一个或更多个语音段的一个或更多个音频信号中提取的特征,将连接主义时间分类(CTC)函数与一个或更多个神经网络一起使用,以针对每个所述一个或更多个字符生成概率。
15.根据权利要求14所述的方法,还包括:
使用贪婪解码器来分析每个所述一个或更多个字符的所述概率,以针对各个时间步长生成一串字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辉达公司,未经辉达公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110533407.0/1.html,转载请声明来源钻瓜专利网。