[发明专利]语音端点检测方法、装置、可读存储介质及电子设备在审
申请号: | 202010709596.8 | 申请日: | 2020-07-22 |
公开(公告)号: | CN111916061A | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 王子扬;宫一尘 | 申请(专利权)人: | 北京地平线机器人技术研发有限公司 |
主分类号: | G10L15/05 | 分类号: | G10L15/05;G10L15/02;G10L15/25;G10L15/16;G10L25/87 |
代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 毛丽琴 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开实施例公开了一种语音端点检测方法和装置,其中,该方法包括:获取针对目标对象采集的音频信息和视频信息,其中,音频信息中的音频帧和视频信息中的图像帧一一对应;提取音频信息包括的音频帧的特征,得到音频特征序列,以及提取视频信息包括的图像帧的特征,得到图像特征序列;将音频特征序列和图像特征序列合并,得到合并特征序列;基于合并特征序列,确定合并特征序列中的每个合并特征对应的语音状态概率;基于语音状态概率,确定音频信息中的语音信号段的端点。本公开实施例实现了将音频特征和图像特征相结合进行语音状态检测,提高了在高噪声的复杂场景下的语音端点检测的精确性。 | ||
搜索关键词: | 语音 端点 检测 方法 装置 可读 存储 介质 电子设备 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京地平线机器人技术研发有限公司,未经北京地平线机器人技术研发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010709596.8/,转载请声明来源钻瓜专利网。