[发明专利]基于声纹的音频输出方法、装置、设备及可读存储介质有效
申请号: | 201910981040.1 | 申请日: | 2019-10-15 |
公开(公告)号: | CN110767229B | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 郑琳琳;陈昊亮;曹虎 | 申请(专利权)人: | 广州国音智能科技有限公司 |
主分类号: | G10L15/25 | 分类号: | G10L15/25;G10L17/04;G10L17/06;H04N7/15;G06F3/16 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 张婷 |
地址: | 510000 广东省广州市黄埔*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 声纹 音频 输出 方法 装置 设备 可读 存储 介质 | ||
本发明公开了一种基于声纹的音频输出方法,该方法包括:当接收到音频信息时,获取所述音频信息中的声纹信息,并在声纹数据库中查找与所述声纹信息对应的声纹样本;判断音频数据库中是否存在与所述音频信息对应的音频样本;若所述音频数据库中不存在与所述音频信息对应的音频样本,则向视频识别装置输出唇形获取指令,以获取目标唇形;根据所述目标唇形和所述声纹样本生成目标音频,并将所述目标音频输出。本发明还公开了一种基于声纹的音频输出装置、设备及可读存储介质。本发明实现了在周边环境等不可控因素影响的情况下,提高了音频播放的质量。
技术领域
本发明涉及语音处理领域,尤其涉及一种基于声纹的音频输出方法、装置、设备及可读存储介质。
背景技术
随着办公智能化的快速发展,由于不受地域限制,可以容纳更多的人员,视频会议被越来越多地运用在办公中。
现有的视频会议中,发言人在发言时,很容易受到自身及周围环境的影响,从而造成播出的声音音质嘈杂,音量大小变化,从而导致收听发言的人员参会体验下降,影响视频会议的效果,在受到发言人自身及周边环境等不可控因素的影响下,如何使视频会议播放的声音质量得到提高成为了亟待解决的技术问题。
发明内容
本发明的主要目的在于提供一种基于声纹的音频输出方法,旨在解决在受到发言人自身及周边环境等不可控因素的影响下,使视频会议播放的声音质量得到提高的技术问题。
此外,为实现上述目的,本发明还提供一种基于声纹的音频输出方法,所述基于声纹的音频输出方法包括以下步骤:
当接收到音频信息时,获取所述音频信息中的声纹信息,并在声纹数据库中查找与所述声纹信息对应的声纹样本;
判断音频数据库中是否存在与所述音频信息对应的音频样本;
若所述音频数据库中不存在与所述音频信息对应的音频样本,则向视频识别装置输出唇形获取指令,以获取目标唇形;
根据所述目标唇形和所述声纹样本生成目标音频,并将所述目标音频输出。
可选地,所述当接收到音频信息时,获取所述音频信息中的声纹信息,并在声纹数据库中查找与所述声纹信息对应的声纹样本的步骤之后,包括:
若在所述声纹数据库中未查找到与所述声纹信息对应的声纹样本,则输出发言人异常的提示信息;
若在所述声纹数据库中查找到与所述声纹信息对应的声纹样本,则执行所述判断音频数据库中是否存在与所述音频信息对应的音频样本的步骤。
可选地,所述向视频识别装置输出唇形获取指令,以获取目标唇形的步骤包括:
若基于唇形获取指令未获取到有效唇形,则输出发言角度异常的提示信息;
若基于唇形获取指令获取到有效唇形,则判断唇形数据库中是否存在与所述有效唇形匹配的唇形样本;
若所述唇形数据库中存在与所述有效唇形匹配的唇形样本,则将所述有效唇形作为目标唇形。
可选地,所述若所述唇形数据库中存在与所述有效唇形匹配的唇形样本,则将所述有效唇形作为目标唇形的步骤之后,包括:
判断所述唇形样本是否属于预设唇形集合;
若所述唇形样本属于所述预设唇形集合,则向音频播放装置输出禁播指令,以使所述音频播放装置不播出任何音频;
若所述唇形样本不属于所述预设唇形集合,则执行所述根据所述目标唇形和所述声纹样本生成目标音频,并将所述目标音频输出的步骤。
可选地,所述当接收到音频信息时,获取所述音频信息中的声纹信息,并在声纹数据库中查找与所述声纹信息对应的声纹样本的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州国音智能科技有限公司,未经广州国音智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910981040.1/2.html,转载请声明来源钻瓜专利网。