[发明专利]一种音频处理方法、装置、电子设备及存储介质有效
申请号: | 201910804699.X | 申请日: | 2019-08-28 |
公开(公告)号: | CN110636245B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 胡贵超;安君超;韩杰;王艳辉 | 申请(专利权)人: | 视联动力信息技术股份有限公司 |
主分类号: | H04N7/15 | 分类号: | H04N7/15;H04N7/14;G10L15/26 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100000 北京市东城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 处理 方法 装置 电子设备 存储 介质 | ||
1.一种音频处理方法,其特征在于,所述方法应用于视联网会议系统,所述视联网会议系统包括:第一视联网终端、第二视联网终端、第一视联网服务器、第一语音识别服务器,所述方法包括:
第一视联网终端采集发言人的音视频,并将该音视频编码为音视频数据;
第一视联网终端将所述音视频数据发送给第一视联网服务器;
第一视联网服务器将所述音视频数据中的音频数据发送给第一语音识别服务器,并将所述音视频数据发送给与所述第一视联网终端处于同一视联网会议的第二视联网终端,其中,所述第一语音识别服务器位于所述第一地理区域内;
所述第二视联网终端接收所述音视频数据并解码后播放对应的音视频;
所述第一语音识别服务器对所述音频数据进行识别,得到所述音频数据对应的文本数据,并存储所述文本数据;第二视联网终端与所述第一视联网服务器不在同一地理区域内,所述视联网会议系统还包括第二视联网服务器和第二语音识别服务器;所述第一视联网服务器将所述音视频数据发送给与所述第一视联网终端处于同一视联网会议的第二视联网终端,包括:
所述第一视联网服务器将所述音视频数据发送给所述第二视联网服务器,所述第二视联网服务器与所述第二视联网终端均位于第二地理区域内;
第二视联网服务器将所述音视频数据中的音频数据发送给所述第二语音识别服务器,并将所述音视频数据发送给所述第二视联网终端,其中,所述第二语音识别服务器位于所述第二地理区域内;
所述方法还包括:
所述第二语音识别服务器对所述音频数据进行识别,得到所述音频数据对应的文本数据,并存储所述文本数据。
2.根据权利要求1所述的方法,其特征在于,所述第一语音识别服务器对所述音频数据进行识别,得到所述音频数据对应的文本数据,包括:
所述第一语音识别服务器对所述音频数据进行解码,得到对应的音频;
所述第一语音识别服务器对所述音频进行过滤,滤除沉默部分和噪声部分;
所述第一语音识别服务器在累计过滤后的音频的长度达到预设长度后,对预设长度的音频进行识别,得到对应的文本数据。
3.根据权利要求2所述的方法,其特征在于,所述第一语音识别服务器对预设长度的音频进行识别,得到对应的文本数据,包括:
所述第一语音识别服务器对预设长度的音频进行特征提取;
所述第一语音识别服务器将提取到的特征输入预先训练的语音识别模型,得到对应的文本数据;
其中,所述预先训练的语音识别模型是以多个音频样本为训练样本,以高斯混合模型为基础进行训练而得到的。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述第一语音识别服务器获得所述第一视联网终端所处的视联网会议的会议信息,所述会议信息包括至少以下一者:会议标识、所述发言人的信息以及会议时间;
所述第一语音识别服务器存储所述文本数据,包括:
所述第一语音识别服务器以所述会议信息为文件名,将所述文本数据作为文件内容存储到相应的文件中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于视联动力信息技术股份有限公司,未经视联动力信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910804699.X/1.html,转载请声明来源钻瓜专利网。