[发明专利]一种基于云—边缘协同架构的会议记录方法及系统有效
申请号: | 202110570403.X | 申请日: | 2021-05-25 |
公开(公告)号: | CN113327619B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 周晓天;翟华振;张海霞;袁东风 | 申请(专利权)人: | 山东大学 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/18;G10L15/22;G10L15/26;G10L15/30;G10L15/34 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 赵龙群 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 边缘 协同 架构 会议记录 方法 系统 | ||
1.一种基于云—边缘协同架构的会议记录方法,其特征在于,用于会议记录,具体步骤包括:
(1)在客户端,录制并存储会议的音频或视频,并将音频或视频提取得到的音频上传到边缘服务器;
(2)在边缘服务器中,将上传的音频分割为音频片段;
(3)在边缘服务器中,使用预训练的声纹提取模型从音频片段的中提取出声纹特征,得到每一个音频片段的声纹特征向量d-vector;
其中,声纹提取模型的预训练过程为:
3-1、构建声纹提取模型;声纹提取模型包括依次连接的ResNet-34网络、NetVLAD层、全连接(Dense)层和softmax层,
ResNet-34网络是残差网络,输入依次经过一个卷积核大小为7的卷积层、一个池化层,3个尺寸为32、卷积核大小为3的残差块,4个尺寸为64卷积核、大小为3的残差块,6个尺寸为128、卷积核大小为3的残差块,3个尺寸为256、卷积核大小为3的残差块,总计34层;两个卷积层构成所述残差块;
NetVLAD层的网络层输出V(j,k)的计算方法如式(I)所示:
式(I)中,j是样本索引,k是类别索引,i,k'是求和索引,K是样本说话人总数,xi表示NetVLAD层的输入,ak,bk,ck均为本层网络待训练的参数;
3-2、构建语音样本数据集:语音样本数据集包括说话人音频和标签;
3-3、将音频进行傅里叶变换得到频谱数据;
3-4、训练声纹提取模型:
将步骤3-3得到的频谱数据和标签输入ResNet-34网络提取特征,得到包含声纹特征的时间序列数据,再经过NetVLAD层提取时间序列特征,然后再经过全连接层融合特征,再经过softmax层做归一化处理,得到长度为512的包含声纹特征的向量即d-vector;
使用Adam或随机梯度下降法训练声纹提取模型,即更新网络层中所有权重参数使损失函数值减小,当声纹提取模型判断准确率达到90%时,停止训练;
(4)使用训练好的声纹识别模型识别每个音频片段的说话人;
其中,声纹识别模型的训练过程为:
4-1、构建声纹识别模型数据集,具体包括:
a、客户端录制会议参与者的音频,并标注说话者;
b、客户端压缩并加密音频,然后上传到边缘服务器;
c、分割音频数据:将音频分割为设定采样长度的片段,当最后片段的长度不足采样的长度,则末尾加0补足;
4-2、先将分割后的音频数据进行傅里叶变换得到频谱数据;
4-3、使用训练好的声纹提取模型进行提取得到对应的声纹特征向量d-vector;
4-4、构建声纹识别模型,声纹识别模型为UIS-RNN网络,UIS-RNN网络含两层GRU循环神经网络;
4-5、训练声纹识别模型:将步骤4-3得到的声纹特征向量d-vector作为声纹识别模型的输入,标签即说话人作为声纹识别模型的输出;使用梯度下降算法进行训练,当识别准确率达到90%时,停止训练;
(5)基于识别出的说话人,再将原始音频分割为对应说话人的音频片段;
(6)将步骤(5)分割得到的音频片段上传到云服务器进行语音识别,云服务器再将语音识别的结果传输给边缘服务器;
(7)边缘服务器结合步骤(6)得到的语音识别的结果和步骤(4)得到的声纹识别的结果,生成标准字幕文件和文本文件,得到会议记录;然后将会议记录传输到客户端;
(8)客户端存储会议记录。
2.根据权利要求1所述的一种基于云—边缘协同架构的会议记录方法,其特征在于,步骤(1)中,当在客户端录制的是视频时,则使用ffmpeg提取音频,再将提取得到的音频上传到边缘服务器。
3.根据权利要求1所述的一种基于云—边缘协同架构的会议记录方法,其特征在于,步骤(6)中,使用PocketSphinx库实现语音识别,将边缘服务器上传的音频片段识别为文字,并返回边缘服务器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110570403.X/1.html,转载请声明来源钻瓜专利网。