[发明专利]会议语音转写方法、装置、设备及存储介质在审
申请号: | 202011341316.9 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112562677A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 张云;刘志悠 | 申请(专利权)人: | 安徽听见科技有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;H04N7/15 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 付丽 |
地址: | 230088 安徽省合肥市高新区*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 会议 语音 转写 方法 装置 设备 存储 介质 | ||
1.一种会议语音转写方法,其特征在于,包括:
调用第一语音转写引擎,对客户端上传的各路录音的混音进行转写,得到混音的转写文本,其中一路录音对应一个参会的客户端;
获取每一路录音对应的说话人标识,并对上传的每一路录音进行语音活动VAD检测,得到包含有效语音片段的时间信息的VAD检测结果;
基于各路录音的VAD检测结果,确定每一路录音中的有效语音片段是否与其它路录音中的有效语音片段在时间上存在交叉;
对于时间上存在交叉的目标有效语音片段,调用第二语音转写引擎,对所述目标有效语音片段进行转写,得到目标有效语音片段的转写文本;
基于所述目标有效语音片段的转写文本、所述每一路录音对应的说话人标识及每一路录音的VAD检测结果,对所述混音的转写文本进行修正,得到修正后转写文本。
2.根据权利要求1所述的方法,其特征在于,所述调用第一语音转写引擎,对客户端上传的各路录音的混音进行转写,得到混音的转写文本,包括:
获取每一客户端上传的一路录音,并对上传的各路录音进行混合,得到混音;
调用第一语音转写引擎,对所述混音进行转写,得到混音的转写文本。
3.根据权利要求1所述的方法,其特征在于,所述对上传的每一路录音进行语音活动VAD检测,得到包含有效语音片段的时间信息的VAD检测结果,包括:
调用与每一路录音对应的VAD引擎,对每一路录音进行语音活动VAD检测,得到每一路录音包含的有效语音片段的时间信息,并将所述有效语音片段的时间信息作为VAD检测结果。
4.根据权利要求1所述的方法,其特征在于,所述基于各路录音的VAD检测结果,确定每一路录音中的有效语音片段是否与其它路录音中的有效语音片段在时间上存在交叉,包括:
在当前检测到一路录音中有效语音片段结束时,基于其它各路录音的VAD检测结果,确定其它各路录音中是否存在已经开始且还未结束的有效语音片段;
若存在,则确认当前结束的有效语音片段与其它路录音中的有效语音片段在时间上存在交叉,将当前结束的有效语音片段作为目标有效语音片段。
5.根据权利要求4所述的方法,其特征在于,在确定其它各路录音中不存在已经开始且还未结束的有效语音片段时,该方法还包括:
基于其它各路录音的VAD检测结果,确定其它各路录音中是否存在结束时间晚于当前结束的有效语音片段的开始时间的有效语音片段;
若存在,则确认当前结束的有效语音片段与其它路录音中的有效语音片段在时间上存在交叉,将当前结束的有效语音片段作为目标有效语音片段,若不存在,则确认当前结束的有效语音片段与其它路录音中的有效语音片段在时间上不存在交叉。
6.根据权利要求4所述的方法,其特征在于,还包括:
在对每一路录音进行语音活动VAD检测时,若检测到有效语音片段的开始时间,记录VAD状态为开始,若检测到有效语音片段的结束时间,更改VAD状态为结束,并将VAD状态加入VAD检测结果。
7.根据权利要求6所述的方法,其特征在于,所述在当前检测到一路录音中有效语音片段结束时,基于其它各路录音的VAD检测结果,确定其它各路录音中是否存在已经开始且还未结束的有效语音片段,包括:
在当前检测到一路录音中有效语音片段结束时,判断当前时刻其它各路录音的VAD检测结果中是否存在开始状态的VAD状态;
若是,则确定其它各路录音中存在已经开始且还未结束的有效语音片段,否则,确定其它各路录音中不存在已经开始且还未结束的有效语音片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽听见科技有限公司,未经安徽听见科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011341316.9/1.html,转载请声明来源钻瓜专利网。