[发明专利]多人会议语音转写方法、装置、系统、设备及存储介质有效
申请号: | 201910182528.8 | 申请日: | 2019-03-12 |
公开(公告)号: | CN110049270B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 岳鹏昱 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | H04N7/15 | 分类号: | H04N7/15;G10L15/22;G10L15/26;H04L12/18 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 胡安 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 会议 语音 转写 方法 装置 系统 设备 存储 介质 | ||
1.一种多人会议语音转写方法,其特征在于,所述多人会议语音转写方法包括以下步骤:
在进行会议时,接收麦克风设备上传的参会人员的发言语音;
将所述发言语音传输至语音识别系统进行语音识别,并接收所述语音识别系统返回的翻译文本;
在会议结束时,按照预置会议纪要格式,生成本次会议的会议纪要,其中,所述会议纪要包括参会人员的发言语音以及发言语音对应的翻译文本;
所述多人会议语音转写方法还包括:
在进行会议时,接收麦克风设备上传的麦克风设备的MAC地址;
根据所述MAC地址,查询麦克风设备与参会人员的绑定关系,以确定所述发言语音对应的参会人员;
在所述在进行会议时,接收麦克风设备上传的参会人员的发言语音的步骤之前,还包括:
录制参会人员的语音数据;
将所述语音数据传输至所述语音识别系统,以供所述语音识别系统提取所述语音数据的声纹特征,并将参会人员的声纹特征加入声纹特征库;
所述多人会议语音转写方法还包括:
接收所述语音识别系统返回的所述语音识别系统基于声纹特征确定的所述发言语音对应的参会人员;
所述将所述发言语音传输至语音识别系统进行语音识别,并接收所述语音识别系统返回的翻译文本,包括:
计算所述发言语音的能熵比;
基于所述能熵比,对所述发言语音进行静音段与非静音段划分;
当所述发言语音处于静音段时,将所述发言语音中的非静音段语音传输至语音识别系统进行语音识别,并接收所述语音识别系统返回的翻译文本;
其中,所述语音识别系统通过以下方式进行语音识别:对发言语音进行分帧处理,得到多个带时序的语音帧;按照时序依次提取所述语音帧的声音特征并生成包含声音信息的多维声音特征向量;将所述多维声音特征向量输入预置声学模型进行处理,输出语音帧对应的音素信息;基于所述音素信息,查找预置字典,输出各音素信息对应的字或词;按照输出顺序将各音素信息对应的字或词输入预置语言模型进行处理,输出单个字或词相互关联的概率;将输出的最大概率的字或词拼接为翻译文本。
2.如权利要求1所述的多人会议语音转写方法,其特征在于,在所述在进行会议时,接收麦克风设备上传的参会人员的发言语音的步骤之前,还包括:
创建会议并配置所述会议的相关信息;
其中,所述相关信息包括:会议主题、会议时间、会议地点、参会人员、麦克风设备、麦克风设备与参会人员的绑定关系。
3.一种多人会议语音转写装置,其特征在于,所述多人会议语音转写装置包括:
语音接收模块,用于在进行会议时,接收麦克风设备上传的参会人员的发言语音;
语音转写模块,用于将所述发言语音传输至语音识别系统进行语音识别,并接收所述语音识别系统返回的翻译文本;
纪要生成模块,用于在会议结束时,按照预置会议纪要格式,生成本次会议的会议纪要,其中,所述会议纪要包括参会人员的发言语音以及发言语音对应的翻译文本;
人员确定模块,用于在进行会议时,接收麦克风设备上传的麦克风设备的MAC地址;根据所述MAC地址,查询麦克风设备与参会人员的绑定关系,以确定所述发言语音对应的参会人员;
语音传输模块,用于录制参会人员的语音数据;将所述语音数据传输至所述语音识别系统,以供所述语音识别系统提取所述语音数据的声纹特征,并将参会人员的声纹特征加入声纹特征库;
人员接收模块,用于接收所述语音识别系统返回的所述语音识别系统基于声纹特征确定的所述发言语音对应的参会人员;
语音转写模块,还用于计算所述发言语音的能熵比;基于所述能熵比,对所述发言语音进行静音段与非静音段划分;当所述发言语音处于静音段时,将所述发言语音中的非静音段语音传输至语音识别系统进行语音识别,并接收所述语音识别系统返回的翻译文本;
其中,所述语音识别系统通过以下方式进行语音识别:对发言语音进行分帧处理,得到多个带时序的语音帧;按照时序依次提取所述语音帧的声音特征并生成包含声音信息的多维声音特征向量;将所述多维声音特征向量输入预置声学模型进行处理,输出语音帧对应的音素信息;基于所述音素信息,查找预置字典,输出各音素信息对应的字或词;按照输出顺序将各音素信息对应的字或词输入预置语言模型进行处理,输出单个字或词相互关联的概率;将输出的最大概率的字或词拼接为翻译文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910182528.8/1.html,转载请声明来源钻瓜专利网。