[发明专利]结合音视频的多人会议实时展示的方法、介质和电子设备在审
申请号: | 202010768772.5 | 申请日: | 2020-08-03 |
公开(公告)号: | CN111818294A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 吕安旗;郑达;李索恒;张志齐 | 申请(专利权)人: | 上海依图信息技术有限公司 |
主分类号: | H04N7/15 | 分类号: | H04N7/15;H04N21/43;H04N21/431;H04N21/488;G10L15/26;G10L17/00;G10L21/028;G06F16/432;G06K9/00 |
代理公司: | 上海华诚知识产权代理有限公司 31300 | 代理人: | 徐颖聪 |
地址: | 200233 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 视频 会议 实时 展示 方法 介质 电子设备 | ||
1.一种结合音视频的多人会议实时展示的方法,其特征在于,所述方法包括:
获取参会人员中发言人的音频数据;
对所述音频数据进行语音识别处理,得到所述发言人的文本信息;
将所述文本信息同步且实时展示在包含所述发言人的会议视频中所述发言人对应的区域,每个所述发言人的文本信息和每个所述发言人在会议视频中的位置一一对应。
2.如权利要求1所述的方法,其特征在于,所述将所述文本信息同步且实时展示在包含所述发言人的会议视频中所述发言人对应的区域,包括:
分析所述音频数据,确定所述发言人的声音特征信息;
将所述发言人的所述声音特征信息与数据库中所述参会人员的认证信息进行匹配,得到所述发言人的脸部特征信息,其中所述认证信息包括所述声音特征信息和所述脸部特征信息;
利用所述发言人的所述脸部特征信息,获取所述会议视频;
将所述文本信息同步且实时展示在所述会议视频中所述发言人对应的区域。
3.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
根据所述发言人的所述音频数据判断是否有多人在说话;
当判断出发言人数量为多个时,则对所述的音频数据进行说话人分离。
4.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
根据所述会议视频判断是否有多人在说话;
当判断出发言人数量为多个时,则对所述的音频数据进行说话人分离。
5.如权利要求2所述的方法,其特征在于,所述方法还包括:
生成会议纪要,所述会议纪要包括所述发言人的所述认证信息和所述文本信息。
6.如权利要求2所述的方法,其特征在于,将所述发言人的所述声音特征信息与数据库中所述参会人员的认证信息进行匹配,得到所述发言人的脸部特征信息,包括:数据库中存储声音特征信息和脸部特征信息映射关系表,根据所述发言人的声音特征信息查询所述声音特征信息和脸部特征信息映射关系表,得到所述发言人的脸部特征信息。
7.如权利要求6所述的方法,其特征在于,所述根据所述发言人的声音特征信息查询所述声音特征信息和脸部特征信息映射关系表,得到所述发言人的脸部特征信息,包括:
若所述发言人的声音特征信息与所述声音特征信息和脸部特征信息映射关系表中的声音特征信息的相似度值大于预设相似度值,则将大于预设相似度值的声音特征信息对应的脸部特征信息确定为所述发言人的脸部特征信息。
8.一种结合音视频的多人会议实时展示的装置,其特征在于,所述装置包括:
获取单元,用于获取参会人员中发言人的音频数据;
识别单元,用于对所述音频数据进行语音识别处理,得到所述发言人的文本信息;
同步单元,用于将所述文本信息同步且实时展示在包含所述发言人的会议视频中所述发言人对应的区域,每个所述发言人的文本信息和每个所述发言人在会议视频中的位置一一对应。
9.一种可读介质,其特征在于,所述可读介质上存储有指令,该指令在电子设备上执行时使电子设备执行权利要求1至7中任一项所述的结合音视频的多人会议实时展示的方法。
10.一种电子设备,其特征在于,包括:
存储器,用于存储由电子设备的一个或多个处理器执行的指令,以及
处理器,是电子设备的处理器之一,用于执行权利要求1至7中任一项所述的结合音视频的多人会议实时展示的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海依图信息技术有限公司,未经上海依图信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010768772.5/1.html,转载请声明来源钻瓜专利网。