[发明专利]字幕生成方法及终端有效
申请号: | 201810274629.3 | 申请日: | 2018-03-29 |
公开(公告)号: | CN110324723B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 马鹏 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | H04N21/488 | 分类号: | H04N21/488;H04N21/442;H04N21/439;G10L15/26 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字幕 生成 方法 终端 | ||
本申请实施例公开了一种字幕生成方法及终端,方法包括:第一终端获取麦克风的标识信息,并通过摄像头采集处于麦克风第一距离内的人脸图像信息;第一终端根据预先建立的人脸身份信息表,确定人脸图像信息对应的用户识别信息为麦克风对应的用户识别信息;当第一终端接收到麦克风发送的第一语音数据时,第一终端获取第一语音数据对应的字幕信息,字幕信息包括语音数据对应的文本信息以及麦克风对应的用户识别信息。第一终端通过第一屏幕显示第一语音数据对应的字幕信息。采用本发明,第一终端通过建立麦克风与用户识别信息的对应关系,能够准确匹配使用该麦克风的发言人的用户识别信息,并生成字幕显示,以使参会人员能够将发言人与字幕对应起来。
技术领域
本申请涉及电子技术领域,尤其涉及一种字幕生成方法及终端。
背景技术
远程会议指位于两个或多个地点的人们,通过通信设备和网络,进行实时交谈的会议。由于该场景的声源场景比较复杂(涉及的参会人数多、口音不一),且语音数据可能因在传播过程中有损而不够清晰。因此,远程会议中仅有声音或者画面是不能满足沟通准确性的需求的。目前,根据会议人员的发言生成相应的字幕并显示,成为远程会议的必需之一。
但是,现有的字幕仅仅将发言人发出的语音数据转换成了文本信息呈现给参会人员,仍然存在的问题就是,无法将发言人与字幕对应起来,也就是说,参会人员虽然能够通过字幕了解发言所表达的信息,但是并不知道到底是谁说的,甚至无法区分字幕显示的到底是同一个人的发言还是不同人的发言,因此,现有的字幕生成方案仍然不能满足远程会议对于沟通准确性和便利性的要求。
发明内容
本申请实施例提供一种字幕生成方法及终端,以期满足远程会议对沟通准确性和便利性的要求。
第一方面,本申请实施例提供了一种字幕生成方法,包括:
第一终端获取麦克风的标识信息,并通过摄像头采集处于麦克风第一距离内的人脸图像信息;
第一终端根据预先建立的人脸身份信息表,确定人脸图像信息对应的用户识别信息为麦克风对应的用户识别信息;
当第一终端接收到麦克风发送的第一语音数据时,第一终端获取第一语音数据对应的字幕信息,字幕信息包括第一语音数据对应的文本信息以及麦克风对应的用户识别信息;
第一终端通过第一屏幕显示第一语音数据对应的字幕信息。
在该技术方案中,第一终端通过建立麦克风与其第一距离内的人脸图像信息对应的用户识别信息的对应关系,能够在第一终端接收到麦克风发送的第一语音数据时,准确地匹配出使用该麦克风发言的发言人的用户识别信息,从而可以结合语音数据对应的文本信息以及麦克风对应的用户识别信息生成字幕显示给参会人员,以使参会人员能够将发言人与字幕对应起来,从而满足远程会议对于沟通准确性和便利性的要求。
在一种设计中,第一终端获取第一语音数据对应的字幕信息包括:
第一终端对第一语音数据进行语音识别得到第一语音数据对应的文本信息。
在一种设计中,该方法还包括:
第一终端向第二终端发送第一语音数据对应的字幕信息,第一语音数据对应的字幕信息被第二终端通过第二屏幕显示,第二终端为与第一终端进行语音交互的终端。
在该技术方案中,第一终端将自身采集的第一语音数据生成的对应的字幕信息发送给第二终端,以使与第一终端进行远程会议的各个会场的参会人员,也可以通过第二屏幕呈现第一终端所在会场的发言人讲话的字幕信息。
在一种设计中,该方法还包括:
第一终端接收第二终端发送的第二终端采集的第二语音数据对应的字幕信息;
第一终端通过第一屏幕显示第二语音数据对应的字幕信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810274629.3/2.html,转载请声明来源钻瓜专利网。