[发明专利]多人发言中发言人识别方法以及装置有效
申请号: | 201810100768.4 | 申请日: | 2018-02-01 |
公开(公告)号: | CN108399923B | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 卢启伟;刘善果;刘佳 | 申请(专利权)人: | 深圳市鹰硕技术有限公司 |
主分类号: | G10L25/54 | 分类号: | G10L25/54;G10L25/21;G10L25/18;G10L15/26;G10L15/14;G10L15/04 |
代理公司: | 深圳余梅专利代理事务所(特殊普通合伙) 44519 | 代理人: | 井杰;高真辉 |
地址: | 518100 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 发言 身份信息 谐音 波段 计算机技术领域 存储介质 电子设备 计算分析 语音片段 预设 抽取 分析 | ||
本公开是关于一种多人发言中发言人识别方法、装置、电子设备以及存储介质,涉及计算机技术领域。该方法包括:获取多人发言中的发言内容,抽取并处理得到所述发言内容中预设长度的语音片段中的谐音波段,计算分析所述谐音波段中谐音数量及其相对强度,并以此确定同一发言人,通过对不同发言人对应的发言内容进行分析,识别出各发言人的身份信息,最后生成不同发言人的发言内容与发言人身份信息的对应关系。本公开可以根据各发言人发言内容有效的区分出发言人身份信息。
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种多人发言中发言人识别方法、装置、电子设备以及计算机可读存储介质。
背景技术
目前,通过电子设备录制音频或录制视频来记录事件为日常生活带来了极大的便利。例如:对课堂上老师讲课内容进行音视频录制,方便老师再次教学或学生复习功课;或者,在会议、观看电视直播等场合,使用电子设备录制音视频方便再次播放或电子资料的存档、查阅等等。
然而,当音视频文件中有多人发言时,对于不熟悉的人或声音不能仅根据面孔或声音即辨别出当前发言人或所有发言人的信息,或者在需要形成会议文件时,还需要人为回放录音并自行辨别声音才能识别出各个音频对应的发言人,若对发言人比较陌生还极其容易出现识别错误等情况。
因此,需要提供一种或多种至少能够解决上述问题的技术方案。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种多人发言中发言人识别方法、装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本公开的一个方面,提供一种多人发言中发言人识别方法,包括:
获取多人发言中的发言内容,抽取所述发言内容中预设长度的语音片段,对所述语音片段进行去基波化处理,得到所述语音片段的谐音波段;
对所述预设时长的语音片段中的谐音波段进行检测,计算检测期间的谐音数量,分析各谐音的相对强度;
将不同检测周期中具有相同谐音数量以及相同谐音强度的语音标记为同一发言人;
通过对不同发言人对应的发言内容进行分析,识别出各发言人的身份信息;
生成不同发言人的发言内容与发言人身份信息的对应关系。
在本公开的一种示例性实施例中,所述方法还包括:通过对不同发言人对应的发言进行分析,识别出各发言人的身份信息,包括:
将不同发言人的发言输入语音识别模型,识别出具有身份信息的词语特征;
对所述具有身份信息的词语特征结合所述词语特征所在句子进行语义分析,确定出当前发言人或其他时段发言人的身份信息。
在本公开的一种示例性实施例中,将不同发言人的发言输入语音识别模型,识别出具有身份信息的词语特征,包括:
对不同发言人的发言音频静音切除处理;
以预设帧长及预设长度帧移对所述不同发言人的发言分帧,得到预设帧长的语音片段;
使用隐马尔可夫模型使用隐马尔可夫模型λ=(A,B,π)提取所述语音片段的声学特征,识别出具有身份信息的词语特征;
其中:A为隐含状态转移概率矩阵;B为观测状态转移概率矩阵;π初始状态概率矩阵。
在本公开的一种示例性实施例中,所述方法还包括:通过对不同发言人对应的发言进行分析,识别出各发言人的身份信息,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市鹰硕技术有限公司,未经深圳市鹰硕技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810100768.4/2.html,转载请声明来源钻瓜专利网。