[发明专利]一种实时分角色转录方法、设备和系统有效
申请号: | 202011477913.4 | 申请日: | 2020-12-15 |
公开(公告)号: | CN112530411B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 袁斌 | 申请(专利权)人: | 北京快鱼电子股份公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/08;G10L15/26;G10L25/03;G10L25/51 |
代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 张彩珍 |
地址: | 100093 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实时 角色 转录 方法 设备 系统 | ||
1.一种实时分角色转录方法,其特征在于,包括以下步骤:
S100:将具有指向性麦克风的声音采集装置设置于双方说话人中间的侧面,分别采集得到左声道声音信号和右声道声音信号;
S200:检测所述左声道声音信号和所述右声道声音信号中是否含有语音段,若检测到语音段,则提取所述语音段对应的左声道语音段和右声道语音段;
S300:基于所述左声道语音段和所述右声道语音段的相位差、幅度差和基频检测,判断所述左声道语音段和所述右声道语音段属于单侧讲话还是双侧讲话;
S400:若步骤S300判断为单侧讲话,则进一步基于所述左声道语音段和所述右声道语音段的幅度差和相位差判断说话人是位于左侧还是右侧;若判断说话人位于左侧,则将所述左声道语音段进行聚类形成左侧聚类中心,并将所述左声道语音段发送至语音识别引擎,作为左侧说话人的话语进行转录;若判断说话人位于右侧,则将所述右声道语音段进行聚类形成右侧聚类中心,并将所述右声道语音段发送至语音识别引擎,作为右侧说话人的话语进行转录;
S500:若步骤S300判断为双侧讲话,则基于所述左侧聚类中心分离所述左声道语音段和右声道语音段中包含的左侧语音信号,基于所述右侧聚类中心分离所述左声道语音段和右声道语音段中包含的右侧语音信号;并将分离后的所述左侧语音信号和右侧语音信号发送至语音识别引擎,分别作为左侧说话人的话语和右侧说话人的话语进行转录;
其中,所述步骤S300包括以下子步骤:
S310:将实时采集的所述左声道语音段和所述右声道语音段进行幅度、相位对比;
S320:当所述左声道语音段和右声道语音段的幅度差大于设定阈值,且连续5帧的相位差固定位于同一侧时,判定为单侧讲话;
S330:当所述左声道语音段和所述右声道语音段的幅度差小于等于设定阈值时,再进行基频检测,若检测发现频谱上有多个基频轨迹,则判定为双侧讲话;
所述步骤S500中通过以下步骤进行分离:
S510:基于左侧聚类中心分别计算所述左声道语音段和右声道语音段落入左侧的概率,得到左侧第一IRM值和右侧第一IRM值;基于右侧聚类中心分别计算所述左声道语音段和右声道语音段落入右侧的概率,得到左侧第二IRM值和右侧第二IRM值;
S520:计算所述左声道语音段和左侧第一IRM值的乘积以及所述右声道语音段和左侧第二IRM值的乘积,对两个乘积求和以获得左侧语音信号的频谱信息;计算所述左声道语音段和右侧第一IRM值的乘积以及所述右声道语音段和右侧第二IRM值的乘积,对两个乘积求和以获得右侧语音信号的频谱信息;
S530:分别对所述左侧语音信号的频谱信息和右侧语音信号的频谱信息进行傅里叶反变换以得到左侧语音信号和右侧语音信号。
2.根据权利要求1所述的实时分角色转录方法,其特征在于,所述步骤S200包括以下子步骤:
S210:分别提取所述左声道声音信号和所述右声道声音信号中的基频和子带能量;
S220:基于所述基频、子带能量和阈值判断所述左声道声音信号和所述右声道声音信号中是否含有语音段;
S230:若检测到所述语音段,则提取所述语音段得到对应的左声道语音段和右声道语音段。
3.根据权利要求1所述的实时分角色转录方法,其特征在于,所述步骤S400中判断说话人位于左侧还是右侧通过以下方式实现:
当所述左声道语音段的幅度大于所述右声道语音段的幅度,且差值大于设定阈值,则判定说话人位于左侧;当所述右声道语音段的幅度大于所述左声道语音段的幅度,且差值大于设定阈值,则判定说话人位于右侧。
4.根据权利要求1所述的实时分角色转录方法,其特征在于,所述步骤S400中判断说话人位于左侧还是右侧通过以下方式实现:
估算所述左声道语音段和所述右声道语音段的时延,若是先采集到所述左声道语音段后采集到所述右声道语音段,则判定说话人位于左侧;若是先采集到所述右声道语音段后采集到所述左声道语音段,则判定说话人位于右侧。
5.根据权利要求1所述的实时分角色转录方法,其特征在于,步骤S400中,若说话人位于的左侧,则停止采集所述右声道的语音模拟信号;若说话人位于右侧,则停止采集所述左声道的语音模拟信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京快鱼电子股份公司,未经北京快鱼电子股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011477913.4/1.html,转载请声明来源钻瓜专利网。