[发明专利]审讯时语音分离的方法及装置有效
申请号: | 201810106940.7 | 申请日: | 2018-02-02 |
公开(公告)号: | CN108198570B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 马金龙;关海欣 | 申请(专利权)人: | 北京云知声信息技术有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L17/00;G10L17/02 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 朱健;张国香 |
地址: | 100000 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 审讯 语音 分离 方法 装置 | ||
本发明提供了一种审讯时语音分离的方法及装置,其中,该方法包括:获取第一音频采集装置采集的第一语音数据以及第二音频采集装置采集的第二语音数据,第一音频采集装置为指向审讯人的装置,第二音频采集装置为指向被审讯人的装置;对第一语音数据进行滤波处理,确定与审讯人相对应的审讯语音数据;以审讯语音数据作为参考信号,去除第二语音数据中的审讯语音数据,确定第二语音数据中的被审讯语音数据。该方法通过两组语音数据有效减小审讯人通道的干扰,从而实现审讯人与被审讯人说话信号的正确分离,之后利用语音识别可以正确识别审讯人和被审讯人的语音,从而可以自动生成审讯笔录,进而提高了审讯效率,并节约了人力成本。
技术领域
本发明涉及语音分离技术领域,特别涉及一种审讯时语音分离的方法及装置。
背景技术
目前,司法场景的审讯(如刑事审讯)一般采用笔录形式生成,效率较低,需要人工进行,造成人力、物力浪费。同时,由于审讯场景等的固有限制,导致麦克风采集到的信号往往会包含多个说话目标,直接对采集到的语音信号进行识别并不能有效区别说话目标;且被审讯人说话声音相对于审讯人说话声音往往过小,乃至会相差甚远,故目前大部分的审讯过程采用人工手动记录的方式。
发明内容
本发明提供一种审讯时语音分离的方法及装置,用以解决现有人工方式记录审讯笔录效率低的缺陷。
本发明实施例提供的一种审讯时语音分离的方法,包括:
获取第一音频采集装置采集的第一语音数据以及第二音频采集装置采集的第二语音数据,所述第一音频采集装置为指向审讯人的装置,所述第二音频采集装置为指向被审讯人的装置;
对所述第一语音数据进行滤波处理,确定与所述审讯人相对应的审讯语音数据;
以所述审讯语音数据作为参考信号,去除所述第二语音数据中的审讯语音数据,确定所述第二语音数据中的被审讯语音数据。
在一种可能的实现方式中,该方法还包括:
分别识别所述审讯语音数据和被审讯语音数据,确定相对应的审讯文本和被审讯文本。
在一种可能的实现方式中,所述确定相对应的审讯文本和被审讯文本包括:
确定所述审讯语音数据和被审讯语音数据的时间戳,并根据所述时间戳分别为所述审讯文本和所述被审讯文本添加相对应的时间戳,所述时间戳包括开始时间戳和结束时间戳;
根据所述时间戳确定所述审讯文本和所述被审讯文本中的重叠部分,并突出显示所述重叠部分对应的文本。
在一种可能的实现方式中,所述以所述审讯语音数据作为参考信号,去除所述第二语音数据中的审讯语音数据,包括:
根据所述第一音频采集装置与所述审讯人之间的距离以及所述第二音频采集装置与所述审讯人之间的距离确定信号时延;
根据所述信号时延对所述审讯语音数据进行时延处理,将时延处理后的审讯语音数据作为参考信号,并去除所述第二语音数据中的审讯语音数据。
在一种可能的实现方式中,所述以所述审讯语音数据作为参考信号,去除所述第二语音数据中的审讯语音数据,包括:
分别对所述审讯语音数据和所述第二语音数据进行预处理,确定与所述审讯语音数据对应的第一语音矩阵G1和与所述第二语音数据对应的第二语音矩阵G2;
根据所述第一语音矩阵G1和所述第二语音矩阵G2确定第三语音矩阵G3,G3=G2-λG1,λ为权重系数;
对所述第三语音矩阵G3进行降维处理,将所述第三语音矩阵G3转换为离散语音数组Xs,按照预设采样周期将所述离散语音数组Xs还原为连续的语音数据,将还原后的语音数据作为被审讯语音数据;
其中,所述预处理的过程包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云知声信息技术有限公司,未经北京云知声信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810106940.7/2.html,转载请声明来源钻瓜专利网。