[发明专利]通话语音处理装置、通话语音处理方法及程序无效
申请号: | 200910209333.4 | 申请日: | 2009-11-04 |
公开(公告)号: | CN101740035A | 公开(公告)日: | 2010-06-16 |
发明(设计)人: | 难波隆一;安部素嗣;西口正之 | 申请(专利权)人: | 索尼株式会社 |
主分类号: | G10L21/00 | 分类号: | G10L21/00;G10L19/00 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 李晓冬;南霆 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通话 语音 处理 装置 方法 程序 | ||
1.一种通话语音处理装置,包括:
输入校正单元,所述输入校正单元将从通信装置的第一输入装置输入 的第一输入声音的特性校正为与所述第一输入声音的特性不同的、从所述 通信装置的第二输入装置输入的第二输入声音的特性,其中,所述第一输 入装置是通话麦克风;
声音分离单元,所述声音分离单元在多个声音被包含在所述第二输入 声音中时,将所述第二输入声音分离为多个声音;
声音类型估计单元,所述声音类型估计单元估计经所述声音分离单元 分离的多个声音的声音类型;
混合比计算单元,所述混合比计算单元根据由所述声音类型估计单元 估计出的声音类型来计算每个声音的混合比;
声音混合单元,所述声音混合单元以所述混合比计算单元计算出的混 合比来混合经所述声音分离单元分离的多个声音;以及
提取单元,所述提取单元利用由所述声音混合单元混合出的经混合声 音,从经所述输入校正单元校正后的第一输入声音中提取特定声音。
2.根据权利要求1所述的通话语音处理装置,其中,所述第二输入装 置是成像麦克风,并且
由所述提取单元提取的特定声音是通话者的语音。
3.根据权利要求1所述的通话语音处理装置,其中,所述声音分离单 元
将所述第一输入声音和所述第二输入声音分离为多个声音。
4.根据权利要求1所述的通话语音处理装置,其中,还包括:
声音确定单元,所述声音确定单元确定所述第一输入声音是否包含通 话者的语音。
5.根据权利要求4所述的通话语音处理装置,其中,所述声音确定单 元
通过利用输入声音的音量、频谱、多个输入声音的相位差以及离散时 间处的幅度信息分布中的至少一个来确定声源的方向、距离和音调,从而 判断通话者声源是否被包含。
6.根据权利要求1所述的通话语音处理装置,其中,所述输入校正单 元校正所述第一输入声音和/或所述第二输入声音的频率特性。
7.根据权利要求1所述的通话语音处理装置,其中,所述输入校正单 元对所述第一输入声音和/或所述第二输入声音执行采样速率转换。
8.根据权利要求1所述的通话语音处理装置,其中,所述输入校正单 元校正因所述第一输入声音和/或所述第二输入声音的模数转换而引起的延 迟差。
9.根据权利要求1所述的通话语音处理装置,其中
所述声音分离单元将输入声音分离为以块为单位的多个声音,并且
所述通话语音处理装置还包括:
相同性确定单元,所述相同性确定单元判断经所述声音分离单元分离 的声音在多个块间是否相同;以及
记录单元,所述记录单元以块为单位记录经所述声音分离单元分离的 声音。
10.根据权利要求1所述的通话语音处理装置,其中,所述声音分离 单元利用声音的统计独立性以及空间传输特性的差异来将输入声音分离为 多个声音。
11.根据权利要求1所述的通话语音处理装置,其中,所述声音分离 单元利用声源的时间频率分量之间的少量重叠,来将输入声音分离为源自 特定声源的声音以及其它声音。
12.根据权利要求1所述的通话语音处理装置,其中,所述声音类型 估计单元利用输入声音的离散时间处的幅度信息分布、方向、音量、零交 叉数来估计输入声音是稳定声音还是不稳定声音。
13.根据权利要求12所述的通话语音处理装置,其中,所述声音类型 估计单元对被估计为不稳定声音的声音是噪声声音还是人发出的语音进行 估计。
14.根据权利要求12所述的通话语音处理装置,其中,所述混合比计 算单元计算不会明显改变由所述声音类型估计单元估计为稳定声音的声音 的音量的混合比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼株式会社,未经索尼株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910209333.4/1.html,转载请声明来源钻瓜专利网。