[发明专利]语音处理设备及方法有效
申请号: | 201410213321.X | 申请日: | 2014-05-20 |
公开(公告)号: | CN104240696B | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | 外川太郎;盐田千里;大谷猛 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L25/87 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王萍;陈炜 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 元音 语音处理设备 输入语音 配置 计算机处理器 估计单元 获取单元 语音处理 检测 | ||
提供了一种语音处理设备和语音处理方法。所述语音处理设备包括计算机处理器,该设备包括:获取单元,其被配置成获得输入语音;检测单元,其被配置成检测包含在输入语音中的元音段;重音段估计单元,其被配置成估计包含在输入语音中的重音段;元音段长度指定单元,其被配置成指定包含重音段的第一元音段长度以及不包含重音段的第二元音段长度;以及控制单元,其被配置成控制第一元音段长度和第二元音段长度中的至少一个。
技术领域
本文中所讨论的实施方式涉及例如语音处理设备、语音处理方法以及用于控制输入信号的语音处理程序。
背景技术
例如,随着信息处理设备的最新进展及国际化,通过安装在个人计算机中的电话应用程序用外语进行电话呼叫变得越来越普遍。鉴于此趋势,公开了用于控制来自某种语言的非母语说话者的语音信号以使他/她的语音能够被该语言的母语说话者更容易地理解的方法。例如,日本专利第4942860号公开了这样一种技术:其用于通过使用声学模型的语音识别来生成与输入语音相对应的音素标志,根据特定转换表转换音素标志,并且根据所转换的音素标志产生合成语音。
合成语音产生技术涉及执行具有高负荷的处理(例如使用声学模型的语音识别)、生成音素标记以及生成合成语音,这可能导致语音处理中的延迟。本公开的目的是提供一种以语音处理中的缩减的处理负荷使得用户的输入语音能够被更好地理解的语音处理设备。
发明内容
根据实施方式的一个方面,一种语音处理设备包括计算机处理器,该设备包括:被配置成获得输入语音的获取单元;被配置成检测包含于所述输入语音中的元音段的检测单元;被配置成估计包含于所述输入语音中的重音段的重音段估计单元;被配置成指定包含所述重音段的第一元音段长度以及不包含所述重音段的第二元音段长度的元音段长度指定单元;以及被配置成控制所述第一元音段长度和所述第二元音段长度中的至少一个的控制单元。
将借助于权利要求中特别指出的要素及组合来实现并达到本发明的目的和优点。应当理解,如所要求保护的那样,前述一般描述和下述详细描述二者均是示例和说明并且不是对本发明的限制。
本文中所公开的语音处理设备以语音处理中的缩减的处理负荷使得用户的输入语音能够被更好地理解。
附图说明
参考附图,根据对实施方式的以下描述,所述和/或其他方面及优点将变得明显并且更容易被理解,其中:
图1是根据第一实施方式的语音处理设备的功能框图;
图2是根据实施方式的检测单元的功能框图;
图3示出了由检测单元进行的有声段检测及无声段检测的结果;
图4A示出了有声段与基音(pitch)频率之间的关系,而图4B示出了有声段与基音变化率之间的关系;
图5A示出了有声段与功率之间的关系;
图5B示出了有声段与功率变化率之间的关系;
图6示出了元音段长度比与目标缩放因子之间的关系;
图7A示出了针对母语说话者的讲话的有声段与频带的功率谱之间的关系;
图7B示出了针对非母语说话者的讲话的有声段与频带的功率谱之间的关系;
图8示出了针对由母语说话者所说的词语的第一元音段长度与第二元音段长度之间的关系;
图9是说明要由语音处理设备执行的语音处理方法的流程图;
图10示出了元音段长度与目标缩放因子之间的关系;
图11是根据第三实施方式的语音处理设备的功能框图;
图12是根据第四实施方式的语音处理设备的功能框图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410213321.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种全小米粉窝头及其生产方法
- 下一篇:一种调节脾胃虚寒的炭香米及其制备方法