[发明专利]语音处理设备及方法有效

申请号：	201410213321.X	申请日：	2014-05-20
公开（公告）号：	CN104240696B	公开（公告）日：	2018-06-12
发明（设计）人：	外川太郎;盐田千里;大谷猛	申请（专利权）人：	富士通株式会社
主分类号：	G10L13/08	分类号：	G10L13/08;G10L25/87
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王萍;陈炜
地址：	日本神***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	元音语音处理设备输入语音配置计算机处理器估计单元获取单元语音处理检测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

提供了一种语音处理设备和语音处理方法。所述语音处理设备包括计算机处理器，该设备包括：获取单元，其被配置成获得输入语音；检测单元，其被配置成检测包含在输入语音中的元音段；重音段估计单元，其被配置成估计包含在输入语音中的重音段；元音段长度指定单元，其被配置成指定包含重音段的第一元音段长度以及不包含重音段的第二元音段长度；以及控制单元，其被配置成控制第一元音段长度和第二元音段长度中的至少一个。

技术领域

本文中所讨论的实施方式涉及例如语音处理设备、语音处理方法以及用于控制输入信号的语音处理程序。

背景技术

例如，随着信息处理设备的最新进展及国际化，通过安装在个人计算机中的电话应用程序用外语进行电话呼叫变得越来越普遍。鉴于此趋势，公开了用于控制来自某种语言的非母语说话者的语音信号以使他/她的语音能够被该语言的母语说话者更容易地理解的方法。例如，日本专利第4942860号公开了这样一种技术：其用于通过使用声学模型的语音识别来生成与输入语音相对应的音素标志，根据特定转换表转换音素标志，并且根据所转换的音素标志产生合成语音。

合成语音产生技术涉及执行具有高负荷的处理(例如使用声学模型的语音识别)、生成音素标记以及生成合成语音，这可能导致语音处理中的延迟。本公开的目的是提供一种以语音处理中的缩减的处理负荷使得用户的输入语音能够被更好地理解的语音处理设备。

发明内容

根据实施方式的一个方面，一种语音处理设备包括计算机处理器，该设备包括：被配置成获得输入语音的获取单元；被配置成检测包含于所述输入语音中的元音段的检测单元；被配置成估计包含于所述输入语音中的重音段的重音段估计单元；被配置成指定包含所述重音段的第一元音段长度以及不包含所述重音段的第二元音段长度的元音段长度指定单元；以及被配置成控制所述第一元音段长度和所述第二元音段长度中的至少一个的控制单元。

将借助于权利要求中特别指出的要素及组合来实现并达到本发明的目的和优点。应当理解，如所要求保护的那样，前述一般描述和下述详细描述二者均是示例和说明并且不是对本发明的限制。

本文中所公开的语音处理设备以语音处理中的缩减的处理负荷使得用户的输入语音能够被更好地理解。

附图说明

参考附图，根据对实施方式的以下描述，所述和/或其他方面及优点将变得明显并且更容易被理解，其中：

图1是根据第一实施方式的语音处理设备的功能框图；

图2是根据实施方式的检测单元的功能框图；

图3示出了由检测单元进行的有声段检测及无声段检测的结果；

图4A示出了有声段与基音(pitch)频率之间的关系，而图4B示出了有声段与基音变化率之间的关系；

图5A示出了有声段与功率之间的关系；

图5B示出了有声段与功率变化率之间的关系；

图6示出了元音段长度比与目标缩放因子之间的关系；

图7A示出了针对母语说话者的讲话的有声段与频带的功率谱之间的关系；