[发明专利]自动实时言语障碍矫正有效
申请号: | 201380013442.3 | 申请日: | 2013-03-06 |
公开(公告)号: | CN104205215B | 公开(公告)日: | 2017-10-13 |
发明(设计)人: | P·K·马尔金;S·M·特雷文 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G10L21/057 | 分类号: | G10L21/057;G10L21/00;G10L25/48 |
代理公司: | 北京市中咨律师事务所11247 | 代理人: | 刘薇,于静 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 实时 言语 障碍 矫正 | ||
技术领域
本申请一般涉及计算机和计算机应用,更具体地,涉及自动矫正言语的音频信号。
背景技术
存在音频处理系统以试图矫正歌手的音高和节奏、修正唱得走调或不合节奏的音符。例如参见http://www dot abyssmedia dot com slash audioretoucher slash;http://documentation dot apple dot com/en/logicpro/usermanual/index.html#chapter=17%26section=15%26tasks=true。其它现有的音频处理系统自动地控制指定音频信号的音量,以使得音量保持在指定范围内(不太高或不太低)。例如参见http://en dot Wikipedia dot org/wiki/Dynamic_range_compression。还有其它的音频处理系统修正言语信号以用于改善的老年人的电话理解。例如参见http://jslhr dot asha dot org/cgi/content/abstract/54/5/1477。然而,这些系统并没有尝试消除在言语中与言语障碍相关联的伪迹(artifact),言语障碍诸如讲话时口吃、口齿不清和不自主发声。
用于自动识别言语信号中的口吃的技术已被探索,但还没有描述自动矫正过程。例如参见http://jslhr dot highwire dot org/cgi/content/abstract/40/5/1085。
Honal和Schultz在“Automatic Disfluency Removal On Recognized Spontaneous Speech-Rapid Adaptation To Speaker-Dependent Disfluencies”中,IEEE ICASSP 2005,描述了用于从话语中去除不流利的单词和短语的方法,但该方法在言语信号已被转录为文本之后应用,并不是在言语信号级别处理言语障碍。
发明内容
在一个方面,一种用于矫正用户的言语障碍的影响的方法可包括获取言语的音频信号。该方法还可包括分析音频信号以识别由于用户的言语障碍而造成的音频信号伪迹。该方法还可进一步包括通过从音频信号中消除所识别的音频信号伪迹来修正音频信号。该方法还包括提供修正后的音频信号。
在一个方面,一种用于矫正用户的言语障碍的影响的系统可包括接收器模块,其可操作以获取言语的音频信号。分析模块可操作以在处理器上执行,并还可操作以分析音频信号以识别由于用户的言语障碍而造成的音频信号伪迹。修正器模块可操作以通过从音频信号中消除所识别的音频信号伪迹来修正音频信号。播放器模块可操作以提供修正后的音频信号。
还可提供存储指令程序的计算机可读存储介质,其中指令程序能够由机器执行以执行一个或多个在此描述的方法。
以下参照附图详细描述各种实施例的其它特征以及结构和操作。在附图中,相同的参考数字指示相同或功能相似的元件。
附图说明
图1是示出在本公开的一个实施例中的矫正言语的方法的流程图;
图2是示出本公开的在一个实施例中公开的部件和传递途径的方框图;
图3示出了用于本公开的一个实施例中公开的方法的示例使用场景;
图4示出可实施本公开的一个实施例中的实时言语障碍系统的示例性计算机或处理系统的示意图。
具体实施方式
在本公开的一个实施例中的言语矫正可允许用户通过截取其言语、识别障碍的伪迹、消除这些伪迹并提供矫正后的言语以用于例如广播来处理言语障碍。在一个方面,可获取用户言语的音频信号。音频信号被分析以识别障碍伪迹,音频信号被修正以消除所识别的障碍伪迹,修正后的音频信号被提供为输出以播放。在本公开的一个实施例中,言语的矫正可以实时或接近实时地执行,以使得矫正后的言语可在该用户讲话时广播。
图1是示出本公开的一个实施例中的矫正言语的方法的流程图。在102,获取用户的言语障碍的规范。例如,口吃、口齿不清、不自主发声、或者在用户讲话时可能并不意图作为言语的一部分的其它类型被识别。
在104,获取与所获得的用户的言语障碍相关联的一个或多个音频伪迹模式。例如,音频伪迹模式可以是音频信号或者与一个或多个所获取的例如用户的言语障碍对应的信号的描述或规范。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380013442.3/2.html,转载请声明来源钻瓜专利网。