[发明专利]语音音节时长的自动归一化有效
申请号: | 201110184224.9 | 申请日: | 2011-05-17 |
公开(公告)号: | CN102254553A | 公开(公告)日: | 2011-11-23 |
发明(设计)人: | 特里·詹宁斯;保罗·若勒·麦克里斯 | 申请(专利权)人: | 阿瓦雅公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22;G10L15/10 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 宋鹤 |
地址: | 美国新*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 音节 自动 归一化 | ||
技术领域
示例性实施方式涉及增强通信的可理解性。更具体地,示例性实施方式涉及对当人们讲他们不习惯的语言时所常见的发音错误类型的自动实时纠正。
背景技术
即使两个人说相同的语言,并且精通语言的词汇和语法,他们之间的说话方式的不同,比如口音,发音精确度,韵律,语音,音高(pitch),节奏,声调,协同发音,音节重读和音节时长的不同,也能够影响他们相互理解对方的容易度。
理论上,应当可以处理来自人A的语音并且数字化地操纵该语音,以便A的语音中令B难以理解的方面被减少或者消除。实际上,难以预想能够在接近实时的任何情下,针对所有的上述因素来可靠地实现此。这是因为,对以上大多数因素的适当自动操纵不可能通过直接的声学分析来实现,而是要求在句法和语义上理解所说内容的含义。这之中的一个例外就是音节时长(syllable duration)。
几乎所有现代的基于语音的计算机和通信系统都以数字形式传输、路由或者存储语音。数字技术相比于模拟技术的一个明显的优势是提供高质量音频的能力(比如,致密盘相比于唱片,或者数字蜂窝动电话相比于模拟电话)。其它优势包括:在一个通信信道中发送更多同步传输数据,通过基于计算机的交换系统路由语音通信,以及在计算机盘和固态存储设备上存储语音的能力。
以下描述了减少使语音数字化所需的数据量的技术。
语音数字化
数字地编码语音的最简单的方法是生成数字序列,本质上,这些数字跟踪原始语音波形的“上和下(up and down)”。比如,若想将其中所有的重要声学信息都在4000Hz(4000个周期每秒)之下的波形数字化,则该模数转换的基本步骤包括以下步骤:
(1)将4000Hz以上的所有信息从原始信号中滤除。
(2)将原始信号分解成每秒8000个片段。
(3)顺序遍历片段,测量和记录下每个片段中的波形的平均幅度。
第一步的目的是防止‘混叠’——所观察事件的频率与采样速率的不期望的互相作用所导致的错误伪影的生成。运动图像中急速旋转的车轮的轮辐可能看起来保持静止或者甚至向后移动的现象是混叠的一个例子。
以最高频率正弦波的频率的两倍进行采样的第二步是必要的,以便捕获波形的波峰和波谷两者。
为了更加容易地理解第三步,可以想象为将原始波形画在一张纸上。在每个片段内,每个片段代表一秒的1/8000,使用标尺测量波形的高度。以这种方式获得的数字序列构成了原始波形的数字表示。
关于用于测量片段内的语音幅度的‘标尺’,与现代电话相当的语音质量要求每个片段12比特,每秒8000个片段。(作为比较,音频致密盘使用每个片段16比特,其中每秒44100个片段)。得到的每秒96000比特的数据速率意味着典型的1.44MB的软盘只能存储大约两分钟电话质量的语音。
数据速率的适度降低能够通过使用对数幅度编码方案来达到。以具有比大幅度高的精确度来表示小幅度的这些技术每个片断只使用8比特就可以达到和标准12比特系统相同的语音质量。示例包括在许多美国数字电话中发现的μ-律(发音为“myoo律”)编码,和在欧洲普遍使用的A-律编码。
对于传输成本或存储成本较重要的许多设备,比如无线电话机或语音邮件系统,使用简单的μ-律和A-律编码实现的数据速率的降低是不够的。一种实现数据速率显著降低的方法是提取波形的频率内容并数字化(而不是简单地对波形形状进行数字化)。
许多以该方式工作的编码器具有与人类发音机构的物理组件相映射的软件组件。它们通过只对控制语音生成模型的可变化组件的参数进行编码来降低数据率,这些参数例如是控制整体幅度的参数和调节电子‘声带’基音(fundamental pitch)的参数。
人类语音生成机构
考虑到这些编码器中的许多组件都有其对应的生理组件,在研究编码器之前理解人类发声机构是有帮助的。
人类发声机构的主要物理组件包括肺、声带和声腔。当一个人说话时,肺迫使空气经过声带并通过声腔。使空气呼出的压力决定了语音的最终幅度,或‘响度’。声带对呼吸流的作用决定了语音是浊音还是清音。
浊语音(例如,单词‘voice’中的’v’音)是通过在呼气时绷紧声带而产生。绷紧的声带暂时阻断空气流通,在短周期的猝发(burst)中释放气流。释放猝发的频率越高,音高就越高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿瓦雅公司,未经阿瓦雅公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110184224.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电镀工艺中的活化处理
- 下一篇:1-羟基环己基苯基甲酮的合成工艺