[发明专利]用于合成语音的方法和设备无效
申请号: | 200980150425.8 | 申请日: | 2009-12-07 |
公开(公告)号: | CN102246225A | 公开(公告)日: | 2011-11-16 |
发明(设计)人: | F.J.H.M.穆伦布罗克斯 | 申请(专利权)人: | 皇家飞利浦电子股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 董宁;刘鹏 |
地址: | 荷兰艾*** | 国省代码: | 荷兰;NL |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 合成 语音 方法 设备 | ||
技术领域
本发明涉及一种用于合成语音、特别是从多个文本数据部分合成语音的方法和设备。
背景技术
语音合成,特别是文本-语音转换,在本领域中是公知的并且包括从例如源文本人工产生人类语音。通过这种方式,将文本转换成语音,这对于文盲或弱视者是有用的。与源文本的机器翻译相结合,文本-语音转换也可以允许外语文本在用户母语中的音频复现。
可以转换成语音的一种形式的文本是字幕。字幕是诸如电视节目或电影之类的视频项目回放期间显示的文本部分。字幕有本领域技术人员公知的三种主要类型:“开放式”字幕,其中字幕文本与来自原始视频流的视频帧合并以产生随后以常规方式显示的最终视频流;“预再现”字幕,其中字幕存储为单独的视频帧,其可选地可以叠加到原始视频流上以便一起观看;以及“封闭式”字幕,其中字幕文本存储为标记文本(即像XML或HTML中的具有标记注释的文本)并且由允许与原始视频流同步回放的专用系统复现,例如图文字幕或封闭字幕信息。
已知将各种不同的符号和风格应用到字幕文本以便向观看者传递附加的信息,例如是否正在说或唱文本部分,或者文本部分是否涉及不同于语音的声音(例如门砰击或叹息)。此外,已知以各种不同的颜色复现字幕,每种颜色代表给定的说话者或者一群说话者。因此,耳背者可以在电视广播期间通过将颜色与每个说话者关联来区分说话者。
字幕也用于翻译的目的。例如,包含第一语言的语音的电影可以具有施加于其上的第二语言的字幕,从而允许第二语言的读者理解该电影。然而,该解决方案对于阅读困难(例如由于弱视或文盲)的第二语言的那些说话者是不够的。电影制作者广泛使用的一个选项是雇佣演员对原始语音“配音”,但这是昂贵且耗时的过程。
当前设置中没有一个允许阅读困难的用户区分以文本形式呈现的不同类别的信息。
发明内容
本发明意在通过对于每个文本类别或者每组文本类别提供对应话音的语音合成而使得用户能够区分不同类别的文本。
依照本发明的第一方面,提供了一种合成语音的方法,该方法包括:接收多个文本数据部分,每个文本数据部分具有与其关联的至少一个属性;对于所述文本数据部分的每一个确定至少一个属性的值;基于所述确定的属性值的每一个从多个候选话音中选择话音;以及使用所述对应选择的话音将每个文本数据部分转换成合成语音。
通过这种方式,有可能将不同类别的文本(例如涉及不同的说话者或者不同类别的信息内容,例如标题和章节标题与章节内容)彼此区分。
所述多个文本数据部分可以包含在封闭式字幕中(例如作为标记文本数据)。此外,对于所述文本数据部分的每一个确定至少一个属性的值可包括,对于所述文本数据部分的每一个,确定包含在与文本数据的对应部分关联的封闭式字幕内的代码(例如通过标识标记文本数据的注释)。
可替换地,接收多个文本数据部分可以包括对多幅图像(例如视频帧)执行光学字符识别(OCR)或者类似的模式匹配技术以便提供多个文本数据部分,每幅图像包含包括封闭式字幕、预再现字幕或开放式字幕的文本部分的至少一个视觉表示。此外,所述多个文本数据部分之一的所述至少一个属性可以包括:文本部分的视觉表示之一的文本特征(例如颜色、字样、字体、字体粗细、大小或宽度、字形,如斜体或粗体,等等);图像中文本部分的视觉表示之一的位置(例如视频帧或者图像中相邻的另一文本部分的左边或右边,或者顶部或底部);或者用于与对应图像中文本部分的视觉表示之一同时复现的音频信号的音高(例如第一语言的说话者话音的音高,第一语言的文本部分是第二语言的译文)。
候选话音可以包括男性和女性的话音、具有不同口音的话音和/或在其对应音高或音量上不同的话音。
选择话音可以包括从所述多个候选话音中选择最佳的(即最合适的)话音。例如,如果与文本数据部分关联的属性指示该文本大写,那么可以以较高音量合成语音,或者以更迫切响亮的话音合成语音。类似地,如果属性是文本部分之前的项(例如“[耳语]”)的形式,那么可以以较低的音量合成语音。另一方面,如果与文本部分关联的属性与用于同时复现的音频信号的音量或音高相应,那么话音可以被选择成使得合成语音的音量或音高相应。可替换地,适当话音的选择可以由用户进行,而不是或者覆盖自动选择。
依照本发明的第二方面,提供了一种计算机程序产品,其包括用于执行上面的方法的多个程序代码部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家飞利浦电子股份有限公司,未经皇家飞利浦电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200980150425.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:触控面板及其制造方法
- 下一篇:对音频数字信号进行编码、解码的方法及系统