[发明专利]将超媒体文件转换为语音的方法有效
申请号: | 98116195.2 | 申请日: | 1998-07-24 |
公开(公告)号: | CN1243284A | 公开(公告)日: | 2000-02-02 |
发明(设计)人: | 钟锦钧;黄绍华;钟崇斌 | 申请(专利权)人: | 财团法人工业技术研究院 |
主分类号: | G06F3/16 | 分类号: | G06F3/16 |
代理公司: | 柳沈知识产权律师事务所 | 代理人: | 马莹 |
地址: | 台湾省*** | 国省代码: | 台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 媒体文件 转换 语音 方法 | ||
本发明涉及将文字转换为语音的系统。
文字语音转换器(text-to-speech converter)是一种将文字转换为语音的装置。对有视觉障碍的人而言,这种装置可帮助他们听取外界的信息。在特定的环境下,这种装置也是一般人获得信息的一种重要配备,例如开车的时候,或是使用电话的时候。而这些信息的来源,可是电子文件,或是透过光学扫瞄单元及文字辩识装置所转换而来的文字信息。
在日常生活中,电子式信息的来源日益众多,且成级数增长,例如,电子邮件、日程表、电子新闻、股票信息及备受瞩目的全球信息网。要将这些电子信息转换为数字语音,若采用人工录音再加以数字化处理,不仅需要耗费庞大的人力及巨大的存储空间,而且人工录音方式无法适用于电脑系统依照使用者的需求来自动调整产生的电子信息。
对文字语音转换单元的设计人员而言,如何将各种原本适用于视觉显示的电子信息转换为语音型式,确定是一种挑战。其中最主要的原因在于,电子信息的呈现不仅需要呈现其文字内容,同时也需要考虑这些文字内容的呈现方式,例如在视觉显示中的大小写、粗体、斜体、段落式及列举型式等呈现方式。在进行文字语音转换时,这些原本用于控制视觉显示的格式及字体控制码,不能直接转换为语音。在文字内容中的标点符号也不是不能直接转换为语音。另外,在不同的前后文,一个字串的发音也会有不同的发音方法,例如中文的破音字发音,就是一典型的例子。为了解决这些问题,先前的技术发明提出了各种的解决方法。
美国专利第5,555,343号揭示了一种解决这类问题的文字语音转换技术。其中包含格式化及字体控制码的处理方式,以及标点符号及特定的文字数字格式的处理方法。此方法采用第一个事先建好的表格来将格式化及字体控制码对应成语音控制码,用来控制发音速度或音量大小。此方法采用第二个事先建好的表格来将特定的文字数字格式对应成口语化的文字字串。这些特定的文字数字格式包括用来表示时间而以冒号分隔的数字字串、用来表示日期而以斜线分隔的数字字串及用来表示档案目录而以斜线分隔的文字字串等。此方法采用第三个事先建好的表格来将标点符号或数学运算符号对应成口语化的文字字串或语音控制码。此方法使用一事先建好的表格,以决定一输入的字符为可发音或是不可发音。遇到不可发音的字符,才依照前述的第一、第二及第三个事先建好的表格,决定适当的发音方式。
美国专利第5,634,084号揭示另一种解决这类问题的文字语音转换技术。此方法选将输入的文字依上下文的关系加以分类成数字、度量单位、地理名词及时间日期等类别。再将此分类之后的文字依照一或多个不同类别的缩写字表加以展开,并对应成口语化的字词。例如地名的缩写“SF,CA”,此方法可将其转换为“San Francisco California(旧金山,加利福尼亚州)”;亦可将“MPEG”转换为口语化的“m peg”。
由于网际网路(Internet)及全球信息网(World Wide Web)的普及,全球信息网已成为当今电子信息的主要来源之一。全球信息网上的电子信息大部分采用超媒体标示语言(Hyper Text Markup Language,HTML)的格式,我们称之为超媒体文件。超媒体文件与其他电子文件不一样的地方是,在其原始文件中,除了文件内容外,还含有超媒体标(HHTML tag)。超媒体标签是超媒体标示语言所定义的文字标签,用于标示文件的内容与结构,或是文件的显示控制。例如,下面这个例子表示一段超媒体文件的原始文件:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于财团法人工业技术研究院,未经财团法人工业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/98116195.2/2.html,转载请声明来源钻瓜专利网。