[发明专利]字转音的使用者界面系统及修改方法无效
申请号: | 200610077661.X | 申请日: | 2006-04-25 |
公开(公告)号: | CN101064105A | 公开(公告)日: | 2007-10-31 |
发明(设计)人: | 黄良声;许天明;洪健洲;叶耿宏;王闵鸿;沈家麟 | 申请(专利权)人: | 台达电子工业股份有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/00;G06F9/44;G06F17/30 |
代理公司: | 上海专利商标事务所有限公司 | 代理人: | 陈亮 |
地址: | 台湾省桃园县龟*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字转音 使用者 界面 系统 修改 方法 | ||
【技术领域】
本发明指一种字转音的使用者界面系统及修改方法,特别是应用于语音辨识技术的一种字转音的使用者界面系统及修改方法。
【背景技术】
在非特定语者(speaker-independent)语音辨识领域(例如Hmm-based speechrecognition)之中,辨识词汇(recognition vocabulary)常常是通过文字(text)转换成音标(phonetic symbol)的形式所构成;而且,每个音标都有其相对应的声学模型(acoustic model)。对于每一个辨识语(word)来说,其组成音标的相应声学模型系串连成一个辨识语模块(word model),然后供辨识引擎进行比对之用。
但由于一字(word)多音、或是辞典里的发音不正确、或是新词(new words)的出现,此时便需要靠发音规则来产生其音标,但有时该发音规则又不足以囊括或适用于这些新词时,便常常造成此一字转音(text-to-phone)的过程中极易出现误差。举例来说,中文词的”单身”其正确发音应为<d a n sh ax n>,但有可能被误转为<sha n sh ax n>;另外,英文字“record”作为名词时发音为<’r eh k r d>,作为动词时发音则变为<r ih‘k or d>,这种情形下便有可能选错;再者,专有名词(商标)“BenQ”在辞典里面虽然找不到,但根据发音规则它应该念成<b eh n k>,可是大家却都将该词读成<b eh n k y uw>,诸如此类的错误林林总总而不胜枚举。
由于这种错误会增加语音辨识上的错误率,因此现行非特定语者的语音辨识系统对于字转音错误的处理上,光靠有限的发音辞典和发音规则是很难满足人类生活中所不断出产的变化万千的词汇。因此,实际所使用的系统上常常会提供一个图形化使用界面(Graphical User Interface,GUI),让使用者自行来修改这些音标或词汇,
然而,过去的GUI设计由于是将所有语汇及其标音同时列出,并未再提供任何得以判断该标音的正确性的根据,导致使用者在进行修改操作时必须把所有的语汇一个一个地从头到尾检查一次,才能验证完它们的发音;但当词汇量较大(数百个以上)时,这种地毯式的搜索就显得耗时、不够人性化以及欠缺实用性了。
【发明内容】
本发明的构想为提出一种字转音的使用者界面系统及修改方法,提供一离线(off-line)式的修改界面及方法以利后续语音辨识的进行。
根据本发明一第一构想,提出一种字转音的使用者界面系统及修改方法,该字转音的使用者界面系统至少包括一语汇栏、一发音栏、一类型栏以及一信心分数栏。该语汇栏系用以呈现以字母构成的至少一语汇;该发音栏系用以呈现对应于每一该语汇的至少一母发音模块,每一该母发音模块包括多个发音音标;该类型栏系用以呈现对应于每一该母发音模块的一来源;该信心分数栏系用以呈现对应于每一该母发音模块的一信心分数(confidence score),通过该信心分数提供使用者修改该语汇所对应的该母发音模块的依据,以便后续语音辨识的进行。
根据本发明一第二构想,提出一种字转音的使用者界面系统的修改方法,该字转音的使用者界面系统如上所述,该修改方法包括:利用一输入界面选定该语汇的部份字母;呈现对应于所选定的所述这些字母的至少一子发音模块,其中每一该子发音模块包括多个发音音标,且每一该子发音模块决定部份该母发音模块;以及利用该输入界面于所述这些子发音模块的中选定一子发音模块,以修改部份该母发音模块,以便于其后进行语音辨识时、提供所述这些语汇一正确的声学模型。
根据本发明一第三构想,提出一种字转音的使用者界面系统的修改方法,该字转音的使用者界面系统如上所述,该修改方法包括:利用一输入界面例如鼠标选定欲修改的语汇(word),再对该使用者界面系统输入一对应于该语汇的语音;然后系统启动一语音辨识程序,以寻找对应于该语汇的至少一可能的母发音模块,然后呈现所述这些母发音模块,使用者便可利用鼠标等界面自有限个该发音模块中选取其中的一,便于后续语音辨识的进行。
较佳者,其中所述这些语汇为系选自中文语汇及英文语汇其中的一。
较佳者,其中该来源包括一常用词库、一发音辞典以及一发音规则。
较佳者,其中该字转音的使用者界面系统更包括一标示栏,用以标示并提供是否选用该母发音模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于台达电子工业股份有限公司,未经台达电子工业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610077661.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:摩托车消声器总成检测工装
- 下一篇:光控钢卷吊具