[发明专利]识别词典制作装置、声音识别装置及声音合成装置有效
申请号: | 201080056433.9 | 申请日: | 2010-01-22 |
公开(公告)号: | CN102687197A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 丸田裕三 | 申请(专利权)人: | 三菱电机株式会社 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L13/08 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 侯颖媖 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 词典 制作 装置 声音 合成 | ||
技术领域
本发明涉及根据用户发出的声音来对声音识别用词典进行词汇登记的识别词典制作装置、利用该识别词典制作装置的声音识别装置及声音合成装置。
背景技术
在采用声音识别的应用中,有时会对用户发出的声音进行登记以用作识别对象语。在下文中,将该动作称作用户词典生成。作为利用声音生成用户词典的示例,有以下情形:用声音来登记与广播的频率相对应的广播电台名、或用声音来登记与电话号码相对应的人名和地名。
此外,在车载导航系统、便携式终端等可跨多国使用的设备所装载的声音识别中,要求有语言切换功能。
作为相关的现有技术,例如在专利文献1中公开了一种使用语言切换方法,该使用语言切换方法在对电子词典的使用语言进行切换时,将对用户发出的声音进行声音识别而获得的字符数据和装置内所存储的词汇相对照,从而决定用户想要使用的语言。
一般而言,对每一语言收集声音数据,用所收集的声音数据来构建声音识别算法和声音标准模型,利用该声音识别算法和声音标准模型来识别用户发出的声音。因此,当切换了语言的情况下,需要对声音识别单元本身和声音标准模型进行切换。
以往,提出了一种声音识别装置,该声音识别装置利用众所周知的声音识别技术,对每一语言生成最佳地呈现用户发出的声音的音素(phoneme)的标签串,并作为用户词典来保存,从而即使对声音识别所使用的语言进行切换,也能对用户发出的声音进行声音识别。
但是,在每次变更语言都制作音素标签串的情况下,存在以下问题:即,由于将发出声音保存到存储器并进行处理,因此,需要能确保发出声音的保存区域的大容量存储器。
此外,在不能将发出声音保存到存储器中的情况下,必须对假设的所有语言分别制作音素标签串,但即使是制作单一语言的音素标签串的情况下也要耗费较长时间,因此,对假设的所有语言而言,所需的处理时间较庞大。此外,还需要能保存所有语言的音素标签串的大容量存储器。
本发明是为了解决上述问题而完成的,其目的在于获得不需要对发出声音进行保存的大容量存储器且不需要对所有语言预先制作音素标签串,并能缩短对每一语言制作音素标签串的制作时间的识别词典制作装置、利用该识别词典制作装置的声音识别装置及声音合成装置。
现有技术文献
专利文献
专利文献1:日本专利特开2001-282788号公报
发明内容
本发明所涉及的识别词典制作装置包括:音响分析部,该音响分析部对输入声音的声音信号进行音响分析以输出音响特征的时间序列;音响标准模式存储部,该音响标准模式存储部对每一语言存储有表示标准的音响特征的音响标准模式;音响数据匹配部,该音响数据匹配部将从音响分析部输入的输入声音的音响特征的时间序列和音响标准模式存储部中存储的音响标准模式进行对照,以制作输入声音的音素标签串;用户词典存储部,该用户词典存储部对登记有音响数据匹配部所制作的输入声音的音素标签串的用户词典进行存储;语言存储部,该语言存储部对登记到用户词典的音素标签串的语言进行存储;语言切换部,该语言切换部对语言进行切换;映射表存储部,该映射表存储部对规定了语言间的音素标签的对应关系的映射表进行存储;以及音素标签串转换部,该音素标签串转换部参照映射表存储部中存储的映射表,将登记到用户词典的音素标签串从语言存储部中存储的语言的音素标签串转换成由语言切换部进行切换后的语言的音素标签串。
根据本发明,包括:用户词典,该用户词典登记有输入声音的音素标签串;以及映射表,该映射表对语言之间的音素标签的对应关系进行了规定,参照映射表,将登记到用户词典的音素标签串从制作用户词典时的语言的音素标签串转换成切换后的语言的音素标签串。
由此,即使切换语言,也能参照映射表来快速地将登记词汇转换成切换后的语言所使用的词汇,因此带来以下效果:不需要对发出声音进行保存的大容量存储器且不需要对所有语言预先制作音素标签串,能缩短对每一语言制作音素标签串的制作时间。
附图说明
图1是表示根据本发明的实施方式1的识别词典制作装置的结构的框图。
图2是表示根据实施方式1的识别词典制作装置的用户词典登记动作流程的流程图。
图3是表示根据实施方式1的识别词典制作装置的语言切换后的用户词典登记动作流程的流程图。
图4是表示根据本发明的实施方式2的声音识别装置的结构的框图。
图5是表示根据实施方式2的声音识别装置的动作流程的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080056433.9/2.html,转载请声明来源钻瓜专利网。