[发明专利]信息处理设备、信息处理方法及程序无效
申请号: | 201110242822.7 | 申请日: | 2011-08-19 |
公开(公告)号: | CN102385860A | 公开(公告)日: | 2012-03-21 |
发明(设计)人: | 南野活树;广江厚夫;前田幸德;朝川智 | 申请(专利权)人: | 索尼公司 |
主分类号: | G10L15/18 | 分类号: | G10L15/18 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杜诚;陈炜 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 设备 方法 程序 | ||
技术领域
本公开涉及信息处理设备、信息处理方法及程序。具体地,本公开涉及执行用于估计话语(utterance)的意图的语音识别处理和语音理解处理的信息处理设备,以及涉及信息处理方法和程序。
背景技术
近年来,应用了语音识别的各种产品和服务已经被广泛使用。语音识别是分析通过诸如麦克风的语音输入部分输入的语音信号以及自动确定对应于输入的语音信号的字群组的技术。通过组合语音识别技术和各种应用,实现了基于语音识别的结果来执行数据处理的各种产品和服务。
将参考图1描述语音识别处理的基本配置。麦克风12捕获用户输入的语音11,以及AD转换器13对语音的模拟信号进行采样,从而生成数字数据。数字数据输入到特征提取部14,以及通过以适当的时间间隔执行的频率分析等,将数据转换成表示语音的频谱或其它声学特征的参数。
通过特征提取部14的处理,获得语音的特征量的时间序列。将特征量群组发送到匹配部15。匹配部15将声学模型数据16、词典数据17、和语法数据18中的各个信息与输入参数进行匹配,以及输出语音识别结果19。
而且,在特征提取部14中,除了提取特征量群组以外,还确定语音区段。语音区段对应于从话语的开始时间到结束时间的区段。作为检测语音区段的方法,例如使用基于语音信号的功率等仅提取话语的区段的方法。匹配部15执行关于与语音区段对应的特征量群组的匹配处理,从而输出针对用户的每个话语的语音识别结果19。
声学模型数据16是保存诸如在要处理的语言中使用的单个音素和音节的声学特征的模型,其中要处理的语言包括例如日语或英语。使用隐马尔可夫模型(HMM)等作为该模型。
词典数据17是保存关于要识别的单个字的发音的信息的数据。通过该数据,将字与上述声学模型相关联,因此获得与词典中包括的各个字对应的标准声学特征。
语法数据18是描述可将词典中描述的单个字彼此连接的方式的数据。对于语法数据,使用基于形式语法或上下文无关语法的描述、包括字连接的统计概率的语法(元语法,N-gram)等。
在匹配部15中,通过使用声学模型数据16、词典数据17、和语法数据18,确定对于输入特征量群组最适合的字群组。例如,当将隐马尔可夫模型(HMM)用作声学模型数据16时,将通过累积根据特征量群组的每个特征量的出现概率而获得的值用作声学评估值(在下文中,被称为声学得分)。通过使用上述标准特征为每个字确定该声学得分。
例如,当将二元语法(bigram)用作语法数据18时,基于字被连接到前一字的概率来将每个字的语言概率转换成数值,以及将该值提供为语言评估值(在下文中,被称为语言得分)。此后,综合地评估声学得分和语言得分,由此确定对于输入语言信号最合适的字群组。
例如,当用户说“The weather is nice today(今天天气好)”时,获得包括“The”、“weather”、“is”、“nice”、“today”的字群组,作为识别结果。此时,将声学得分和语言得分提供给每个字。而且,在本公开中,如上所述的词典数据17和语法数据18的组合被称为语言模型。
当将语音识别技术应用于产品和服务时,广泛使用下面两种方法:
(a)直接将识别的字群组与对应的行为相关联的方法。
(b)从识别的字群组中提取话语中包括的用户的意图,以及将意图与对应的行为相关联。
例如,当向机器人给出话语“stand up(起立)”时,使机器人响应识别的字群组“stand up(起立)”而起立的方法是前者(a)方法,即直接将字与对应的行为相关联的方法。
另一方面,估计诸如“stand up(起立)”、“wake up(醒来)”、和“getup(起床)”的每个话语中包括的意图(例如,“stand up please(请起立)”的意图)、以及使机器人响应该意图而行动的方法是后者(b)方法。即,这是提取话语中包括的用户的意图、以及将对应的行为与该意图相关联的方法。
一般,由于存在包括相同意图的多种类型的话语,与直接将对应的行为分配给识别的字群组的前者(a)方法相比,估计话语的意图以及将对应的行为分配给该意图的后者(b)方法可更容易分配行为。以该方式,根据输入语音信号估计话语的意图的设备被称为语音理解设备。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110242822.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种环形压控振荡器
- 下一篇:一种u-pvc塑料管材及其制备方法