[发明专利]用于处理输入语音的装置和方法无效
申请号: | 200810074190.6 | 申请日: | 2008-02-27 |
公开(公告)号: | CN101256559A | 公开(公告)日: | 2008-09-03 |
发明(设计)人: | 知野哲朗;釜谷聪史;降幡建太郎 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G10L15/08;G10L15/28 |
代理公司: | 永新专利商标代理有限公司 | 代理人: | 王英 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 处理 输入 语音 装置 方法 | ||
技术领域
本发明涉及一种用于对输入语音执行语音识别处理等并且输出处理结果的装置和方法。
背景技术
最近,使用语音输入的人机接口日益增多地实现了实际使用。例如,已经开发了如下语音操作系统,其允许用户口头地输入预先设置的特定命令、识别该命令,并且自动地执行对应的操作,从而使得能够通过语音来使用该系统。还开发了通过分析由用户所口头表达的任意句子将这些句子转换成字符串,来实现使用语音输入创建句子的系统。已经开发并且已经利用了能够在用户和系统之间使用语音语言等进行交互的语音对话系统。
在各个系统所使用的语音识别处理中,通常通过以下方法来对由用户装置所产生的语音的内容进行识别。通过麦克风等将产生的语音信号捕获到系统中、将其转换成电信号,并且使用模数(A/D)转换器等将其以非常短的时间周期进行采样,以获得例如波形振幅的时间序列的数字数据。对该数字数据进行诸如快速傅立叶变换(FFT)分析之类的技术,以获得例如频率随时间的改变,从而提取产生的语音信号的特征数据。使用隐马尔可夫模型(HMM)法、动态规划(DP)法或者神经网络(NN)法,对例如被准备为与识别结果及其序列相关联的词典的音素标准样式,与由上述处理所提取的特征数据,进行比较和匹配,以生成所产生的语音内容的识别候选。为了提高识别的正确性,对生成的识别候选使用N-gram为代表的统计语言模型,以估计并且选择最有可能的候选,从而识别所产生的语音的内容。
在语音识别中,由于以下因素,执行百分之百的无错误识别是非常困难的,并且也被认为是不可能的。由于执行语音输入的环境中的噪声等等,不可能很好地将语音分割成部分。由于在个体之间变化的因素,例如音质、音量、说话速度、说话风格以及方言,输入语音的波形可能变形,并且可能不能正确地执行识别结果的检查。
还存在由于用户说的是系统中没有准备的未知语言而不能执行识别、词语被错误地识别成了听起来相似的词语,以及由于准备的标准样式或者统计语言模式不完整而将词语错误地识别成了错词的情况。
当在错误识别之后继续处理时,通常引起错误操作。因此,需要一些操作来排除错误操作的影响、重新恢复、重新输入相同的语音等,这增加了用户的负担。即使当再次输入语音时也不能保证总能克服错误识别。
同时,当在继续处理之前纠正识别结果以避免这种问题时,通常需要键盘操作等等。因此,失去了语音输入的无需用手的特性,并且增加了用户的操作负担。
上述系统将最有可能的候选输出作为正确识别结果。因此,即使语音识别以错误识别结束,系统本身也没有办法知道哪个识别部分是错误的哪个部分是正确的。因此,为了纠正错误识别部分,用户必须确定错误识别部分并且随后纠正它。
鉴于这种问题,JP-A 2000-242645(KOKAI)提出了一种技术,其不仅生成一个最有可能的语音识别候选而且还生成多个具有相近的识别得分的语音识别候选,翻译所生成的候选,并且与多个翻译结果一起呈现翻译历史的摘要。这允许对话伙伴识别该处理结果的可靠性并且容易地假设说话者的语音内容,并且即使识别处理的性能很低时也能提供充分和平滑的通信。
然而,在JP-A 2000-242645(KOKAI)所描述的方法中,即使所提出的多个识别候选中包括了要选择的识别候选,当这个识别候选包括错误识别部分时该处理也不能继续,并且需要纠错或者重新输入。因此,与常规技术类似,失去了语音输入的无需用手的特性,或者增加了用户由于纠错处理的负担。
发明内容
根据本发明的一个方面,一种语音处理装置,包括:语音接收单元,用于接收输入语音;语音处理单元,用于从所述输入语音获得文本字符串;分析单元,用于执行所述文本字符串的词素学分析;生成单元,用于将所述文本字符串分割成以预定的并且由至少一个词素组成的分割为单位的分量,并且生成包括部分所述分量的部分字符串候选;第一输出单元,用于将所述部分字符串候选输出到显示单元;以及选择接收单元,用于接收从所述部分字符串候选中所选择的部分字符串。
根据本发明的另一方面,一种语音处理方法,包括:接收输入语音;从所述输入语音获得文本字符串;执行所述文本字符串的词素学分析;将所述文本字符串分割成以预定的并且由至少一个词素组成的分割为单位的分量,并且生成包括部分所述分量的部分字符串候选;将所述部分字符串候选输出到显示单元;以及接收从所述部分字符串候选中所选择的部分字符串。
附图说明
图1是根据本发明的第一实施例的语音翻译装置的配置的方框图;
图2是用于解释存储在选择存储单元中的信息的数据配置的实例的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810074190.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:调理培养基和其应用
- 下一篇:蓝色发光有机电致发光元件