[发明专利]信息处理装置、信息处理方法和程序在审
申请号: | 201780051273.0 | 申请日: | 2017-08-17 |
公开(公告)号: | CN109643551A | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 河野真一;滝祐平 | 申请(专利权)人: | 索尼公司 |
主分类号: | G10L15/30 | 分类号: | G10L15/30;G10L15/04;G10L15/22;G10L25/78 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 余刚 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音识别 语音识别结果 信息处理装置 信息处理 语音识别系统 话语特征 网络提供 语音信息 正常模式 语音 输出 检测 应用 | ||
1.一种信息处理装置,包括:
话语特征检测单元,获取通过用户的话语获得的音频信息,并从所述音频信息检测所述话语的特征;
特定无声时段检测单元,在检测其中所述音频信息包括音频的话语部分的处理中,检测作为未被确定为无声时段的特定短无声时段的特定无声时段;
选择单元,基于已经由所述话语特征检测单元从所述音频信息检测到的所述话语的特征和已经由所述特定无声时段检测单元从所述音频信息检测到的所述特定无声时段来选择要对所述音频信息执行的音频识别处理;以及
输出处理单元,将通过已经由所述选择单元选择的所述音频识别处理而识别的音频识别结果与音频识别结果信息一起输出,所述音频识别结果信息指示已经获得所述音频识别结果的所述音频识别处理。
2.根据权利要求1所述的信息处理装置,其中,
所述选择单元选择用于识别正常字符串的正常模式的音频识别处理或用于识别特殊字符串的特殊模式的音频识别处理,来作为对所述音频信息执行的所述音频识别处理。
3.根据权利要求2所述的信息处理装置,其中,
在确定已经由所述话语特征检测单元从所述音频信息中检测到特定特征、并且确定已经由所述特定无声时段检测单元从所述音频信息中以预定间隔重复检测到所述特定无声时段的情况下,所述选择单元选择所述特殊模式的所述音频识别处理。
4.根据权利要求3所述的信息处理装置,其中,
所述话语特征检测单元将基于所述音频信息的所述音频的音量水平作为所述话语的特征来检测,并且
在所述音频的所述音量水平超过预设的预定音量水平的情况下,所述选择单元确定已经从所述音频信息中检测到所述特定特征。
5.根据权利要求3所述的信息处理装置,其中,
所述话语特征检测单元将基于所述音频信息的所述音频的输入速度作为所述话语的特征来检测,并且
在已经发生其中由所述话语特征检测单元检测到的所述音频的所述输入速度变得相对慢的变化的情况下,所述选择单元确定已经从所述音频信息中检测到所述特定特征。
6.根据权利要求3所述的信息处理装置,其中,
所述话语特征检测单元将基于所述音频信息的所述音频的频率作为所述话语的特征来检测,并且
在已经发生由所述话语特征检测单元检测的所述音频的频率变得相对高的变化的情况下,所述选择单元确定已经从所述音频信息中检测到所述特定特征。
7.根据权利要求2所述的信息处理装置,其中,
在所述特殊模式的所述音频识别处理中,通过音频识别所识别的单词被转换成数字并被输出。
8.根据权利要求2所述的信息处理装置,其中,
在所述特殊模式的所述音频识别处理中,通过音频识别所识别的字母被逐个字符地转换成大写字母并被输出。
9.根据权利要求2所述的信息处理装置,其中,
在所述特殊模式的所述音频识别处理中,通过音频识别所识别的每一字符被转换成片假名并被输出。
10.根据权利要求2所述的信息处理装置,其中,
还包括噪声检测单元,所述噪声检测单元检测包括在所述音频信息中的噪声的音量水平,
其中,在所述噪声的所述音量水平超过预设的预定音量水平的情况下,所述选择单元避免选择所述特殊模式的所述音频识别处理。
11.根据权利要求2所述的信息处理装置,其中,
所述输出处理单元在所述正常模式的所述音频识别处理的音频识别结果和所述特殊模式的所述音频识别处理的音频识别结果之间改变用户界面的表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780051273.0/1.html,转载请声明来源钻瓜专利网。