[发明专利]控制装置、语音交互装置、语音识别服务器以及存储介质有效

申请号：	201911225321.0	申请日：	2019-12-04
公开（公告）号：	CN111354351B	公开（公告）日：	2023-06-02
发明（设计）人：	渡部生圣	申请（专利权）人：	丰田自动车株式会社
主分类号：	G10L15/18	分类号：	G10L15/18;G10L15/22;G10L15/30
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	韩峰;孙志湧
地址：	日本爱知***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	控制装置语音交互识别服务器以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及控制装置、语音交互装置、语音识别服务器以及存储介质。一种控制装置，其包括：计算单元，该计算单元被配置成控制包括语音识别模型的语音交互装置，其中，当与对象者的会话开始时，计算单元指示语音交互装置以通过从语音识别模型中已经暂时选择的一个语音识别模型来首先执行语音识别和响应生成，基于对象者在语音识别服务器中的话语的语音识别结果来确定在语音交互装置中保持的语音识别模型中的被估计为最佳的语音识别模型，并且当被估计为最佳的语音识别模型和已经被暂时选择的一个语音识别模型彼此不同时，指示语音交互装置以将语音识别模型切换到被估计为最佳的语音识别模型并执行语音识别和响应生成。

技术领域

本公开涉及一种控制装置、语音交互装置、语音识别服务器以及程序。

背景技术

已知一种语音交互系统，其用于分析作为会话伙伴的对象者(用户)发出的话语，掌握话语的含义和内容，根据话语的类型生成响应，并且通过语音或文本将响应呈现给语音对象识别对象者。日本未经审查的专利申请特开No.2018-109663和2018-045190公开语音交互系统，该语音交互系统被配置成通过语音识别的精度较高的服务器侧和响应速度较高的本地(终端设备)侧以划分方式执行会话处理。

发明内容

在日本未经审查的专利申请特开No.2018-109663和第2018-045190中公开的技术中，为了提高响应的准确性，需要在服务器侧执行语音识别和响应生成。然而，在这种情况下，存在由于终端设备与服务器之间的通信速率的限制而做出响应所花费的时间相对较长的问题。在日本未经审查的专利申请特开No.2018-045190中，在对象者已经发言之后发送服务器生成的响应所需的时间段(延迟时间段)中，语音交互系统通过以诸如做出令人满意的回应或重复对象者的话语的这种简单的方式响应来赢得时间。但是，当语音交互系统在每个延迟时间段做出响应以赢得时间时，会话变成不自然的会话，并且可能无法充分缓解对象者在延迟时间段内感到的压力。

鉴于上述情况做出本公开，并且本公开旨在提供一种语音交互装置的控制装置、语音交互装置、语音识别服务器以及程序，其能够减少响应所需时间并减少会话的不自然感。

根据本公开的一个实施例的控制装置包括：计算单元，该计算单元被配置成控制包括多个语音识别模型的语音交互装置，其中，当与对象者的会话开始时，计算单元指示语音交互装置通过从多个语音识别模型中已经暂时选择的一个语音识别模型来首先执行语音识别和响应生成，基于在语音识别服务器中的对象者发出的话语的语音识别结果来确定在语音交互装置中保持的多个语音识别模型中被估计为最佳的语音识别模型，并且当被估计为最佳的语音识别模型和已经被暂时选择的一个语音识别模型彼此不同时，指示语音交互装置以将语音识别模型切换到被估计为最佳的语音识别模型并执行语音识别和响应生成。

当与对象者的会话开始时，控制装置的计算单元指示语音交互装置以通过已经从被包括在语音交互装置中的多个语音识别模型中暂时选择的一个语音识别模型来首先执行语音识别和响应生成。根据该过程，可以减少语音交互装置的响应所需的时间。然后，计算单元基于关于在语音识别服务器中对象者的话语的语音识别的结果，确定在语音交互装置中保持的多个语音识别模型当中的被估计为最佳的语音识别模型。暂时选择的一个语音识别模型被切换为基于语音识别服务器的语音识别结果估计为最佳的确定的语音识别模型，其中语音识别的准确性很高，由此，可以减少响应的不自然。

此外，已经被暂时选择的语音识别模型优选地是基于过去的会话信息已经被确定为包括在语音交互装置中的多个语音识别模型当中的最频繁使用的语音识别模型。根据该技术，可以降低已经被暂时选择的一个语音识别模型的响应给予对象者陌生感的程度。

此外，当语音交互装置将语音识别模型切换到估计为最佳的语音识别模型时，计算单元优选使语音交互装置将语音识别模型从其与已经暂时选择的一个语音识别模型的相似度水平高的语音识别模型按阶段地切换成被估计为最佳的语音识别模型。根据该技术，与语音识别模型突然切换到被估计为最佳的模型的情况相比，可以减少对象者在会话中感觉到的陌生感。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于丰田自动车株式会社，未经丰田自动车株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911225321.0/2.html，转载请声明来源钻瓜专利网。

上一篇：用于目标刷新操作的时序交错的设备和方法
下一篇：信息处理设备及其控制方法以及计算机可读存储介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]控制装置、语音交互装置、语音识别服务器以及存储介质有效

专利文献下载