[发明专利]利用本地文本响应映射呈现对用户的口头话语的响应在审
申请号: | 201880094598.1 | 申请日: | 2018-06-27 |
公开(公告)号: | CN112334976A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 高宇立;成相洙 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/30;G10L15/26 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李宝泉;任庆威 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 本地 文本 响应 映射 呈现 用户 口头 话语 | ||
本文公开的实施方式涉及由客户端设备生成和/或利用在客户端设备上本地存储的文本响应映射。文本响应映射可以包括多个映射,其中映射中的每一个定义相对应的文本和相对应的响应之间的相对应的直接关系。基于先前根据由客户端设备捕获的先前的音频数据生成的相对应的文本并且基于先前响应于向远程系统传输先前的音频数据和相对应的文本中的至少一个而从远程系统接收的相对应的响应,在文本响应映射中定义映射中的每一个。
背景技术
基于语音的用户界面越来越多地用于控制计算机和其他电子设备。基于语音的用户界面的一个尤其有用的应用是随同便携式电子设备,诸如移动电话、手表、平板电脑、头戴式设备、虚拟或增强现实设备等。另一有用的应用是随同车载电子系统,诸如结合导航和音频功能的汽车系统。这种应用通常以非传统形式因素为特征,这些非传统形式因素限制了更传统的键盘或触摸屏输入的效用和/或在期望鼓励用户保持专注于其他任务的情况(诸如当用户正在驾驶或行走时)下的用途。
基于语音的用户界面已经从只能理解简单直接命令的早期初级界面持续发展到响应自然语言请求并且能够理解场境并管理与用户的往返对话或会话的更复杂的界面。许多基于语音的用户界面结合了将人类语音的音频记录转换成文本的初始讲话到文本转换、以及在试图确定用户的请求的含义中分析文本的语义分析。基于用户的记录语音的确定含义,可以采取行动,诸如执行搜索或以其他方式控制计算机或其他电子设备。
用户可以经由口头话语向客户端设备提交查询和/或命令,从而口头指示提供什么用户感兴趣的信息和/或用户感兴趣执行的动作。典型地,口头话语由客户端设备的一个或多个麦克风检测,并被捕获为音频数据。音频数据被传输到远程系统以便进行进一步处理。远程系统处理音频数据以确定适当的响应,并将该响应传输给客户端设备,以便由客户端设备进行呈现。
由远程系统对音频数据进行的处理可以包括使用讲话到文本(speech-to-text,STT)组件来基于音频数据生成文本,其中所生成的文本反映了由音频数据捕获的口头话语。该处理还可以包括在试图确定文本的含义或意图——以及基于所确定的含义要执行的动作时,使用自然语言处理器(NLP)和/或其他语义处理器处理所生成的文本。然后,可以执行该动作以生成相对应的响应,并将该相对应的响应传输到从其接收音频数据的客户端设备。
远程系统的组件可以使大量计算资源致力于处理音频数据,使得能够实施比在客户端设备中本地实施的更复杂的讲话识别和语义分析功能。然而,客户机-服务器方法必然要求客户机在处理语音输入时在线(即,与远程系统通信)。在各种情况下,可能无法在所有时间和所有位置保证连续的在线连接,因此每当客户端设备“离线”并因此未连接到在线服务时,在该设备中,客户端-服务器的基于语音的用户界面可能被禁用。此外,客户端-服务器方法可能消耗大量带宽,因为它需要从客户端向远程系统的组件传输高带宽音频数据。在远程系统正在处理来自大量客户端设备的请求的一般情况下,带宽消耗被放大。更进一步地,客户端-服务器方法在向用户呈现响应时可能表现出显著的延迟,这可能导致基于语音的用户-客户端交互被延长,并且客户端设备的资源将被利用持续延长的持续时间。客户端-服务器方法的延迟可能是传输延迟和/或由远程系统执行的语音到文本处理、语义处理和/或响应生成方面的延迟的结果。更进一步地,在客户端-服务器方法中客户端和服务器之间的消息交换可能需要相对大量的功率消耗以便进行消息的传输和接收。这一点的影响可能尤其被客户端设备感受到,该客户端设备的可用功率通常由具有相对有限的存储容量的设备上的电池提供。
发明内容
本文公开的实施方式涉及由客户端设备生成和/或利用在客户端设备上本地存储的文本响应映射。文本响应映射可以包括多个映射,其中映射中的每一个定义相对应的文本和相对应的响应之间的相对应的直接关系。基于先前根据由客户端设备捕获的先前的音频数据生成的相对应的文本并且基于先前响应于向远程系统传输先前的音频数据和相对应的文本中的至少一个而从远程系统接收的相对应的响应,在文本响应映射中定义映射中的每一个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880094598.1/2.html,转载请声明来源钻瓜专利网。