[发明专利]自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言有效
申请号: | 201880039579.9 | 申请日: | 2018-04-16 |
公开(公告)号: | CN111052229B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 赵璞升;迭戈·米伦多·卡萨多;伊格纳西奥·洛佩斯·莫雷诺 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/00;G10L15/26;G10L15/183 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 确定 用于 经由 自动化 助理 接口 接收 口头 话语 语音 辨识 语言 | ||
实施方式涉及确定用于经由用于与自动化助理交互的自动化助理接口接收的口头话语的语音辨识的语言。实施方式可使得能够与所述自动化助理进行多语言交互,而无需用户显式地指定要用于每个交互的语言。对针对特定语言的语音辨识模型的选择可基于在用户与自动化助理之间的对话会话期间展示的一个或多个交互特性。这样的交互特性可包括预期用户输入类型、预期用户输入持续时间、用于针对用户响应进行监视的持续时间和/或提供的用户响应的实际持续时间。
背景技术
人类可以用在本文中称为“自动化助理”(也称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用”、“谈话代理”等)的交互式软件应用来参与人类与计算机对话。例如,人类(当他们与自动化助理交互时可以被称为“用户”)可以使用口头自然语言输入(即话语)和/或通过提供文本(例如,键入的)自然语言输入来向自动化助理提供命令和/或请求,所述口头自然语言输入可以在一些情况下被转换成文本并然后处理。自动化助理通过提供响应用户接口输出来对请求做出响应,所述响应用户接口输出可包括可听的和/或可视的用户接口输出。
如上面所提及的,自动化助理可将与用户的口头话语相对应的音频数据转换成对应的文本(或其它语义表示)。例如,可基于经由客户端设备的一个或多个麦克风对用户的口头话语的检测来生成音频数据,所述客户端设备包括用于使得用户能够与自动化助理交互的助理接口。自动化助理可包括语音辨识引擎,所述语音辨识引擎试图辨识在音频数据中捕获的口头话语的各种特性,诸如通过口头话语所产生的声音(例如,音素)、所产生的声音的顺序、语音的节奏、声调等。另外,语音辨识引擎可识别通过这样的特性所表示的文本单词或短语。文本然后可由自动化助理在确定针对口头话语的响应内容时进一步处理(例如,使用自然语言理解(NLU)引擎和/或对话状态引擎)。语音辨识引擎可由客户端设备和/或由远离客户端设备但是与客户端设备进行网络通信的一个或多个自动化助理组件实现。
然而,许多语音辨识引擎被配置成辨识仅单一语言的语音。对于多语言用户和/或住户,这样的单一语言语音辨识引擎可能不是令人满意的,并且可使自动化助理在以不是由这些语音辨识引擎所支持的单一语言的附加语言接收到口头话语时失败和/或提供错误输出。这可致使自动化助理不可用,并且/或者导致对计算和/或网络资源的过度使用。对计算和/或网络资源的过度使用可以是当自动化助理失败或者提供错误输出时用户需要提供作为所支持的单一语言的进一步口头话语的结果。这样的进一步口头话语必须附加地由对应的客户端设备和/或远程自动化助理组件处理,从而导致对各种资源的附加使用。
其它语音辨识引擎可以被配置成辨识多种语言的语音,但是要求用户显式地指定在给定时间在语音辨识中应该使用多种语言中的哪一种。例如,其它语音辨识引擎中的一些可能要求用户手动地指定在特定客户端设备处接收的所有口头话语的语音辨识中要利用的默认语言。为了将默认语言改变为另一语言,可能要求用户与图形和/或可听接口交互以显式地更改默认语言。这种交互可在接口的渲染、对经由接口提供的用户的输入的处理等中导致对计算和/或网络资源的过度使用。另外,情况可能常常是用户在提供当前不是默认语言的口头话语之前忘记改变默认语言。如上所述,这可致使自动化助理不可用并且/或者导致对计算和/或网络资源的过度使用。
发明内容
本文描述的实施方式涉及用于自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言的系统、方法和装置。在一些实施方式中,对使用给定语言的口头话语的语音辨识可包括:使用针对给定语言的一种或多种语音辨识模型来处理捕获口头话语的音频数据以生成与口头话语相对应并采用给定语言的文本。如本文所描述的,多个语音辨识模型可以是可访问的以用于语音辨识,并且这些语音辨识模型中的每一个均可被配置用于多种语言中的对应的语言。例如,第一语音辨识模型可被配置用于基于处理包括英语口头话语的音频数据来生成英语文本,第二语音辨识模型可被配置用于基于处理包括法语口头话语的音频数据来生成法语文本,第三语音辨识模型可被配置用于基于处理包括西班牙语口头话语的音频数据来生成西班牙语文本等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880039579.9/2.html,转载请声明来源钻瓜专利网。