[发明专利]基于多模态客户端设备的模态的动态列表构成有效
申请号: | 201910949390.X | 申请日: | 2019-10-08 |
公开(公告)号: | CN110688011B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 阿普丽尔·普法尔;克里索贝丽尔·弗朗西斯科;贾里德·斯特劳德曼;佩尔·安德森;奥伦·布拉斯贝格;安德鲁·沃森;马德莱娜·普劳切 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06F3/01 | 分类号: | G06F3/01;G06F40/295 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 客户端 设备 动态 列表 构成 | ||
本申请涉及基于多模态客户端设备的模态的动态列表构成。本文公开了用于以根据客户端设备的当前模态而定制的方式动态地将列表中的项划分为一个或多个子集的系统、方法和装置。多模态客户端设备可以进行跨多模态谱的各种交互,所述交互包括仅语音交互、语音主导交互、多模态交互、视觉主导交互、仅视觉交互等。列表可以部分地基于多模态设备的当前模态、指示关于列表的附加信息的一个或多个列表属性等被划分为子集。
背景技术
可以在多模态客户端设备上和/或在诸如经由网络连接到多模态客户端设备的“云”中的计算设备的一个或多个远程计算设备上实现自动化助理(也称为“个人助理”、“移动助理”等)。多模态客户端设备可以为用户提供与设备交互的多种模式。更具体地,多模态设备具有可用于用户向设备输入数据的若干模式和/或可用于设备向用户渲染输出的若干模式。
例如,对多模态设备的用户输入可以包括口语输入(例如,用户说话)、文本输入(例如,用户在键盘上键入、用户在触敏屏幕上输入文本等)、手势输入(例如,用户手部动作、用户注视、用户头部运动等)、触觉输入(例如,对客户端设备施加各种力,诸如挤压客户端设备、拿起客户端设备、摇动客户端设备、将客户端设备放置在特定方向等)以及其他类型的输入(例如,按下客户端设备上的物理按钮、使用鼠标单击用户接口中的按钮、使用鼠标执行操作,诸如使用鼠标滚轮向上和/或向下移动屏幕上的信息等)等。类似地,多模态设备可以通过多种方式向用户渲染输出,包括音频输出(例如,使用扬声器生成输出供用户收听)、视觉输出(例如,在屏幕上显示文本、图像、视频等、客户端设备上的灯闪光打开和关闭、改变设备上的灯的颜色等)、触觉输出(例如,使得客户端设备振动)等。
发明内容
本公开涉及用于以根据客户端设备的当前模态而定制的方式动态地将列表中的项划分为一个或多个子集以便向用户渲染的系统、方法和装置。客户端设备的当前模态可以是多模态谱内的多个候选模态中的一个并且可以指示要利用的用户接口输入和/或客户端设备输出的当前方法。在一些实现中,候选模态的多模态谱包括仅语音交互、语音主导交互、多模态交互(也称为“模态间交互”)、视觉主导交互、仅视觉交互和/或交互的其他模态。客户端设备可以利用一个或多个模态。例如,客户端设备可以利用仅语音交互、语音主导交互、多模态交互和/或仅视觉交互。在一些实现中,客户端设备的当前模态可以基于来自客户端设备的一个或多个传感器的传感器数据来确定。例如,多模态客户端设备可以使用来自一个或多个传感器的传感器数据来确定多模态客户端设备的当前模态,所述传感器诸如相机、惯性测量单元(“IMU”)、陀螺仪、定位系统(例如,全球定位系统(“GPS”))、麦克风、接近传感器、压力传感器和/或其他传感器。
在许多实现中,多模态客户端设备可以确定如何渲染根据多模态客户端设备的用户的客户端设备的当前模态而定制的列表。例如,可以将列表中的一个或多个项划分为子集。子集中的项的数量可以由客户端设备使用当前设备模态、已知信息(具有用户许可)、用户接口输入的一个或多个模态、确定的用户接口输入的意图、客户端设备的类型、客户端设备的位置,用户相对于客户端设备的位置、一个或多个列表属性等来动态地确定。根据各种实现的列表属性可以包括列表大小信息(例如,列表中的项的数量、列表中每个项中的单词的数量、列表中每个项的字符的数量、列表中项的字符的平均数量等)、列表的类型(例如,交互式列表、消耗性列表等)和/或其他属性。
例如,在仅语音交互中,客户端设备可以经由扬声器将二十个项的列表以子集传达给用户,其中每个子集包含五个项。在仅视觉交互中,客户端设备可以在屏幕上对用户显示整个二十个项的列表(即单个子集)。在一些实现中,所渲染的音频输出不必须与所渲染的视觉输出匹配。例如,使用多模态交互、语音主导交互和/或视觉主导交互的客户端设备可以通过音频和视觉输出的组合将二十项的列表传达给用户,所述音频和视觉输出的组合诸如通过经由扬声器渲染五个项的子集而同时在显示屏上显示整个二十个项的列表。在许多实现中,在多模态客户端设备上渲染列表可以相对于经由扬声器听觉地渲染列表优先经由显示器视觉地渲染列表。换句话说,在许多实现中,当客户端设备缺少(或无法访问)显示屏时,将仅经由扬声器渲染整个列表(即,在独立交互式扬声器和/或在仅语音交互期间的多模态设备上的仅语音交互)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910949390.X/2.html,转载请声明来源钻瓜专利网。