[发明专利]具有域歧义消除的启用语音功能的系统有效
申请号: | 201711362415.3 | 申请日: | 2017-12-18 |
公开(公告)号: | CN108573702B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 雷纳·利布 | 申请(专利权)人: | 声音猎手公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 李丽 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 歧义 消除 启用 语音 功能 系统 | ||
本公开涉及具有域歧义消除的启用语音功能的系统。系统执行解释来自用户的口头表述并通过提供所请求的信息或执行所请求的动作来回应表述的方法。在多个域的情境中对表述进行解释。根据解释代表说话者的意图的程度,赋予每个解释相关性分数。丢弃具有低于其所关联的域的阈值的相关性分数的解释。基于为表述选择最相关的域来对剩余的解释进行选择。可能会提示用户提供可用于选择最佳域的歧义消除信息。存储过去的表述表示和领域选择的关联允许测量说出的词语和短语与相关域之间的关联的强度。该关联强度信息可以允许系统在不需要用户输入的情况下自动消除备选解释的歧义。
技术领域
本发明属于处理自然语言表述(utterance)的启用语音功能的(speech-enabled)系统的领域。具体而言,本公开解决语音交互以消除口头查询的歧义。
背景技术
计算机化系统可以处理人类所做出的自然语言表述的情况越来越普遍。例如,网络搜索引擎接受自然语言文本输入,处理该输入,并提供可视结果。这样的系统通常在浏览器窗口中同时提供大量(例如10个)结果。这些结果可以包括图片和文本。这样的系统也可能显示一些广告。可视人机界面可以提供丰富多样的结果,使得用户可以相对快速地消化大量信息。
启用语音功能的系统是其中用户与机器交互的系统,通过说出自然语言表述来提供输入。这样的机器通常使用自动语音识别和自然语言处理技术来解释表述。许多启用语音功能的系统也输出所生成的语音,但有些则没有。通过言语进行信息传递的速度远远低于视觉展示。系统要花费很长时间才能说出基于浏览器的搜索引擎响应单个自然语言表达的输入而提供的所有结果。花费的时间如此之长,以至于用户只通过语音与这些机器进行交互是不切实际的。
许多视觉系统响应于含义模棱两可的表达,显示适合于对表述的多个合理解释中的每个解释的结果。大多数情况下,对于启用语音功能的系统而言,为模棱两可的表述提供适当的结果是不切实际的。传统的启用语音功能的系统在面对模棱两可的表述时,猜测最佳解释以形成其结果。猜测的解释经常不是用户所期望的解释。这是传统的启用语音功能的系统的用户常常感到沮丧的普遍原因。
另外,在许多情况(例如,对于没有显示器的设备、或者设备必须在不需要眼神接触的情况下操作)下,使用视觉显示器来消除语音表述的含义的歧义是不切实际的。
发明内容
本发明的各种实施例是提供更自然的会话用户界面的系统和方法。这些实施例解释关于多个可能的主题领域(会话域)的表述。如果表述在多个域中是合理的,系统以域的列表或者指示域的词语来响应用户,随后提示用户指出他们想要的域。例如,响应于表述“保罗·西蒙(Paul Simon)出生在哪里?”,一些实施例会回应:“音乐家保罗·西蒙还是政治家保罗·西蒙?”。如果下一表述指示对音乐家(即,音乐域)或政治家(即,政治域)的兴趣,则系统相应地产生结果。
一些实施例以各种自然的、类人类的方式进行响应。响应于无意义的表述,一些实施例指示它不理解。针对含糊的表述,一些实施例要求澄清。响应于需要更多信息的合理表述(例如“拨打电话”),一些实施方式以对于缺少的信息的请求(比如“您想打给谁?”)做出响应。响应于仅有唯一合理的含义的表述,一些实施例给出可能的预期结果。作为对诸如“保罗·西蒙出生在哪里?”之类的具有很少的可能解释的表述的响应,一些实施例以多个结果做出响应,例如“歌手保罗·西蒙出生在新泽西州纽瓦克,政治家保罗·西蒙出生在俄勒冈州的尤金市”。作为对诸如“桑尼维尔(Sunnyvale)的天气如何?”之类的具有多种解释的表述的响应,一些实施方式以选项的列表和请求用户消除歧义的请求来做出响应,例如“您是指加利福尼亚州桑尼维尔、德克萨斯州桑尼维尔、北卡罗来纳州桑尼维尔、密苏里州桑尼维尔、还是桑尼维尔新斯科舍省?”
一些实施例例如通过对每个域被选择的次数进行计数来收集关于用户对域的选择的统计数据。一些实施例通常跨许多用户对域选择进行计数,而其它实施例对每个个体用户的域选择进行计数。一些实施例利用针对为歧义消除而提供的域的每个组合的特定计数器对所选域进行计数。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于声音猎手公司,未经声音猎手公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711362415.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于唇部检测的查询端点化
- 下一篇:电器系统的控制方法