[发明专利]语言学风格匹配代理在审
申请号: | 202080015529.4 | 申请日: | 2020-01-23 |
公开(公告)号: | CN113454708A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | D·J·麦克杜夫;K·R·罗恩;M·P·切尔文斯基;D·阿尼贾;R·赫根 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L13/027 | 分类号: | G10L13/027;G06T13/40;G10L15/22;G06K9/00;G10L25/63 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 马明月 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言学 风格 匹配 代理 | ||
1.一种方法,包括:
接收音频输入,所述音频输入表示用户的语音;
识别所述语音的内容;
确定所述语音的语言学风格;
基于所述语音的所述内容来生成响应对话;以及
基于所述语音的所述语言学风格来修改所述响应对话。
2.根据权利要求1所述的方法,其中所述语音的所述语言学风格包括内容变量和声学变量。
3.根据权利要求2所述的方法,其中所述内容变量包括代词使用、重复、或话语长度中的至少一项,并且其中所述声学变量包括语音速率、音高或响度中的至少一项。
4.根据权利要求1至3中任一项所述的方法,还包括:
标识所述用户的面部表情、或者从所述响应对话标识情绪;以及
基于所述用户的所述面部表或者从所述响应对话中标识的所述情绪,生成用于具化的会话代理的合成面部表情。
5.一种系统,包括:
麦克风,被配置为生成表示声音的音频信号;
扬声器,被配置为生成音频输出;
一个或多个处理器;以及
存储指令的存储器,所述指令当由所述一个或多个处理器执行时使所述一个或多个处理器:
检测所述音频信号中的语音;
识别所述语音的内容;
确定与所述语音相关联的会话上下文;以及
生成响应对话,所述响应对话具有基于所述语音的所述内容的响应内容和基于与所述语音相关联的所述会话上下文的韵律质量。
6.根据权利要求5所述的系统,其中所述韵律质量包括以下至少一项:语音速率、音高或响度。
7.根据权利要求5所述的系统,其中所述会话上下文包括:所述语音的语言学风格、所述系统的设备使用模式、或与所述系统相关联的用户的通信历史。
8.根据权利要求5至7中任一项所述的系统,还包括显示器,并且其中所述指令使所述一个或多个处理器在所述显示器上生成具化的会话代理,并且其中所述具化的会话代理具有基于与所述语音相关联的所述会话上下文的合成面部表情。
9.根据权利要求8所述的系统,其中所述会话上下文包括从所述响应对话所标识的情绪。
10.根据权利要求8或9所述的系统,还包括相机,其中所述指令使所述一个或多个处理器标识:
(i)由所述相机生成的图像中的用户的面部表情,并且所述对话上下文包括所述用户的所述面部表情,或者
(ii)由所述相机生成的图像中的用户的头部定向,并且其中所述具化的会话代理具有基于所述用户的所述头部定向的头部姿势。
11.一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令当由计算系统的一个或多个处理器执行时,使所述计算系统:
接收来自用户的会话输入;
接收视频输入,所述视频输入包括所述用户的面部;
确定所述用户的所述会话输入的语言学风格;
确定所述用户的面部表情;
基于所述语言学风格来生成响应对话;以及
生成具化的会话代理,所述具化的会话代理具有基于所述响应对话的嘴唇运动和基于所述用户的所述面部表情的合成面部表情。
12.根据权利要求11所述的计算机可读存储介质,其中所述会话输入包括所述用户的语音,并且其中所述语言学风格包括内容变量和声学变量。
13.根据权利要求11所述的计算机可读存储介质,其中还使所述计算系统:
标识所述用户的头部定向;以及
使所述具化的会话代理具有基于所述用户的所述头部定向的头部姿势。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080015529.4/1.html,转载请声明来源钻瓜专利网。