[发明专利]一种车辆用多音区语音交互方法及电子设备在审
申请号: | 202010630094.6 | 申请日: | 2020-07-03 |
公开(公告)号: | CN111816189A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 杨扬;袁志俊;吴晓敏;王恺 | 申请(专利权)人: | 斑马网络技术有限公司 |
主分类号: | G10L17/22 | 分类号: | G10L17/22;G10L15/20;G10L15/22;G10L15/26;G10L25/87 |
代理公司: | 上海华诚知识产权代理有限公司 31300 | 代理人: | 徐颖聪 |
地址: | 200030 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 车辆 多音 语音 交互 方法 电子设备 | ||
1.一种车辆用多音区语音交互方法,其特征在于,所述方法包括:
车机终端依照音区的所在位置分别创建与一个或多个所述音区所在位置对应的语音交互链路;
所述车机终端设置所述语音交互链路处于监听状态,所述监听状态用于监听所述音区的用于唤醒的语音信号;
当一条或多条所述语音交互链路监听到所述音区的语音信号时,所述车机终端将该一条或多条所述语音交互链路切换到语音处理状态,所述语音处理状态用于处理其对应音区内的乘客输入的所述语音信号;
所述车机终端获取所述语音交互链路基于所述语音信号确定处理结果,并进行语音播报。
2.根据权利要求1所述的方法,其特征在于,车机终端依照音区的所在位置分别创建与一个或多个所述音区所在位置对应的语音交互链路,包括:
当所述车机终端识别到所述音区内有乘客,对乘客所在的音区创建所述语音交互链路。
3.根据权利要求2所述的方法,其特征在于,所述车机终端识别到所述音区内含有乘客,包括:
所述车机终端获取用于标识乘客的ID;
基于所述用于标识乘客的ID判断该乘客为已注册用户的置信度,
当所述置信度大于预设值,则确定该乘客为已注册用户,并获取该乘客的用户信息;
当所述置信度小于预设值时,判断所述乘客为新用户,并注册用户信息。
4.根据权利要求3所述的方法,其特征在于,所述注册用户信息包括:
所述车机终端获取的用于标识用户的ID,以及用户姓名、用户昵称、用户年龄和用户喜好中的一种或多种。
5.根据权利要求4所述的方法,其特征在于,所述用于标识用户的ID包括:面部ID、声纹ID和虹膜ID中一种或多种。
6.根据权利要求1所述的方法,其特征在于,所述语音交互链路的所述语音处理状态包括:
前端信号处理,包括该语音交互链路获取对应所述音区的所述语音信号,并进行预处理,得到高质量的语音信号;
语音交互,包括该语音交互链路基于所述高质量的语音信号与乘客进行语音对话。
7.根据权利要求6所述的方法,其特征在于,所述前端信号处理,进一步包括:
语音端点检测,用于检测所述语音信号的起始位置,获取包含语音信息的有效语音信号和不包含语音信息的无效语音信号;
降噪处理,用于降低所述有效语音信号里的噪音干扰,提高信噪比;
回音消除,用于消除所述有效语音信号里的回音;
声源定位,基于所述麦克风阵列收集的所述语音信号,确定说话乘客所在位置;
波束形成,用于将所述麦克风阵列收集的多路语音信号,整合成一路语音信号,对声源进一步精确定位。
8.根据权利要求6或7所述的方法,其特征在于,所述语音交互包括:
语音识别,用于将包含语音信息的有效语音信号转化成第一文本信息;
语义理解,用于理解所述第一文本信息的含义;
对话管理,基于所述语义理解,判断乘客当前语音对话是否结束,并生成决策;
话术处理,基于所述决策套用预设的话术生成第二文本;
语音合成,将所述第二文本生成语音并反馈给所述车机终端播放。
9.根据权利要求8所述的方法,其特征在于,所述话术处理(NLG)包括下列方法的一种或多种:
所述语音交互链路选择默认话术风格;
所述语音交互链路选择模板配置话术风格;
所述语音交互链路选择模型生成话术风格。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于斑马网络技术有限公司,未经斑马网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010630094.6/1.html,转载请声明来源钻瓜专利网。