[发明专利]虚拟人多模态交互的输出方法和系统在审
申请号: | 201710822978.X | 申请日: | 2017-09-13 |
公开(公告)号: | CN107808191A | 公开(公告)日: | 2018-03-16 |
发明(设计)人: | 尚小维 | 申请(专利权)人: | 北京光年无限科技有限公司 |
主分类号: | G06N3/00 | 分类号: | G06N3/00 |
代理公司: | 北京聿华联合知识产权代理有限公司11611 | 代理人: | 朱绘,张文娟 |
地址: | 100000 北京市石景山区石景山*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 虚拟 人多模态 交互 输出 方法 系统 | ||
1.一种虚拟人多模态交互的输出方法,其特征在于,所述方法包括以下步骤:
响应于接收的指令进入唤醒状态,将形象显示在预设显示区域内;
获取多模态交互输入数据;
调用能力接口解析所述交互输入数据,并生成对应的多模态决策输出数据;
将所述多模态输出数据中的语音文件与嘴型模型进行匹配,通过匹配该语音的嘴型文件输出该语音,所述嘴型模型包括:拼音模型及其与切分字词信息的融合数据。
2.如权利要求1所述的虚拟人多模态交互的输出方法,所述拼音模型按照如下步骤执行:
将对所述语音文件进行语音识别并转换为文本;
对所述文本按照拼音音节划分,将拼音音节与嘴型参量进行匹配,生成拼音模型。
3.如权利要求2所述的虚拟人多模态交互的输出方法,其特征在于,所述嘴型模型按照如下步骤执行:
对采集的语音文件进行切分以生成结构化字词;
提取出所述结构化字词的信息,包括:其所在的语音文件中的起始时间、结束时间以及最强振幅;
将所述拼音模型与所述结构化字词信息进行融合,生成与嘴型参量对应的嘴型模型。
4.如权利要求3所述的虚拟人多模态交互的输出方法,其特征在于,将所述拼音模型与所述结构化字词信息进行融合,包括:
将声母和韵母对应的嘴型的参量进行融合形成对应于字的嘴型的参量;
将各个音节的嘴型的参量进行融合形成对应于音节组合的嘴型的参量;
将所述对应于字的嘴型的参量进一步进行融合形成对应于字字组合的嘴型的参量;
将上述各个嘴型的参量根据语音表达节奏加上对应于结尾字的嘴型的参量进行匹配组合形成最终的嘴型模型。
5.如权利要求2-4所述的虚拟人多模态交互的输出方法,其特征在于,所述嘴型的各个参量包括:嘴型形状、嘴型幅度和舌头形态。
6.一种存储介质,其上存储有可执行如权利要求1-5中任一项所述的方法步骤的程序代码。
7.一种虚拟人多模态交互的输出装置,其特征在于,所述装置包含:
响应模块,其用于响应于接收的指令进入唤醒状态,将形象显示在预设显示区域内;
获取模块,其用于获取多模态交互输入数据;
调用模块,其用于调用能力接口解析所述交互输入数据,并生成对应的多模态决策输出数据;
匹配模块,其用于将所述多模态输出数据中的语音文件与嘴型模型进行匹配,通过匹配该语音的嘴型文件输出该语音,所述嘴型模型包括:拼音模型及其与切分字词信息的融合数据。
8.如权利要求7所述的虚拟人多模态交互的输出装置,其特征在于,所述匹配模块还包括以下单元:
转换单元,其用于将对所述语音文件进行语音识别并转换为文本;
划分单元,其用于对所述文本按照拼音音节划分,将拼音音节与嘴型参量进行匹配,生成拼音模型。
9.如权利要求7所述的虚拟人多模态交互的输出装置,其特征在于,所述装置包含:
切分单元,其用于对采集的语音文件进行切分以生成结构化字词;
提取单元,其用于提取出所述结构化字词的信息,包括:其所在的语音文件中的起始时间、结束时间以及最强振幅;
融合单元,其用于将所述拼音模型与所述结构化字词信息进行融合,生成与嘴型参量对应的嘴型模型。
10.一种虚拟人多模态交互的输出系统,其特征在于,所述系统包含:
硬件设备,其用于显示虚拟人的形象以及用户与虚拟人交互过程中数据的处理;
云端服务器,其用于配合所述硬件设备完成以下步骤:
调用能力接口解析所述交互输入数据,并生成对应的多模态决策输出数据;
将所述多模态输出数据中的语音文件与嘴型模型进行匹配,通过匹配该语音的嘴型文件输出该语音,所述嘴型模型包括:拼音模型及其与切分字词信息的融合数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京光年无限科技有限公司,未经北京光年无限科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710822978.X/1.html,转载请声明来源钻瓜专利网。