[发明专利]用户语音数据处理方法、装置及电子设备在审
申请号: | 202111567987.1 | 申请日: | 2021-12-21 |
公开(公告)号: | CN114333809A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 郑渊中;叶峰;朱小波;疏北平 | 申请(专利权)人: | 上海淇玥信息技术有限公司 |
主分类号: | G10L15/197 | 分类号: | G10L15/197;G10L15/22;G10L15/06 |
代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 何怀燕 |
地址: | 201500 上海市崇明*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 语音 数据处理 方法 装置 电子设备 | ||
1.一种用户语音数据处理方法,其特征在于,包括:
获取来自用户的语音数据;
将所述语音数据输入声学模型中,生成多个音素数据;
将所述音素数据输入发音模型中,生成多维字符查询矩阵,所述多维字符查询矩阵中包括多个维度,每个维度均包括多个字符和其对应的概率值;
将所述多维字符查询矩阵输入语言模型中,生成语义文本;
基于所述语义文本生成响应数据以反馈给所述用户。
2.如权利要求1所述的方法,其特征在于,还包括:
基于多个历史语音数据对语音识别模型进行训练以生成所述声学模型;
基于多个历史音素数据对3-gram模型进行训练以生成所述发音模型;
基于多个历史多维字符查询矩阵对GRU模型进行训练以生成所述语言模型。
3.如权利要求1所述的方法,其特征在于,将所述音素数据输入发音模型中,生成多维字符查询矩阵,包括:
将所述音素数据输入发音模型;
所述发音模型将所述音素数据切分为多个短音频;
对所述多个短音频的出现频率进行统计,生成多组统计结果;
根据多组统计结果为多维初始查询矩阵中的字符赋值以生成所述多维字符查询矩阵;
其中所述多维初始查询矩阵中的字符值为0。
4.如权利要求1所述的方法,其特征在于,将所述多维字符查询矩阵输入语言模型中,生成语义文本,包括:
将所述多维字符查询矩阵输入语言模型;
所述语言模型中的更新门函数、重置门函数基于所述多维字符查询矩阵生成多个更新值、多个重置值;
根据所述多个更新值和所述多个重置值生成多个字符文本和其对应的评分;
将评分最高的字符文本作为所述语音文本。
5.如权利要求1所述的方法,其特征在于,基于所述语义文本生成响应数据以反馈给所述用户,包括:
基于所述语义文本生成智能语音机器人的响应数据以与所述用户进行智能语音对话;和/或
基于所述语义文本生成用户指令,基于所述用户指令生成响应数据以反馈给所述用户。
6.如权利要求2所述的方法,其特征在于,基于多个历史音素数据对3-gram模型进行训练以生成所述发音模型,包括:
将多个历史音素数据分别切分为多个短音频,生成多个短音频组;
为所述多个短音频组中每个短音频设置字符标签;
基于带有字符标签的多个短音频组分别对3-gram模型进行训练以生成所述发音模型。
7.如权利要求6所述的方法,其特征在于,基于带有字符标签的多个短音频组分别对3-gram模型进行训练以生成所述发音模型,包括:
基于字符标签生成多维初始查询矩阵;
带有字符标签的多个短音频组分别输入3-gram模型;
根据3-gram模型的计算结果生成多个历史多维字符查询矩阵;
根据多个历史多维字符查询矩阵对所述3-gram模型的3-gram模型参数进行调整;
在3-gram模型参数收敛时,生成所述发音模型。
8.如权利要求7所述的方法,其特征在于,基于字符标签生成多维初始查询矩阵,包括:
确定所述多维初始查询矩阵的维度;
基于所述字符标签的哈希值将所述字符标签映射到所述多维初始查询矩阵中。
9.如权利要求2所述的方法,其特征在于,基于多个历史多维字符查询矩阵对GRU模型进行训练以生成所述语言模型,包括:
为所述多个历史多维字符查询矩阵分别设置文本标签;
基于带有文本标签的所述多个历史多维字符查询矩阵对GRU模型进行训练,基于训练结果生成GRU模型参数;
在GRU模型参数收敛时,生成所述语言模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海淇玥信息技术有限公司,未经上海淇玥信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111567987.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种内螺纹精密磨削方法
- 下一篇:一种高纯度的维生素B6的制备方法