[发明专利]用户语音数据处理方法、装置及电子设备在审

申请号：	202111567987.1	申请日：	2021-12-21
公开（公告）号：	CN114333809A	公开（公告）日：	2022-04-12
发明（设计）人：	郑渊中;叶峰;朱小波;疏北平	申请（专利权）人：	上海淇玥信息技术有限公司
主分类号：	G10L15/197	分类号：	G10L15/197;G10L15/22;G10L15/06
代理公司：	北京清诚知识产权代理有限公司 11691	代理人：	何怀燕
地址：	201500 上海市崇明***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用户语音数据处理方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用户语音数据处理方法，其特征在于，包括：

获取来自用户的语音数据；

将所述语音数据输入声学模型中，生成多个音素数据；

将所述音素数据输入发音模型中，生成多维字符查询矩阵，所述多维字符查询矩阵中包括多个维度，每个维度均包括多个字符和其对应的概率值；

将所述多维字符查询矩阵输入语言模型中，生成语义文本；

基于所述语义文本生成响应数据以反馈给所述用户。

2.如权利要求1所述的方法，其特征在于，还包括：

基于多个历史语音数据对语音识别模型进行训练以生成所述声学模型；

基于多个历史音素数据对3-gram模型进行训练以生成所述发音模型；

基于多个历史多维字符查询矩阵对GRU模型进行训练以生成所述语言模型。

3.如权利要求1所述的方法，其特征在于，将所述音素数据输入发音模型中，生成多维字符查询矩阵，包括：

将所述音素数据输入发音模型；

所述发音模型将所述音素数据切分为多个短音频；

对所述多个短音频的出现频率进行统计，生成多组统计结果；

根据多组统计结果为多维初始查询矩阵中的字符赋值以生成所述多维字符查询矩阵；

其中所述多维初始查询矩阵中的字符值为0。

4.如权利要求1所述的方法，其特征在于，将所述多维字符查询矩阵输入语言模型中，生成语义文本，包括：

将所述多维字符查询矩阵输入语言模型；

所述语言模型中的更新门函数、重置门函数基于所述多维字符查询矩阵生成多个更新值、多个重置值；

根据所述多个更新值和所述多个重置值生成多个字符文本和其对应的评分；

将评分最高的字符文本作为所述语音文本。

5.如权利要求1所述的方法，其特征在于，基于所述语义文本生成响应数据以反馈给所述用户，包括：

基于所述语义文本生成智能语音机器人的响应数据以与所述用户进行智能语音对话；和/或

基于所述语义文本生成用户指令，基于所述用户指令生成响应数据以反馈给所述用户。

6.如权利要求2所述的方法，其特征在于，基于多个历史音素数据对3-gram模型进行训练以生成所述发音模型，包括：

将多个历史音素数据分别切分为多个短音频，生成多个短音频组；

为所述多个短音频组中每个短音频设置字符标签；

基于带有字符标签的多个短音频组分别对3-gram模型进行训练以生成所述发音模型。

7.如权利要求6所述的方法，其特征在于，基于带有字符标签的多个短音频组分别对3-gram模型进行训练以生成所述发音模型，包括：

基于字符标签生成多维初始查询矩阵；

带有字符标签的多个短音频组分别输入3-gram模型；

根据3-gram模型的计算结果生成多个历史多维字符查询矩阵；

根据多个历史多维字符查询矩阵对所述3-gram模型的3-gram模型参数进行调整；

在3-gram模型参数收敛时，生成所述发音模型。

8.如权利要求7所述的方法，其特征在于，基于字符标签生成多维初始查询矩阵，包括：

确定所述多维初始查询矩阵的维度；

基于所述字符标签的哈希值将所述字符标签映射到所述多维初始查询矩阵中。

9.如权利要求2所述的方法，其特征在于，基于多个历史多维字符查询矩阵对GRU模型进行训练以生成所述语言模型，包括：

为所述多个历史多维字符查询矩阵分别设置文本标签；

基于带有文本标签的所述多个历史多维字符查询矩阵对GRU模型进行训练，基于训练结果生成GRU模型参数；

在GRU模型参数收敛时，生成所述语言模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海淇玥信息技术有限公司，未经上海淇玥信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111567987.1/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用户语音数据处理方法、装置及电子设备在审

专利文献下载