[发明专利]多语种语音关键词检测、模型生成方法及电子设备有效
申请号: | 202011026187.4 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112185346B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 左祥;江之源;姚宇行;刘译璟;苏萌;高体伟 | 申请(专利权)人: | 北京百分点科技集团股份有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/06;G10L15/22;G10L15/26 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许振新 |
地址: | 100096 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语种 语音 关键词 检测 模型 生成 方法 电子设备 | ||
1.一种关键词模型生成方法,其特征在于,包括:
获取多个对应不同语种的关键词文本;
将所述多个对应不同语种的关键词文本分别转换为各个语种对应的音素序列;
基于不同语种的音素与目标语种的音素的映射关系,将所述语种对应的音素序列转换为所述目标语种的音素序列;
根据转换后的目标语种的音素序列,生成所述多个对应不同语种的关键词文本对应的关键词模型;
其中,所述语种对应的音素序列中的同一个音素对应所述目标语种的音素序列中的至少一个音素;
在所述同一个音素对应所述目标语种的音素序列中的多个不同的音素时,所述多个不同的音素分别具有对应的权重,所述权重表示所述同一个音素被表示成所述多个不同的音素中的每个音素的概率。
2.如权利要求1所述的方法,其特征在于,根据转换后的目标语种的音素序列,生成所述多个对应不同语种的关键词文本对应的关键词模型,包括:
根据所述目标语种中的所述多个不同的音素,分别对应所述同一个音素生成多个不同的关键词模型,以生成所述多个对应不同语种的关键词文本对应的关键词模型。
3.一种多语种语音关键词检测方法,其特征在于,包括:
接收待检测语音;
对所述待检测语音进行分段处理得到多个音频片段:
将每个音频片段转换为对应的音频特征;
将所述音频特征输入根据权利要求1或2所述的关键词模型进行计算,以得到对应音频片段的关键词概率;
根据所述关键词概率检测所述音频片段中的关键词。
4.如权利要求3所述的方法,其特征在于,将每个音频片段转换为对应的音频特征,包括:
确定所述音频片段的音频帧的数量;
将所述音频片段的每个音频帧转换为一组对应维数的音频特征值;
根据所述音频帧的数量和所述维数确定所述音频片段对应的音频特征矩阵。
5.如权利要求4所述的方法,其特征在于,将所述音频特征输入所述关键词模型进行计算,以得到对应音频片段的关键词概率,包括:
基于所述关键词模型对应的目标语种关键词的音素和所述音频片段的音频帧,形成一个包括多个节点状态的网络,其中每个音素和对应的一个音频帧形成一个节点状态;
将每个音频帧对应的音频特征作为参数,利用预定算法计算每个节点状态的后验概率;
确定所述多个节点状态中后验概率的最大值,以作为所述音频片段的关键词概率。
6.如权利要求5所述的方法,其特征在于,在所述关键词模型对应的目标语种关键词的音素包括与所述待检测语音对应语种的同一个音素对应的多个不同音素时,利用预定算法计算每个节点状态的后验概率,还包括:
根据所述多个不同音素对应所述同一个音素的权重,分别对所述音素对应的节点状态的后验概率进行加权计算,以得到所述节点状态的后验概率。
7.一种电子设备,其特征在于,包括:存储器和与所述存储器电连接的处理器,所述存储器存储有可在所述处理器运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011026187.4/1.html,转载请声明来源钻瓜专利网。