[发明专利]可定制语音唤醒方法及系统有效
申请号: | 201610462976.X | 申请日: | 2016-06-23 |
公开(公告)号: | CN106098059B | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | 俞凯;钱彦旻;庄毅萌;陈哲怀;常烜恺 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/22 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种可定制语音唤醒方法及系统,通过使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模并对模型进行训练,采用训练后模型进行测试并在生成的Lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据。本发明利用CTC模型输出后验概率稀疏的特点进行高效搜索,从而完成对唤醒词置信度计算的技术。本发明一方面可以得到较高的唤醒性,即高准确率,低误唤醒,另一方面对应用系统的计算资源消耗相对较少。 | ||
搜索关键词: | 定制 语音 唤醒 方法 系统 | ||
【主权项】:
1.一种可定制语音唤醒方法,其特征在于,包括以下步骤:步骤1)使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模;步骤2)对模型进行训练:将事先收集并标注好的音频数据首先要经过信号处理方法做预处理并提取可供模型训练的声学特征,模型将特征数据作为输入,将标注的音素信息作为输出,在海量数据下通过深度学习的方法完成模型各参数量的训练,得到可使用的长短时记忆网络和连接时序分类模型;步骤3)采用训练后模型进行测试:对测试语音做同样的预处理和特征提取,并输入模型,模型将输出每一帧所有建模单元,即音素可能出现的后验概率;步骤4)唤醒词搜索:通过在Lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据,其中:最相似的可能音素序列Hmax,通过判断音素序列在语音中的出现概率,即出现概率越高且越与唤醒词音素序列相似的序列越可能是唤醒词的方式得到,具体为:其中:P(T)为目标音素序列T,T={t1,t2,…,ti,…,tn}的观察概率,ti表示T中的第i个音素,i为1~n;目标音素序列T位于连接时序分类音素网格结构中的所有音素序列的概率为:P(T|LH)∝P(LH|T)P(T)≈P(Hmax|T)P(T),其中:LH表示连接时序分类音素网格结构中的所有音素序列,而可能音素序列Hmax即为T已知时LH中的最高概率;P(H)为音素序列H,H={nij1,n(i+1)j2,…,n(i+k‑1)jk,…,n(i+m‑1)jm}的观察概率,nij为lattice网格结构中第i栏第j列的音素,音素序列H表示为H={h1,h2,…,hk,…,hm},其中:hk=n(i+k‑1)jk;P(H)通过unigram假设,即累积乘音素序列中每个音素的后验概率获得,具体为:P(T/H)为目标音素序列T和音素序列H之间的相似程度,即目标音素序列和假设序列之间的每个编辑操作的概率之积作为衡量音素序列相似性的指标,MED(T,H)表示目标音素序列T和音素序列H的最少编辑操作次数,P(opi|R=T,E=H)表示当参考音素序列R为T时猜测音素序列E为H时,序列E和R之间的第i次编辑操作opi的概率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610462976.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种A1级防火砖雕及其制备方法
- 下一篇:一种松茸调味料及其制备方法