[发明专利]一种针对低资源土家语的跨语言端到端语音识别方法在审
申请号: | 201811011859.7 | 申请日: | 2018-08-31 |
公开(公告)号: | CN109003601A | 公开(公告)日: | 2018-12-14 |
发明(设计)人: | 于重重;陈运兵;徐世璇;刘畅 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/06;G10L15/16;G10L15/187 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100048 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音识别 端到端 国际音标 语言 预处理 解码 时序 编码字典 分类模型 统一编码 泛化性 语料库 准确率 构建 语料 语种 字典 迁移 中文 学习 | ||
1.一种针对低资源土家语的跨语言端到端语音识别方法,其特征在于,包括以下步骤:
1)对土家语语料进行预处理:对土家语长篇原始语料的句子进行切分,得到每个句子的声音与其对应的国际音标文本,完成句子的声音与文本的校对,使得句子的声音与文本一一对应,由此得到预处理后的土家语数据;
2)构建跨语言的土家语语料库:以汉语语音数据集作为土家语的扩展数据,将汉语拼音转换成国际音标,使其与步骤1)中的土家语数据格式一致;
建立汉语和土家语的跨语言语料库;汉语和土家语的跨语言语料库包括步骤1)预处理后的土家语数据和将汉语语音数据集中的汉语拼音转换成国际音标后得到的汉语数据;
3)建立中文国际音标和民族国际音标的统一编码字典:分别建立土家语和汉语的国际音标字典;并将汉语的国际音标转为民族国际音标;统一编码字典包括土家语的国际音标和汉语的国际音标;
4)建立跨语言的端到端土家语语音识别模型:首先使用多语言语音识别方法,由步骤2)构建的土家语语料库中的语音得到语谱图;将其输入到卷积神经网络完成特征提取;接着采用双向长短时记忆网络对长序列进行建模,完成共享声学特征提取;最后利用连接时序分类模型并在统一编码字典的作用下进行解码得到识别结果,输出土家语的国际音标;
5)采用跨语言和迁移学习的方法,使用土家语和汉语的跨语言语料库作为训练数据,对步骤4)建立的跨语言的端到端土家语语音识别模型进行训练,得到初始模型;继续使用土家语语料库作为训练数据进行训练,得到训练好的跨语言的端到端土家语语音识别模型;
利用训练好的跨语言的端到端土家语语音识别模型,即可实现对待识别的土家语进行跨语言端到端的语音识别。
2.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法,其特征是,步骤1)具体利用Praat脚本完成土家语长篇原始语料的句子切分。
3.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法,其特征是,步骤2)中,所述汉语语音数据集具体采用清华大学30小时汉语语音数据集thchs30作为土家语的扩展数据,用于解决土家语语音数据不足的问题。
4.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法,其特征是,步骤3)中,土家语的国际音标字典和汉语的国际音标字典的相似度为70%以上。
5.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法,其特征是,步骤4)建立跨语言的端到端土家语语音识别模型,具体执行如下操作:
41)将土家语和汉语语音的语谱图输入到卷积神经网络,首先经过第一层卷积层和一层最大池化层,再经过第二层卷积层,提取得到高维特征;
42)将高维特征输入3层双向长短期记忆网络BiLSTM,提取共享声学特征;
43)利用连接时序分类CTC模型及步骤3)所述统一编码字典进行解码,得到识别结果,模型输出为土家语国际音标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811011859.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:消息处理方法及装置
- 下一篇:语音产品的测试方法、装置、设备及计算机可读介质