[发明专利]声学模型训练方法、装置、设备及计算机可读介质有效
申请号: | 201811473628.8 | 申请日: | 2018-12-04 |
公开(公告)号: | CN109308895B | 公开(公告)日: | 2019-12-27 |
发明(设计)人: | 霍昱光 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06 |
代理公司: | 11313 北京市铸成律师事务所 | 代理人: | 张臻贤;江宇 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声学模型 文本 计算机可读介质 原始训练数据 新训练数据 人工标注 数据方式 数据积累 训练数据 语音数据 客户端 同源 语音 转换 检测 | ||
本发明提出一种声学模型训练方法,包括:对输入的语音进行识别,得到语音数据对应的文本;当检测到对所述文本的修改操作时,获取修改数据;将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练。本发明实施例利用客户端上实际收集到的同源数据并将其转换成有效的新训练数据,相对于原始的人工标注数据方式大幅节省时间和人力,同时大量增加数据积累。
技术领域
本发明涉及人工智能领域,尤其涉及一种声学模型训练方法及装置、设备和计算机可读介质。
背景技术
目前,随着语音识别技术的发展,越来越多产品采用了语音识别技术。例如,采用语音输入法等。而在具有语音识别功能的程序中,识别结果有时与用户实际想输入的内容不完全一致。
为了提高语音识别的准确率,一般采用声学模型对语音识别进行训练。首先通过从数据供应商直接购买或公司内部的标注团队对某一来源的数据进行标注获得训练数据,之后将处理好的训练数据加入到模型训练中,通过调整各种训练数据的比例和训练参数提升模型性能。
然而,由于声学模型训练一般数据获取方案需进行人工标注,语音数据需花费大量人力、财力、时间进行标注及重检。另外,无法保证采集到的音频数据与客户端数据同源,可能造成训练有偏。
发明内容
本发明实施例提供一种声学模型训练方法、装置、设备及计算机可读介质,以解决或缓解现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种声学模型训练方法,包括:
对输入的语音进行识别,得到语音数据对应的文本;
当检测到对所述文本的修改操作时,获取修改数据;
将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练。
在一种实施方式中,所述当检测到对所述文本的修改操作时,获取修改数据,包括:
检测文本的修改内容,剔除修改数据中对标点符号的修改数据;
检测文本中文字的修改后文本字数,保留与修改前文本字数相同的修改数据。
在一种实施方式中,所述将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练包括:
从声学模型的原始数据输入层输入原始训练数据;
从声学模型的新数据输入层输入新的训练数据;
在声学模型的隐层中对原始训练数据和新的训练数据进行训练;
从声学模型的原始数据输出层输出原始训练数据的识别标签;
从声学模型的新数据输出层输出新训练数据的识别标签。
在一种实施方式中,所述新的训练数据和原始训练数据的数据量比例为:1:1~1:2之间。
第二方面,本发明实施例提供了一种声学模型训练装置,包括:
识别模块,用于对输入的语音进行识别,得到语音数据对应的文本;
修改检测模块,用于当检测到对所述文本的修改操作时,获取修改数据;
训练模块,用于将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练。
在一种实施方式中,所述修改检测模块包括:
内容检测子模块,用于检测文本的修改内容,剔除修改数据中对标点符号的修改数据;
字数检测子模块,用于检测文本中文字的修改后文本字数,保留与修改前文本字数相同的修改数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811473628.8/2.html,转载请声明来源钻瓜专利网。