[发明专利]一种语音识别模型的训练方法和装置有效
申请号: | 201810433323.8 | 申请日: | 2018-05-08 |
公开(公告)号: | CN108831441B | 公开(公告)日: | 2019-08-13 |
发明(设计)人: | 张卓 | 申请(专利权)人: | 上海依图网络科技有限公司;上海图智安网络科技有限公司;深圳依图信息技术有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 200233 上海市徐汇*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音识别 文本 匹配 目标文本 方法和装置 预设条件 语音 人工智能领域 获取目标 模型输入 人工标注 人工成本 训练数据 预设 申请 数据库 存储 输出 | ||
本申请实施例涉及人工智能领域,尤其涉及一种语音识别模型的训练方法和装置。本申请实施例提供一种语音识别模型的训练方法,包括:向语音识别模型输入语音,从语音识别模型的输出侧得到语音对应的N个文本,将N个文本中的每个文本与预设数据库中存储的多个文本进行匹配,得到N个文本对应的N个匹配程度值,根据N个匹配程度值和预设条件,将N个匹配程度值中的满足预设条件的匹配程度值对应的文本确定为目标文本,将语音和目标文本作为语音识别模型的训练数据,对语音识别模型进行训练。由于可以直接通过由语音识别模型得到的N个文本进行删选处理,确定出目标文本,不再需要人工标注得到就可以获取目标文本,如此可以节省人工成本。
技术领域
本申请实施例涉及人工智能领域,尤其涉及一种语音识别模型的训练方法和装置。
背景技术
人工智能(Artificial Intelligence,AI)是研究和开发用于模拟、延伸和扩展人的智能的理论、方法、技术即应用系统的一门新的技术科学,人工智能是计算机科学的一个分支,人工智能领域的研究包括机器人、语音识别、图像识别和自然语言处理等等。其中,语音识别作为人工智能领域的一个重要技术,被应用于互联网,通信、智能家居等相关的各行各业。
为了得到语音识别模型,需要准备大量的语音数据和与该大量的语音数据对应的文本数据来训练,现有技术中,该文本数据是通过如下的方式获取的:组织大量的人听取语音数据,并写下正确的文本数据。然而,随着算法和计算机能力的进步,语音识别模型允许越来越多的语音数据和对应的文本数据加入训练,以提升语音识别模型的准确度,这使得人工成本成为资源投入的瓶颈。
发明内容
本申请实施例提供一种语音识别模型的训练方法和装置,用于节约人工成本。
本申请实施例提供一种语音识别模型的训练方法,包括:向语音识别模型输入语音,从语音识别模型的输出侧得到语音对应的N个文本,N为正整数,将N个文本中的每个文本与预设数据库中存储的多个文本进行匹配,得到N个文本对应的N个匹配程度值,其中,N个文本与N个匹配程度值一一对应,根据N个匹配程度值和预设条件,将N个匹配程度值中的满足预设条件的匹配程度值对应的文本确定为目标文本,将语音和目标文本作为语音识别模型的训练数据,对语音识别模型进行训练。由于可以直接通过由语音识别模型得到的N个文本进行删选处理,得到N个文本的N个匹配程度值与预设条件的匹配程度,进而确定出目标文本,不再需要人工标注就可以得到目标文本,如此可以节省人工成本。
可选的,将N个文本中的每个文本与预设数据库中存储的多个文本进行匹配,得到N个文本对应的N个匹配程度值,根据N个匹配程度值和预设条件,将N个匹配程度值中的满足预设条件的匹配程度值对应的文本确定为目标文本,包括:将N个文本中的每个文本与第一预设数据库中存储的多个文本进行匹配,得到N个文本对应的N个第一匹配程度值,其中,N个文本与N个第一匹配程度值一一对应,从N个第一匹配程度值中确定出大于第一阈值的M个第一匹配程度值,M为不大于N的正整数,根据M个第一匹配程度值对应的M个文本,从M个文本中确定出目标文本。
可选的,针对N个文本中的每个文本,文本对应的第一匹配程度值是根据第一预设数据库中存储的多个文本与文本相匹配的数量确定的。
可选的,根据M个第一匹配程度值对应的M个文本,从M个文本中确定出目标文本,包括:将M个第一匹配程度值对应的M个文本与第二预设数据库中存储的多个文本进行匹配,得到M个文本对应的M个第二匹配程度值,其中,M个文本与M个第二匹配程度值一一对应,从M个第二匹配程度值中确定出大于第二阈值的K个第二匹配程度值,K为不大于M的正整数,根据K个第二匹配程度值对应的K个文本,从K个文本中确定出目标文本。
可选的,针对M个文本中的每个文本,文本对应的第二匹配程度值是根据第二预设数据库中存储的多个文本与文本相匹配的数量确定的,第二预设数据库中的数据包括语音识别模型的输出侧对应的训练数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海依图网络科技有限公司;上海图智安网络科技有限公司;深圳依图信息技术有限公司,未经上海依图网络科技有限公司;上海图智安网络科技有限公司;深圳依图信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810433323.8/2.html,转载请声明来源钻瓜专利网。