[发明专利]语言模型的训练方法、装置和电子设备有效
申请号: | 202011165544.5 | 申请日: | 2020-10-27 |
公开(公告)号: | CN112466292B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 张辽;蒋正翔;付晓寅 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 模型 训练 方法 装置 电子设备 | ||
本申请公开了语言模型的训练方法、装置和电子设备,涉及语音、自然语言处理、深度学习技术领域。具体实现方案为:采用语义解析模块获取样本文本对应的文法和文法中槽位对应的槽值;根据文法和文法中槽位对应的槽值生成文法对应的文法图;根据样本文本获取文法图中文法的权重、槽位的权重和槽值的权重;根据文法图中文法的权重、槽位的权重和槽值的权重计算不同阶的文法频次;以及根据文法频次进行语言模型的训练。本申请的训练方法,能够直接根据文法图中文法的权重、槽位的权重和槽值的权重计算不同阶的文法频次,解决了相关技术中语料数量过多的问题,文法频次的计算效率更高,能够显著缩短语言模型的训练时长。
技术领域
本申请涉及计算机技术领域中的语音、自然语言处理、深度学习技术领域,尤其涉及一种语言模型的训练方法、装置、电子设备和存储介质。
背景技术
目前,语音识别技术在智能家电、机器人、车载终端等领域得到了广泛的应用,相关技术中大多根据预先训练好的语言模型对语音进行识别,为了提高语言模型的性能,往往需要大量的语料数据对语言模型进行训练,语料数据数量过多,模型训练需要耗费较多的存储资源和计算资源,且训练时间较长,训练效率较低。
发明内容
提供了一种语言模型的训练方法、装置、电子设备、存储介质和计算机程序产品。
根据第一方面,提供了一种语言模型的训练方法,包括:采用语义解析模块获取样本文本对应的文法和所述文法中槽位对应的槽值;根据所述文法和所述文法中所述槽位对应的槽值生成所述文法对应的文法图;根据所述样本文本获取所述文法图中所述文法的权重、所述槽位的权重和所述槽值的权重;根据所述文法图中所述文法的权重、所述槽位的权重和所述槽值的权重计算不同阶的文法频次;以及根据所述文法频次进行语言模型的训练。
根据第二方面,提供了一种语言模型的训练装置,包括:语义解析模块,用于获取样本文本对应的文法和所述文法中槽位对应的槽值;生成模块,用于根据所述文法和所述文法中所述槽位对应的槽值生成所述文法对应的文法图;第二获取模块,用于根据所述样本文本获取所述文法图中所述文法的权重、所述槽位的权重和所述槽值的权重;计算模块,用于根据所述文法图中所述文法的权重、所述槽位的权重和所述槽值的权重计算不同阶的文法频次;以及训练模块,用于根据所述文法频次进行语言模型的训练。
根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请第一方面所述的语言模型的训练方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请第一方面所述的语言模型的训练方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行时实现本申请第一方面所述的语言模型的训练方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的语言模型的训练方法的流程示意图;
图2是根据本申请第二实施例的语言模型的训练方法中文法图的示意图;
图3是根据本申请第三实施例的语言模型的训练方法中文法图的示意图;
图4是根据本申请第四实施例的语言模型的训练方法中根据文法和文法中槽位对应的槽值生成文法对应的文法图的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011165544.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语言模型的训练方法、装置和电子设备
- 下一篇:制作光子晶体的方法及光子晶体