[发明专利]训练自然语言处理模型和自然语言处理的方法、电子设备在审
申请号: | 202111008140.X | 申请日: | 2021-08-30 |
公开(公告)号: | CN113626563A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 王炳乾 | 申请(专利权)人: | 京东方科技集团股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/126;G06F40/157;G06F40/232 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 王莉莉 |
地址: | 100015 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 自然语言 处理 模型 方法 电子设备 | ||
本公开涉及一种训练自然语言处理模型和自然语言处理的方法、电子设备。训练自然语言处理模型的方法包括:获取训练用的语料数据;利用自然语言处理模型,对所述语料数据进行处理,得到输出信息,所述自然语言处理模型包括第一模型和第二模型,其中,所述第一模型用于对所述语料数据的拼音数据进行纠错,所述第二模型用于对纠错后的所述语料数据的拼音数据进行文字转换;根据所述自然语言处理模型的输出信息,训练所述自然语言处理模型,得到训练后的自然语言处理模型。
技术领域
本公开涉及自然语言处理技术领域,特别涉及一种训练自然语言处理模型和自然语言处理的方法、电子设备,以及计算机可读存储介质。
背景技术
自然语言处理(NLP,Natural Language Processing)是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。例如,利用自然语言处理技术可以对各种语料数据,例如语音数据、文本数据,进行处理。
随着人工智能(AI)算法以及AI芯片等硬件技术的发展,智能设备已经在日常生活中被广泛应用,如智能家居语音控制系统、智能音箱、智能会议系统会议记录生成等。
然而,在语音交互过程中,说话人的口音、环境噪音、或者语句内容本身的同音多词等因素,会造成语音识别错误。并且,语音识别错误会逐级传递放大,并累积至后续链路,最终造成下游任务的失败。因此,对声学模型的识别结果进行矫正就显得尤为重要。
发明内容
根据本公开的一些实施例,提出了一种训练自然语言处理模型的方法,包括:
获取训练用的语料数据;
利用自然语言处理模型,对所述语料数据进行处理,得到输出信息,其中,所述自然语言处理模型包括第一模型和第二模型,所述第一模型用于对所述语料数据的拼音数据进行纠错,所述第二模型用于对纠错后的所述语料数据的拼音数据进行文字转换;
根据所述自然语言处理模型的输出信息,训练所述自然语言处理模型,得到训练后的自然语言处理模型。
在一些实施例中,根据所述自然语言处理模型的输出信息,训练所述自然语言处理模型,得到训练后的自然语言处理模型包括:
利用所述第一模型的模型预测值与真实标签值之间的差异,计算第一损失函数;
利用所述第二模型的模型预测值与真实标签值之间的差异,计算第二损失函数;
根据所述第一损失函数和所述第二损失函数,训练所述自然语言处理模型。
在一些实施例中,利用自然语言处理模型,对所述语料数据进行处理,得到输出信息包括:
将所述语料数据转换成拼音数据;
针对所述语料数据的拼音数据,构建相似拼音集合;
对所述语料数据的拼音数据进行嵌入编码处理,得到嵌入向量数据;
利用所述第一模型,对所述嵌入向量数据进行处理,得到拼音纠错后的数据;
利用所述第二模型,对拼音纠错后的数据进行拼音到文字的转换。
在一些实施例中,对所述语料数据的拼音数据进行嵌入编码处理,得到嵌入向量数据包括:
对所述语料数据的拼音数据中的至少一个拼音进行随机掩蔽处理,得到随机掩蔽后的拼音数据;
对所述随机掩蔽后的拼音数据进行嵌入编码处理,得到嵌入向量数据。
在一些实施例中,对所述语料数据的拼音数据进行随机掩蔽包括:
随机确定要掩蔽的至少一个拼音;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东方科技集团股份有限公司,未经京东方科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111008140.X/2.html,转载请声明来源钻瓜专利网。