[发明专利]模型训练方法和装置、文本预测方法和装置有效
申请号: | 202110738146.6 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113420822B | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 肖东凌;李宇琨;张涵;孙宇;田浩;吴华;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/295;G06F40/30;G06N3/08 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 装置 文本 预测 | ||
本公开提供了一种模型训练方法和装置,涉及自然语言处理、深度学习等技术领域。具体实现方案为:获取至少一个段落文本,每个段落文本包括多个细粒度样本;对每个段落文本中的细粒度样本进行处理,得到粗粒度样本;标注各个段落文本中的粗粒度样本,并采用一个细粒度样本的掩码遮挡一个粗粒度样本,得到训练样本集,训练样本集包括多个标注文本,每个标注文本包括细粒度样本、被标注的粗粒度样本中的至少一项;采用训练样本集训练细粒度模型,得到训练完成的细粒度模型,细粒度模型用于学习上一个细粒度的内容,并预测相邻的粗粒度的内容。该实施方式提高了模型训练的收敛效果。
技术领域
本公开涉及计算机技术领域,具体涉及自然语言处理、深度学习等技术领域,尤其涉及一种模型训练方法和装置、文本预测方法和装置、电子设备、计算机可读介质以及计算机程序产品。
背景技术
在掩膜语言模型(Masked language modeling,简称MLM)中,不同掩码位置之间相互独立,对于采用连续掩码方式的模型,如ERNIE(Enhanced Representation fromKnowledge Integration,知识增强语义表示模型)、BERT-wwm(Bidirectional EncoderRepresentation from Transformers-Whole Word Masking)等,对于一个连续词汇,内部所包含字符的预测是相互独立的,因此只能训练掩膜语言模型记住几个字符的组合模式,并不能很好的学会该连续词汇本身的语义,连续词汇的语义紧密程度不高。
发明内容
提供了一种模型训练方法和装置、文本预测方法和装置、电子设备、计算机可读介质以及计算机程序产品。
根据第一方面,提供了一种模型训练方法,该方法包括:获取至少一个段落文本,每个段落文本包括多个细粒度样本;对每个段落文本中的细粒度样本进行处理,得到粗粒度样本;标注各个段落文本中的粗粒度样本,并采用一个细粒度样本的掩码遮挡一个粗粒度样本,得到训练样本集,训练样本集包括多个标注文本,每个标注文本包括细粒度样本、被标注的粗粒度样本中的至少一项;采用训练样本集训练细粒度模型,得到训练完成的细粒度模型,细粒度模型用于学习上一个细粒度的内容,并预测相邻的粗粒度的内容。
根据第二方面,提供了一种文本预测方法,该方法包括:获取待预测文本;将待预测文本输入采用如第一方面任一实现方式描述的方法生成的细粒度模型,得到待预测文本中粗粒度以及粗粒度的类型。
根据第三方面,提供了一种模型训练装置,该装置包括:样本获取单元,被配置成获取至少一个段落文本,每个段落文本包括多个细粒度样本;处理单元,被配置成对每个段落文本中的细粒度样本进行处理,得到粗粒度样本;得到单元,被配置成标注各个段落文本中的粗粒度样本,并采用一个细粒度样本的掩码遮挡一个粗粒度样本,得到训练样本集,训练样本集包括多个标注文本,每个标注文本包括细粒度样本、被标注的粗粒度样本中的至少一项;训练单元,被配置成采用训练样本集训练细粒度模型,得到训练完成的细粒度模型,细粒度模型用于学习上一个细粒度的内容,并预测相邻的粗粒度的内容。
根据第四方面,提供了一种文本预测装置,该装置包括:获取单元,被配置成获取待预测文本;得到单元,被配置成将待预测文本输入如第一方面任一实现方式描述的方法生成的细粒度模型,得到待预测文本中粗粒度以及粗粒度的类型。
根据第五方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第二方面任一实现方式描述的方法。
根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面或第二方面任一实现方式描述的方法。
根据第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面或第二方面任一实现方式描述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110738146.6/2.html,转载请声明来源钻瓜专利网。