[发明专利]一种结合类词信息的语言模型预训练方法有效
申请号: | 201910775453.4 | 申请日: | 2019-08-21 |
公开(公告)号: | CN110489555B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 白佳欣;宋彦 | 申请(专利权)人: | 创新工场(广州)人工智能研究有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06F40/289 |
代理公司: | 深圳市智享知识产权代理有限公司 44361 | 代理人: | 王琴;蒋慧 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 信息 语言 模型 训练 方法 | ||
本发明涉及语言处理技术领域,尤其涉及一种结合类词信息的语言模型预训练方法,其包括如下步骤:S1、提供预训练模型及预训练文本;S2、抽取字符串并形成词表;S3、抽取两个句子作为训练语句同时将训练语句分割成单字序列;S4、将步骤S2中的字符串和单字序列中的字进行匹配,并对和单字序列中的字相匹配的字符串进行标记;S5、将单字序列之中选取预设比例的单字进行遮盖或替换,且将遮盖或替换过的训练语句和被标记的字符串同时输入至预训练模型中对预训练模型进行训练并优化;S6、重复步骤S2‑S5直至预训练模型达到设定的优化条件以获得优化后的预训练模型。本发明提供的结合类词信息的语言模型预训练方法及预训练模型在多个下游任务上有更好的表现。
【技术领域】
本发明涉及语言处理技术领域,尤其涉及一种结合类词信息的语言模型预训练方法。
【背景技术】
目前最先进的预训练语言模型分为两类,分别是自回归语言模型(Autoregressive Model)与自编码语言模型(Autoencoding Model)。GPT和GPT2是表现较好的自回归语言模型。自回归模型的训练目标是根据前文来正确推测下一个字。BERT是代表性的自编码语言模型。BERT的训练目标是根据上下文正确推测出被遮盖或替换的字。两种语言模型各有优点和缺点。自回归模型只能结合前文,而无法同时结合上下文内容完成特定任务。另一方面,自编码语言模型可以同时利用上下文信息,但是其中在预训练过程中,为了遮盖推测目标字,将[mask]标记加入训练语料用于替换原来的目标字,然而[mask]编码不会出现在针对特定任务的微调整过程中。上述原因导致了预训练语言模型在预训练与微调整的输入不匹配,进而影响模型整体的表现。最近,XLNet被提出用于同时解决上述两个问题,使得预训练语言模型在不引入[mask]标记的同时,能结合上下文完成任务。
然而上述语言模型并未充分利用预训练和微调整语料中出现的词、短语、实体等更大颗粒度的信息。而此类信息在中文任务中尤其重要。与英文相比,中文没有空格等明确的词边界,使得模型更难从单字的序列中学习到双字或者多字词的整体含义。
最近,BERT-wwm模型被提出作为一种BERT模型针对上述问题在中文上进行的优化。BERT-wwm与BERT不同之处仅在于对训练语料的预处理。BERT在对预训练语料进行遮盖操作时,将15%的单字替换成[mask],其他字将保留。而BERT-wwm先对原语料使用分词工具进行分词,再以整词为单位进行相同的遮盖操作。在稍早之前,百度发布的ERNIE也是BERT针对上述问题的改进。ERNIE采用了多层次的遮盖策略。多层次遮盖策略包括字级别遮盖,短语级别遮盖和实体级别遮盖。为了达成多层次遮盖的目标,百度除了中文维基百科数据,额外使用了百度百科,百度贴吧和问答数据。虽然ERNIE使用了更多训练数据,学习了更多的知识,当时它与BERT-wwm在下游任务上表现相当。
然而通过多层遮盖策略来学习词边界信息也有诸多问题。首先,遮盖策略的有效性依赖于文本之外的额外信息,比如BERT-wwm依赖于分词器给出的结果,而ERNIE依赖于外部知识。在实际使用过程中,利用额外信息有下述缺点。第一,信息的质量无法得到保证。例如BERT-wwm的效果依赖于中文分词的质量。第二,是高质量的信息需要大量采集和标注,给预训练语言模型带来了额外的成本。第三,仅对于词进行遮盖并未充分使用词信息,因为词语可能含有的与字面无关的引申含义,例如“罗马尼亚”等外来词汇,“塞翁失马”等成语,以及“外孙子打灯笼”等歇后语。
针对这个问题,本专利在现有语言模型的基础之上,提出了一种新的将类词信息融入到语言模型的预训练和微调的方法中。
【发明内容】
针对现有的语言模型预测准确性低以及成本高的缺陷,本发明提供一种结合类词信息的语言模型预训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新工场(广州)人工智能研究有限公司,未经创新工场(广州)人工智能研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910775453.4/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置