[发明专利]预训练语言模型获取方法、装置、电子设备和存储介质有效
申请号: | 201911342666.4 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111144115B | 公开(公告)日: | 2023-10-20 |
发明(设计)人: | 庞超;王硕寰;孙宇;李芝 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06F16/36 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 语言 模型 获取 方法 装置 电子设备 存储 介质 | ||
1.一种预训练语言模型获取方法,其特征在于,所述方法包括:
获取预训练语言模型和实体关系训练任务,所述预训练语言模型包括transformer结构;
根据所述实体关系训练任务,对所述预训练语言模型进行训练,以得到训练后的预训练语言模型;
其中,所述实体关系训练任务,包括:
获取第一训练语句;
通过实体识别技术,确定出所述第一训练语句中的实体,并建立实体与实体之间的实际实体链接关系;
将所述第一训练语句输入到所述预训练语言模型中,通过所述transformer结构,得到所述第一训练语句中每个字符的向量表示;
根据所述第一训练语句中每个字符的向量表示,预测得到所述第一训练语句中实体的预测实体链接关系;
根据所述实际实体链接关系和所述预测实体链接关系之间的差异,调整所述预训练语言模型的模型参数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一训练语句中每个字符的向量表示,预测得到所述第一训练语句中实体的预测实体链接关系,包括:
将所述第一训练语句中每个字符的向量表示输入到预设的图神经网络模型中,以预测得到所述第一训练语句中实体的预测实体链接关系,其中,所述图神经网络模型包括多个实体节点,具有实体关系的两个实体节点之间具有关联边。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
采用双语言训练任务,对所述预训练语言模型进行训练;
其中,所述第一训练语句中的预设字符被遮盖或替换,所述双语言训练任务,包括:
根据所述第一训练语句中每个字符的向量表示,预测得到被遮盖或者替换的预测字符;
根据所述预设字符和所述预测字符之间的差异,调整所述预训练语言模型的模型参数。
4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
采用句对关系训练任务,对所述预训练语言模型进行训练。
其中,所述第一训练语句包括多个,多个所述第一训练语句的实际句对关系包括正例关系和反例关系,所述正例关系,用于指示多个所述第一训练语句为来自同一个文档的连续连语句,所述反例关系,用于指示多个所述第一训练语句为来自不同文档的语句;
所述句对关系训练任务,包括:
根据各个所述第一训练语句中每个字符的向量表示,分别确定出各个所述第一训练语句的语句向量表示;
根据各个所述第一训练语句的语句向量表示,预测多个所述第一训练语句的预测句对关系;
根据所述实际句对关系和所述预测句对关系,调整所述预训练语言模型的模型参数。
5.根据权利要求1所述的方法,其特征在于,所述建立实体与实体之间的实际实体链接关系,包括:
根据预设的实体链接关系建立规则和所述第一训练语句中的实体识别结果,建立实体与实体之间的实际实体链接关系;
其中,所述第一训练语句包括多个,所述实体链接关系建立规则,包括:
同一个所述第一训练语句中的各个实体之间具有连接边;
同一个所述第一训练语句中的中心实体与其他实体之间具有连接边,其中,所述中心实体,用于指示所述第一训练语句所属页面的词条词;
不同所述第一训练语句中的相同实体之间建立连接边;
不同实体之间只有一条连接边。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取与预设的自然语言处理任务类型对应的训练数据,其中,所述训练数据包括第二训练语句以及所述第二训练语句的标注结果;
根据所述第二训练语句和所述标注结果,对训练后的所述预训练语言模型进行调整,以得到与所述自然语言处理任务类型对应的目标语言模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911342666.4/1.html,转载请声明来源钻瓜专利网。