[发明专利]一种模型训练方法及装置在审
申请号: | 202110690512.5 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113344098A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 彦虹羽;郑刚;沈亮;陈骐 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35;G06F16/36;G06F40/247;G06F40/295;G06F16/23;G06F16/2458 |
代理公司: | 北京曼威知识产权代理有限公司 11709 | 代理人: | 方志炜 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 装置 | ||
本说明书公开了一种模型训练方法及装置,可基于已构建知识库中的各实体,从目标领域相关的各段文本中,确定包含任一实体的训练样本,并根据实体在各训练样本中位置及其实体属性,对各训练样本进行序列标注。之后,通过各训练样本及其标注,对预训练的语言模型进一步训练。基于已构建知识库中各实体,确定各训练样本,并对各训练样本进行自动标注的方式,节省了人工标注成本。
技术领域
本申请涉及机器学习技术领域,尤其涉及一种模型训练方法及装置。
背景技术
知识图谱,是一种由节点和边组成的图数据结构,主要应用于智能问答以及信息推荐等领域。其中,知识图谱中每个节点表示一个实体,每条边表示实体与实体之间的关联关系。
目前,在构建各领域的知识图谱时,首先需要获取相关领域的百科数据,并对获取到的百科数据进行知识挖掘,获取相关的实体内容以及各实体之间的关联关系。最后,根据各实体及其之间的关联关系,构建该相关领域的知识图谱。
其中,常见的一种知识挖掘方法是基于机器学习或深度学习的方法,可通过预先训练的文本识别模型从百科数据中识别出相关实体。
但是,通过机器学习模型进行知识挖掘,则在进行模型训练时,需要大量人工标注的语料数据,需要耗费较高的人力成本。
发明内容
本说明书实施例提供一种模型训练方法及装置,用于部分解决现有技术中的问题。
本说明书实施例采用下述技术方案:
本说明书提供的一种模型训练方法及装置,包括:
获取目标领域相关的第一文本数据集;
根据已构建知识库中的各实体,从所述第一文本数据集包含的各段文本中,确定包含任一实体的文本,作为训练样本,并针对每个训练样本,根据所述实体在该训练样本中的位置以及所述实体的实体属性,对该训练样本进行序列标注;
将该训练样本输入预训练的语言模型,确定所述语言模型输出的预测结果;
根据各训练样本的标注与所述语言模型输出的预测结果,调整所述语言模型中的模型参数,所述语言模型用于进行知识挖掘。
可选地,所述目标领域相关的第一文本数据集至少包含目标领域相关的百科数据以及历史上的用户生成内容中的一种,其中,所述用户生成内容包含用户搜索数据以及用户评论数据。
可选地,所述方法还包括:
获取所述目标领域相关的第二文本数据集;
根据已构建知识库中的各实体的实体属性,确定正则匹配规则,并根据所述正则匹配规则,从所述第二文本数据集的各段文本中,确定符合所述正则匹配规则的若干实体及其实体属性;
根据确定出的各实体,对所述已构建知识库中的实体进行更新。
可选地,所述方法还包括:
当处于预设训练阶段时,获取所述目标领域相关的第三文本数据集,并将所述第三文本数据集中的各段文本作为测试样本,针对每个测试样本,将该测试样本输入调整后的语言模型中,确定所述语言模型输出的预测结果;根据所述预测结果的置信度,从各测试样本中确定易错样本;根据所述易错样本及其序列标注,重新调整所述语言模型中的模型参数,直至达到预设训练指标为止。
可选地,所述预测结果包含预测实体以及预测实体属性;
确定易错样本之前,所述方法还包括:
根据各测试样本的预测实体分别在预设的各业务维度上的业务指标,确定各预测实体的质量得分;
确定质量得分超出预设得分阈值的各预测实体。
可选地,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110690512.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:吸水扒及清洁设备
- 下一篇:基于直线特征的数据配准方法、装置、设备及存储介质