[发明专利]一种模型训练方法及装置在审
申请号: | 202110690512.5 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113344098A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 彦虹羽;郑刚;沈亮;陈骐 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35;G06F16/36;G06F40/247;G06F40/295;G06F16/23;G06F16/2458 |
代理公司: | 北京曼威知识产权代理有限公司 11709 | 代理人: | 方志炜 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 装置 | ||
1.一种模型训练方法,其特征在于,包括:
获取目标领域相关的第一文本数据集;
根据已构建知识库中的各实体,从所述第一文本数据集包含的各段文本中,确定包含任一实体的文本,作为训练样本,并针对每个训练样本,根据所述实体在该训练样本中的位置以及所述实体的实体属性,对该训练样本进行序列标注;
将该训练样本输入预训练的语言模型,确定所述语言模型输出的预测结果;
根据各训练样本的标注与所述语言模型输出的预测结果,调整所述语言模型中的模型参数,所述语言模型用于进行知识挖掘。
2.如权利要求1所述的方法,其特征在于,所述目标领域相关的第一文本数据集至少包含目标领域相关的百科数据以及历史上的用户生成内容中的一种,其中,所述用户生成内容包含用户搜索数据以及用户评论数据。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标领域相关的第二文本数据集;
根据已构建知识库中的各实体的实体属性,确定正则匹配规则,并根据所述正则匹配规则,从所述第二文本数据集的各段文本中,确定符合所述正则匹配规则的若干实体及其实体属性;
根据确定出的各实体,对所述已构建知识库中的实体进行更新。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
当处于预设训练阶段时,获取所述目标领域相关的第三文本数据集,并将所述第三文本数据集中的各段文本作为测试样本,针对每个测试样本,将该测试样本输入调整后的语言模型中,确定所述语言模型输出的预测结果;根据所述预测结果的置信度,从各测试样本中确定易错样本;根据所述易错样本及其序列标注,重新调整所述语言模型中的模型参数,直至达到预设训练指标为止。
5.如权利要求4所述的方法,其特征在于,所述预测结果包含预测实体以及预测实体属性;
确定易错样本之前,所述方法还包括:
根据各测试样本的预测实体分别在预设的各业务维度上的业务指标,确定各预测实体的质量得分;
确定质量得分超出预设得分阈值的各预测实体。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标领域相关的第四文本数据集;
针对所述第四文本数据集中的每段文本,将该段文本输入训练完成的语言模型中,确定该段文本的预测结果;
根据各预测结果中的预测实体及其预测实体属性,对所述已构建知识库进行更新,其中,所述已构建知识库中包含各实体与各实体属性之间的关联关系。
7.如权利要求6所述的方法,其特征在于,根据各预测结果中的预测实体及其预测实体属性,对所述已构建知识库进行更新,具体包括:
针对所述已构建知识库中的每个实体,从各预测实体中确定该实体的同义实体;
从剩余的各预测实体中,确定同义的各预测实体;
根据所述已构建知识库中各实体的同义实体,以及所述同义的各预测实体及其预测实体属性,对所述已构建知识库进行更新。
8.如权利要求7所述的方法,其特征在于,从各预测实体中确定该实体的同义实体,具体包括:
根据同义词词林,确定该实体与各预测实体之间的距离相似度,并确定所述距离相似度大于预设相似度阈值的预测实体,作为该实体的同义实体。
9.如权利要求7所述的方法,其特征在于,所述方法还包括:
根据确定出的各实体以及预设的实体聚合规则,确定聚合后的各聚合实体;
确定各聚合实体与预设的各兴趣点之间的关联关系;
根据各实体以及各聚合实体之间的关联关系、各聚合实体与各兴趣点之间的关联关系,对所述已构建知识库进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110690512.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:吸水扒及清洁设备
- 下一篇:基于直线特征的数据配准方法、装置、设备及存储介质