[发明专利]基于模型的预测数据变化频率的方法、装置和计算机设备在审

专利信息
申请号: 202010734520.0 申请日: 2020-07-27
公开(公告)号: CN111859238A 公开(公告)日: 2020-10-30
发明(设计)人: 张圣 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G06F16/958 分类号: G06F16/958;G06F16/9535;G06F16/9538;G06N20/00
代理公司: 深圳市明日今典知识产权代理事务所(普通合伙) 44343 代理人: 王杰辉
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 模型 预测 数据 变化 频率 方法 装置 计算机 设备
【说明书】:

本申请涉及人工智能技术领域,提供一种基于模型的预测数据变化频率的方法、装置、计算机设备和存储介质,其中方法包括:从百科网站中获取与指定实体对应的指定词条页面内的初始数据,其中,所述指定实体为预设知识库中的任意一个实体;从所述初始数据中提取出与所述指定实体对应的指定特征数据;调用预先训练好的预测模型;将所述指定特征数据输入至所述预测模型内,以通过所述预测模型对所述指定特征数据进行预测处理;获取所述预设模型输出的与所述指定词条页面对应的输出结果;将所述输出结果作为所述指定实体的变化频率预测值。通过本申请,可以基于词条页面的变化频率的预测来智能方便地实现对于知识库中实体的变化频率的预测。

技术领域

本申请涉及人工智能技术领域,具体涉及一种基于模型的预测数据变化频率的方法、装置和计算机设备。

背景技术

现有的网络数据变化频率的估计方案主要是基于统计学的一个统计假设:网络数据的变化频率服从泊松分布。基于泊松分布假设,X/T即是一个有效的变化频率估计方案(T表示时间间隔,X表示该网络数据在时间间隔T内的变化次数)。但是这个估计方案会存在以下不足:很多网络资源没有提供变化历史,这种情况下只有对比前后两次访问的相同页面的数据是否有变化才能知道是否变化。即便前后两次访问该网络数据不同,依然无法准确获取时间间隔T内该网络资源变化的次数。如果时间间隔T内的变化次数无法准确获取,对应的变化频率的估计也是不准确的。而对于知识库内一些新出现的实体,例如新型冠状病毒肺炎,由于目前缺乏与新出现的实体相关的数据,且新出现的实体的变化历史数据也比较少的,此时如果还是使用基于泊松分布的估计方案来对该新出现的实体的变化频率进行预测,则会导致对于新出现的实体的变化频率的预测准确性较低。

发明内容

本申请的主要目的为提供一种基于模型的预测数据变化频率的方法、装置、计算机设备和存储介质,旨在解决现有使用基于泊松分布的估计方案来对新出现的实体的变化频率进行预测,会导致对于新出现的实体的变化频率的预测准确性较低的技术问题。

本申请提出一种基于模型的预测数据变化频率的方法,所述方法包括步骤:

从百科网站中获取与指定实体对应的指定词条页面内的初始数据,其中,所述指定实体为预设知识库中的任意一个实体;

从所述初始数据中提取出与所述指定实体对应的指定特征数据;

调用预先训练好的预测模型,其中,所述预测模型基于预先收集的样本标签数据集对预设的回归模型进行训练后生成;

将所述指定特征数据输入至所述预测模型内,以通过所述预测模型对所述指定特征数据进行预测处理;

获取所述预设模型输出的与所述指定词条页面对应的输出结果;

将所述输出结果作为所述指定实体的变化频率预测值。

可选地,所述从所述初始数据中提取出与所述指定实体对应的指定特征数据的步骤,包括:

获取预设的特征类别信息;

根据所述特征类别信息,从所述初始数据中提取出与所述特征类型信息对应的指定特征数据。

可选地,所述调用预先训练好的预测模型的步骤之前,包括:

从百科网站中收集第一指定数量的词条页面信息;

按照预设的特征构造规则,使用所述词条页面信息构建样本标签数据集,其中,所述样本标签数据集包括与实体相关的特征数据,以及与实体对应的变化频率标签值;

将所述样本标签数据集划分为训练数据集与测试数据集;

利用所述训练数据集,并采用随机梯度下降法对预设的回归模型进行训练,生成训练好的第一初始模型;

采用所述测试数据集对所述训练好的第一初始模型进行验证,并判断是否验证通过;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010734520.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top