[发明专利]基于模型的预测数据变化频率的方法、装置和计算机设备在审
申请号: | 202010734520.0 | 申请日: | 2020-07-27 |
公开(公告)号: | CN111859238A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 张圣 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/9535;G06F16/9538;G06N20/00 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模型 预测 数据 变化 频率 方法 装置 计算机 设备 | ||
本申请涉及人工智能技术领域,提供一种基于模型的预测数据变化频率的方法、装置、计算机设备和存储介质,其中方法包括:从百科网站中获取与指定实体对应的指定词条页面内的初始数据,其中,所述指定实体为预设知识库中的任意一个实体;从所述初始数据中提取出与所述指定实体对应的指定特征数据;调用预先训练好的预测模型;将所述指定特征数据输入至所述预测模型内,以通过所述预测模型对所述指定特征数据进行预测处理;获取所述预设模型输出的与所述指定词条页面对应的输出结果;将所述输出结果作为所述指定实体的变化频率预测值。通过本申请,可以基于词条页面的变化频率的预测来智能方便地实现对于知识库中实体的变化频率的预测。
技术领域
本申请涉及人工智能技术领域,具体涉及一种基于模型的预测数据变化频率的方法、装置和计算机设备。
背景技术
现有的网络数据变化频率的估计方案主要是基于统计学的一个统计假设:网络数据的变化频率服从泊松分布。基于泊松分布假设,X/T即是一个有效的变化频率估计方案(T表示时间间隔,X表示该网络数据在时间间隔T内的变化次数)。但是这个估计方案会存在以下不足:很多网络资源没有提供变化历史,这种情况下只有对比前后两次访问的相同页面的数据是否有变化才能知道是否变化。即便前后两次访问该网络数据不同,依然无法准确获取时间间隔T内该网络资源变化的次数。如果时间间隔T内的变化次数无法准确获取,对应的变化频率的估计也是不准确的。而对于知识库内一些新出现的实体,例如新型冠状病毒肺炎,由于目前缺乏与新出现的实体相关的数据,且新出现的实体的变化历史数据也比较少的,此时如果还是使用基于泊松分布的估计方案来对该新出现的实体的变化频率进行预测,则会导致对于新出现的实体的变化频率的预测准确性较低。
发明内容
本申请的主要目的为提供一种基于模型的预测数据变化频率的方法、装置、计算机设备和存储介质,旨在解决现有使用基于泊松分布的估计方案来对新出现的实体的变化频率进行预测,会导致对于新出现的实体的变化频率的预测准确性较低的技术问题。
本申请提出一种基于模型的预测数据变化频率的方法,所述方法包括步骤:
从百科网站中获取与指定实体对应的指定词条页面内的初始数据,其中,所述指定实体为预设知识库中的任意一个实体;
从所述初始数据中提取出与所述指定实体对应的指定特征数据;
调用预先训练好的预测模型,其中,所述预测模型基于预先收集的样本标签数据集对预设的回归模型进行训练后生成;
将所述指定特征数据输入至所述预测模型内,以通过所述预测模型对所述指定特征数据进行预测处理;
获取所述预设模型输出的与所述指定词条页面对应的输出结果;
将所述输出结果作为所述指定实体的变化频率预测值。
可选地,所述从所述初始数据中提取出与所述指定实体对应的指定特征数据的步骤,包括:
获取预设的特征类别信息;
根据所述特征类别信息,从所述初始数据中提取出与所述特征类型信息对应的指定特征数据。
可选地,所述调用预先训练好的预测模型的步骤之前,包括:
从百科网站中收集第一指定数量的词条页面信息;
按照预设的特征构造规则,使用所述词条页面信息构建样本标签数据集,其中,所述样本标签数据集包括与实体相关的特征数据,以及与实体对应的变化频率标签值;
将所述样本标签数据集划分为训练数据集与测试数据集;
利用所述训练数据集,并采用随机梯度下降法对预设的回归模型进行训练,生成训练好的第一初始模型;
采用所述测试数据集对所述训练好的第一初始模型进行验证,并判断是否验证通过;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010734520.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置