[发明专利]数据库的更新方法及装置、计算机可读存储介质、电子设备在审
申请号: | 202010128756.X | 申请日: | 2020-02-28 |
公开(公告)号: | CN111367962A | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 刘浩;柳超 | 申请(专利权)人: | 北京金堤科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/23;G06F40/258;G06F40/284 |
代理公司: | 北京康盛知识产权代理有限公司 11331 | 代理人: | 董娣 |
地址: | 100000 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据库 更新 方法 装置 计算机 可读 存储 介质 电子设备 | ||
本发明提供了一种数据匹配的方法及装置、计算机可读存储介质、电子设备,该方法包括:从数据库存储的数据中,确定更新时间最接近当前时间的数据为第一数据,并获取第一数据的下载地址;获取下载地址当前的显示数据为第二数据;确定第一数据和第二数据的相似度;若所确定的相似度不满足预设的相似阈值,则判定第一数据和第二数据不相同,并依据第二数据更新数据库。相比现有技术,本申请提供的方案可兼顾更新效率和数据的时效性。
技术领域
本发明涉及大数据技术领域,尤其涉及一种数据库的更新方法及装置、计算机可读存储介质、电子设备。
背景技术
随着互联网技术的快速发展,用户对时效性强的新闻行业的要求也越来越严格。目前很多新闻网站不仅仅发布月报、周报、日报,若发生突发事件还会不定时的更新热点新闻。但对于订阅新闻的用户来说,一般都是设定固定的时间点更新(比如,早上9点更新来阅读早间新闻,晚上7点更新来阅读当日新闻),或者设定固定时间段更新(比如,每天更新一次新闻,每半小时更新一次新闻)。
这样的更新方式将会导致更新效率和新闻时效性不可兼得。当用户将更新频率调低,就可能错过突发事件;当用户将更新频率调高,就会出现新闻网站没有新出的新闻,但用户侧不断更新本地数据库。
综上所述,现有的更新方法无法兼顾更新效率和时效性。
发明内容
本发明实施例提供了一种数据的更新方法及装置、计算机可读存储介质、电子设备,可在保证数据时效性的基础上,提升更新效率。
本发明实施例提供的一种数据的更新方法,该方法包括:
从数据库存储的数据中,确定更新时间最接近当前时间的数据为第一数据,并获取所述第一数据的下载地址;
获取所述下载地址当前的显示数据为第二数据;
确定所述第一数据和所述第二数据的相似度;
若所确定的相似度不满足预设的相似阈值,则判定所述第一数据和所述第二数据不相同,并依据所述第二数据更新所述数据库。
较佳地,所述确定所述第一数据和所述第二数据的相似度的步骤,包括:
从所述第一数据中提取第一数据对应的标题,作为第一标题,并从所述第二数据中提取第二数据对应的标题,作为第二标题;
计算所述第一标题和所述第二标题的相似度,并确定计算得到的相似度为所述第一数据和所述第二数据的相似度。
较佳地,所述计算所述第一标题和所述第二标题的相似度的步骤,包括:
将所提取的第一标题和第二标题向量化,得到第一标题向量和第二标题向量;
根据文本相似度算法,计算所述第一标题向量和所述第二标题向量的相似度,并确定计算得到的相似度为所述第一标题和所述第二标题的相似度。
较佳地,在所述计算所述第一标题和所述第二标题的相似度的步骤之后,在所述确定计算得到的相似度为所述第一数据和所述第二数据的相似度的步骤之前,该方法还包括:
根据所计算的相似度,判断所述第一标题和所述第二标题是否相似;
当所述第一标题和所述第二标题不相似时,从所述第一数据中提取第一数据对应的内容,作为第一内容,并从所述第二数据中提取第二数据对应的内容,作为第二内容;
计算所述第一内容和所述第二内容的相似度;
此时,所述确定计算得到的相似度为所述第一数据和所述第二数据的相似度的步骤,包括:
确定所述第一内容和所述第二内容的相似度为所述第一数据和所述第二数据的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金堤科技有限公司,未经北京金堤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010128756.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:通信终端及多窗口模式下的显示方法
- 下一篇:一种媒资合并方法及其装置