[发明专利]数据库的更新方法及装置、计算机可读存储介质、电子设备在审
申请号: | 202010128756.X | 申请日: | 2020-02-28 |
公开(公告)号: | CN111367962A | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 刘浩;柳超 | 申请(专利权)人: | 北京金堤科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/23;G06F40/258;G06F40/284 |
代理公司: | 北京康盛知识产权代理有限公司 11331 | 代理人: | 董娣 |
地址: | 100000 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据库 更新 方法 装置 计算机 可读 存储 介质 电子设备 | ||
1.一种数据库的更新方法,其特征在于,该方法包括:
从数据库存储的数据中,确定更新时间最接近当前时间的数据为第一数据,并获取所述第一数据的下载地址;
获取所述下载地址当前的显示数据为第二数据;
确定所述第一数据和所述第二数据的相似度;
若所确定的相似度不满足预设的相似阈值,则判定所述第一数据和所述第二数据不相同,并依据所述第二数据更新所述数据库。
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一数据和所述第二数据的相似度的步骤,包括:
从所述第一数据中提取第一数据对应的标题,作为第一标题,并从所述第二数据中提取第二数据对应的标题,作为第二标题;
计算所述第一标题和所述第二标题的相似度,并确定计算得到的相似度为所述第一数据和所述第二数据的相似度。
3.根据权利要求2所述的方法,其特征在于,所述计算所述第一标题和所述第二标题的相似度的步骤,包括:
将所提取的第一标题和第二标题向量化,得到第一标题向量和第二标题向量;
根据文本相似度算法,计算所述第一标题向量和所述第二标题向量的相似度,并确定计算得到的相似度为所述第一标题和所述第二标题的相似度。
4.根据权利要求2所述的方法,其特征在于,在所述计算所述第一标题和所述第二标题的相似度的步骤之后,在所述确定计算得到的相似度为所述第一数据和所述第二数据的相似度的步骤之前,该方法还包括:
根据所计算的相似度,判断所述第一标题和所述第二标题是否相似;
当所述第一标题和所述第二标题不相似时,从所述第一数据中提取第一数据对应的内容,作为第一内容,并从所述第二数据中提取第二数据对应的内容,作为第二内容;
计算所述第一内容和所述第二内容的相似度;
此时,所述确定计算得到的相似度为所述第一数据和所述第二数据的相似度的步骤,包括:
确定所述第一内容和所述第二内容的相似度为所述第一数据和所述第二数据的相似度。
5.根据权利要求4所述的方法,其特征在于,所述计算所述第一内容和所述第二内容的相似度的步骤之前,该方法还包括:
对所述第一内容进行文本预处理,得到第一处理后文本,并对所述第二内容进行文本预处理,得到第二处理后文本;
将所述第一处理后文本和所述第二处理后文本向量化,得到第一内容向量和第二内容向量;
根据文本相似度算法,计算所述第一内容向量和所述第二内容向量的相似度,并确定计算得到的相似度为所述第一内容和所述第二内容的相似度;
其中,所述文本预处理的方法,包括:基于jieba结巴分词算法,对待处理内容进行分词,并从分词结果中删除停用词和标点符号。
6.根据权利要求5所述的方法,其特征在于,所述将所述第一处理后文本和所述第二处理后文本向量化的步骤,包括:
基于所述第一处理后文本或/和第二处理后文本中的词语,构建词典,其中,每一所述词语在所构建的词典中均对应一索引,而且相同的所述词语对应的索引相同;
通过查找所构建的词典,将所述第一处理后文本和所述第二处理后文本向量化。
7.根据权利要求5所述的方法,其特征在于,所述将所述第一处理后文本和所述第二处理后文本向量化的步骤,包括:
基于TF-IDF模型,将所述第一处理后文本和所述第二处理后文本向量化。
8.根据权利要求1所述的方法,其特征在于,所述获取所述第一数据的下载地址的步骤,包括:
获取下载所述第一数据的网页地址,并确定所述第一数据在该网页中对应的标签;
此时,所述获取所述下载地址当前的显示数据为第二数据的步骤,包括:
加载所述网页地址当前显示的网页,并从所述当前显示的网页中提取所述标签对应的数据,作为第二数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金堤科技有限公司,未经北京金堤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010128756.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:通信终端及多窗口模式下的显示方法
- 下一篇:一种媒资合并方法及其装置