[发明专利]基于网络爬虫的热点词汇提取方法、装置、终端及介质在审
申请号: | 201911060879.8 | 申请日: | 2019-11-01 |
公开(公告)号: | CN111026942A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 崔凯;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F40/216;G06F40/279 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 刘丽华;孙芬 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 网络 爬虫 热点 词汇 提取 方法 装置 终端 介质 | ||
1.一种基于网络爬虫的热点词汇提取方法,其特征在于,所述方法包括:
初始化网址队列,所述网址队列中存储有至少一个URL,其中,所述URL包括当前存在的第一URL和第二URL,启动第一线程从所述第一URL中爬取所述第二URL;
判断所述第二URL是否与所述网址队列中的URL相同;
当确定所述第二URL与所述网址队列中的URL不相同时,将所述第二URL添加到所述网址队列的尾部;
启动第二线程从所述网址队列的头部获取URL及所述URL对应的超文本标记语言文档,其中,所述第一线程与所述第二线程并行执行;
提取所述超文本标记语言文档中的文本数据集;
对所述文本数据集进行分词处理,得到目标词汇列表;
统计所述目标词汇列表中每个词汇出现的频率;
将所述频率中大于预设频率阈值的频率对应的词汇确定为热点词汇。
2.如权利要求1所述的方法,其特征在于,在将所述频率中大于预设频率阈值的频率对应的词汇确定为热点词汇之后,所述方法还包括:
计算所述热点词汇与预先存储的与目标对象相关的关键词的相似度;
当所述相似度大于预设的相似度阈值时,确定所述热点词汇能作为目标对象;
当所述相似度小于或者等于所述预设的相似度阈值时,确定所述热点词汇不能作为目标对象。
3.如权利要求1所述的方法,其特征在于,所述判断所述第二URL是否与所述网址队列中的URL相同包括:
计算每个第二URL的MD5散列值;
将每个MD5散列值与预先存储的散列值进行一一比对;
当所述MD5散列值与预先存储的任意一个MD5散列值相同时,确定所述第二URL与所述网址队列中的URL相同;
当所述MD5散列值与预先存储的任意一个MD5散列值不同时,确定所述第二URL与所述网址队列中的URL不相同。
4.如权利要求1所述的方法,其特征在于,在所述启动第二线程从所述网址队列的头部获取URL及所述URL对应的超文本标记语言文档之后,所述方法还包括:
删除所述网站队列的头部的下标为0的URL;
同时,将所述网址队列中剩余URL对应的下标都减去1得到所述剩余URL的新下标。
5.如权利要求1所述的方法,其特征在于,在所述将所述第二URL添加到所述网址队列的尾部之后,所述方法还包括:
获取所述网址队列的尾部的URL的下标;
将所述下标加1得到所述第二URL的下标。
6.如权利要求1所述的方法,其特征在于,所述对所述文本数据集进行分词处理,确定目标词汇列表包括:
对所述文本数据集进行分词处理,得到初始词汇列表;
将所述初始词汇列表与预设过滤词汇列表进行匹配;
删除所述初始词汇列表中与所述预设过滤词汇列表中相同的词汇,得到目标词汇列表。
7.如权利要求1至6中任意一项所述的方法,其特征在于,所述方法还包括:
当确定所述第二URL与所述网址队列中的URL相同时,跳过所述第二URL继续进行爬取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911060879.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息化共享设备箱控制系统及方法
- 下一篇:一种高效节水智能灌溉系统