[发明专利]一种基于爬虫的网络推广效果评估方法有效
申请号: | 201911035087.5 | 申请日: | 2019-10-29 |
公开(公告)号: | CN110750701B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 邱明胜 | 申请(专利权)人: | 百卓网络科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953;G06Q30/02 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210000 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 爬虫 网络 推广 效果 评估 方法 | ||
本发明公开了一种基于爬虫的网络推广效果评估方法,包括如下步骤:拉取目标客户的客户信息;利用词库对目标客户的信息进行分词;对关键词去重;选取前3个关键词;利用python编写聚焦爬虫,调用百度搜索引擎爬取百度搜索结果列表页,所用检索词为步骤3中去重后的关键词;对步骤4爬取的搜索结果进行分析;调用百度搜索引擎向后翻页;根据爬取的数据,利用爬虫二次爬取,补全信息;汇总信息入库。达到定期、批量爬取百度收录结果,检测和分析客户投放效果,通过收集的数据可以反馈出目前客户页面在百度的收录情况,促进公司与客户的续约谈判;同时可以分析出某个行业中收录较好的关键词,给出客户优化方案,提高客户对公司的认同的效果。
技术领域
本发明涉及计算机处理技术的服务发现领域,特别是涉及一种基于爬虫的网络推广效果评估方法。
背景技术
随着阿里、百度、腾讯等企业的成功,互联网思维越来越频繁的被大家所提及。越来越多的公司开始利用互联网提升自身企业的知名度,展示企业产品,介绍企业服务。客户购买会员或推广服务希望能直观的看到投放的效果,然而客户并不知道自己网站的真实收录情况,也不知道哪些词的检索和收录量比较高。本方法基于网络爬虫可以定期、批量爬取百度收录结果,分析客户投放效果,可以建立一个长期的反馈机制,从而促进用户续费、更换投放词等操作。
搜索引擎中有搜索器即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在爬取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通俗的讲,也就是通过源码解析来获得想要的内容。
聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待爬取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要爬取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫爬取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的爬取过程给出反馈和指导。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于爬虫的网络推广效果评估方法。
为解决上述技术问题,本发明提供一种基于爬虫的网络推广效果评估方法,其特征在于,包括如下步骤:
步骤1:拉取目标客户的客户信息;
步骤2:利用词库对目标客户的信息进行分词;
步骤3:对关键词去重;选取前3个关键词;
步骤4:利用python编写聚焦爬虫,调用百度搜索引擎爬取百度搜索结果列表页,所用检索词为步骤3中去重后的关键词;
步骤5:对步骤4爬取的搜索结果进行分析,分析搜索结果的收录来源用以判断该网页是否归属于指定的推广来源,如果是,那么记录该搜索结果,若不是,则继续分析下一条搜索结果;
步骤6:调用百度搜索引擎向后翻页;
步骤7:重复步骤5、步骤6直至爬取完所有搜索结果;
步骤8:根据步骤7爬取的数据,利用爬虫二次爬取,补全信息;
步骤9:汇总信息入库。
所述步骤1中,所述客户信息是指客户在本公司填写提交的信息,包含公司名称、经营范围、主营产品和公司描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百卓网络科技有限公司,未经百卓网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911035087.5/2.html,转载请声明来源钻瓜专利网。