[发明专利]一种基于爬虫的网络推广效果评估方法有效
申请号: | 201911035087.5 | 申请日: | 2019-10-29 |
公开(公告)号: | CN110750701B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 邱明胜 | 申请(专利权)人: | 百卓网络科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953;G06Q30/02 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210000 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 爬虫 网络 推广 效果 评估 方法 | ||
1.一种基于爬虫的网络推广效果评估方法,其特征在于,包括如下步骤:
步骤1:拉取目标客户的客户信息;所述客户信息是指客户在本公司填写提交的信息,所述客户信息包含公司名称、经营范围、主营产品和公司描述;
步骤2:利用词库对目标客户的客户信息进行分词;
步骤3:对分词的关键词去重;选取前3个关键词;
步骤4:利用python编写聚焦爬虫,调用百度搜索引擎爬取百度搜索结果列表页,所用检索词为步骤3中去重后的关键词;
步骤5:对步骤4爬取的搜索结果进行分析,分析搜索结果的收录来源用以判断该搜索结果对应的网页是否归属于指定的推广来源,所述分析搜索结果包括分析收录的链接、关键词、对应百度搜索结果页的页数及其在当前页的排名;具体为分析页面源代码的文档结构,找到类名为“c-showurl”的href标签;如果标签的内容包含指定的推广来源的信息,那么记录该搜索结果,若不是,则继续分析下一条搜索结果;则记录搜索结果;
步骤6:调用百度搜索引擎向后翻页;
步骤7:重复步骤5、步骤6直至爬取完所有搜索结果,如果搜索结果超过5页,则爬取完第5页的搜索结果即结束爬取;
步骤8:根据步骤7爬取的数据,利用爬虫二次爬取,包括:利用爬虫分析页面,爬取预先在页面中设置好的id为“hidden_remote_user_info”的元素,用于获取到投放该页面的公司名称、用户名、会员级别、收录关键词和在百度收录的页数及排名;利用爬虫二次爬取补全信息,具体为分析页面的url,得到页面类型,所述页面类型包括产品详情页、大图页、视频页和列表页;补全信息;
步骤9:汇总信息入库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百卓网络科技有限公司,未经百卓网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911035087.5/1.html,转载请声明来源钻瓜专利网。