[发明专利]一种全自动深度网络挖掘机的设计方法在审
申请号: | 201810248841.2 | 申请日: | 2018-03-25 |
公开(公告)号: | CN110309467A | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 刘挺 | 申请(专利权)人: | 北京询达数据科技有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100080 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络机器人 网页形式 挖掘机 比对 分页 网站 搜索 挖掘 网络 表现 制定 | ||
该方法提出了一种全自动深度挖掘网络机器人的设计方法。该方法能够对特定和制定的网站进行多层次搜索,并且按照关键词进行比对,最后将生成的信息以分页的网页形式表现出来。
技术领域
该技术主要描述了一种通过对特定网站按照关键词进行深度检索,然后将结果以网页的形式分页保存起来。主要包含网络编程技术,html网页生成技术,网页解析技术,xml配置文件技术。
背景技术
该技术包含的背景技术包含网络编程技术,xml解析技术。
发明内容
该系统主要包含配置文件,浏览器,控制软件三个部分。配置文件是包含运行所需要的参数的所有信息,浏览器是被操纵的对象,用来执行,控制软件是主体部分,整个系统的核心部分,用来运行整个系统,并且生成所需要的信息。
配置文件是xml文件,包含两个配置文件,config_auto_digger.xml和keywordlist.xml,分别包含系统运行所需要的参数信息和进行检索的关键词信息。
Config_auto_digger.xml文件是运行参数的核心部分,主要包含url,number_per_result_page, digger_level, save_path和webdriver。其中url是所需要进行定点挖掘的网站网址的信息,number_per_result_page是结果页面进行保存时,每页结果信息所包含的信息的条数,digger_level是进行挖掘的层次,为整数,从1到100都行,save_path是结果页面保存的地址,webdriver是操纵浏览器的参数,包含webdriver_name, binary_path, webdriver_path。其中webdriver_name是说明采用的浏览器的类型,比如firefox,chrome, ie, phantomjs, opera, safari, htmlunit, windowsedge及其他的浏览器。Binary_path是说明可执行binary的存放地址,webdriver_path是说明该驱动的存放地址。
浏览器是被操纵的对象,包含现在市面上存在的所有浏览器,比如,firefox,Chrome,ie, phantomjs, opera, safari, htmlunit, windowsedge和其他的浏览器等。
控制软件是该系统的核心部分,主要包含启动配置,启动浏览器,网站挖掘与分析,结果生成四个部分。
启动配置是将配置文件生成,并且存入内存。分别对config_file和keyword_file执行以下操作,获得配置文件的信息。对config_file,主要是使用open(file)的方法打开文件,获得config_file_handle,其中file是配置文件的地址,然后使用config_soup =beautifulsoup(config_file_handle, parser_type)的方法获得config_soup,其中parser_type是进行解析的解析器的类别,包含如下,html.parser, lxml,还有其他解析器,然后执行config_file_handle.close()来关闭文件。对keyword_file 的方法类似,使用open(file)的方法获取keyword_file_handle, 其中file 是keyword_file的地址,然后使用keyword_soup = beautifulsoup(keyword_file_handle, parser_type)的方法获取keyword_soup, 其中parser_type是进行解析的解析器的类别, 包含html.parser, lxml等解析器,然后执行keyword_file_handle.close()的方法来关闭该文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京询达数据科技有限公司,未经北京询达数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810248841.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种技术转移公共服务系统
- 下一篇:一种可变更服务区域的外卖供应系统