[发明专利]一种基于爬虫的网页自动分类方法在审

专利信息
申请号: 202011172739.2 申请日: 2020-10-28
公开(公告)号: CN112115269A 公开(公告)日: 2020-12-22
发明(设计)人: 张良;刘岳;王一宇;窦禹;杨秉杰 申请(专利权)人: 国家计算机网络与信息安全管理中心河南分中心
主分类号: G06F16/35 分类号: G06F16/35;G06F16/33;G06K9/62;G06F16/951;G06F40/284
代理公司: 北京永创新实专利事务所 11121 代理人: 易卜
地址: 450008 *** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 爬虫 网页 自动 分类 方法
【说明书】:

发明公开了一种基于爬虫的网页自动分类方法,涉及数据分析领域,具体包括:首先,针对待分类的网页,利用定制爬虫获取内容信息并分出关键词。然后,逐个选取各关键词,依次比对是否属于互联网关键词类别库,如果是,得到该网页所属的类别个数M;否则,将不属于任何类别库的关键词单独记录。当类别个数M值大于等于2时,基于贝叶斯多维分类模型,随机选取2个类别,迭代判定该网页属于哪个类别的概率最大,将单独记录的关键词写入该类别词库中。当M的值等于1,则直接获取该网页所属类别,将单独记录的关键词写入;反之M等于0,则该网页内容属于暂时无法识别的网页,将其放入未识别网页词库中。本发明可以有效地提升网页分类的准确率。

技术领域

本发明属于数据分析领域,涉及一种基于爬虫的网页自动分类方法。

背景技术

目前随着网络的普及,各领域都发生着重大的变化,特别是在教育、交通、医疗、新闻和政务等行业,都在进行着信息化改造;网络的日益普及以及网民数量的爆炸性增长,使得网络行为出现了复杂性和多样性。为了能够有效地组织和分析海量的Web信息资源,帮助用户迅速地获取其所需要的知识信息,需要对网页实现自动分类。

虽然对网站进行有效的分类,对于不同领域信息化程度的分析具有重要意义。然而,对于庞大的网络信息资源,网页分类及其不易。

爬虫技术对数据的分析应运而生,网络爬虫是自动抓取互联网中信息的程序。互联网中存在各种各样的网页,每一个网页都有其对应的URL(全称Uniform ResourceLocator,统一资源定位符)。一般情况下,通过人工的方式从互联网中获取需要的信息,覆盖面小,而且高度消耗人力。网络爬虫可以从一个或者一些URL出发,从URL对应的页面中提取所需要的、有价值的数据,不用人工探寻,可以使互联网中的信息更方便地为人们所用,而且从网页中获取到需要的信息后,将信息整合为待处理信息然后进行文本分类,以便进行页面分类。参考文献如下:

1)王金峰,彭禹,王明,钟声,赵雪辉.基于网络爬虫的新浪微博数据抓取技术[J].中小企业管理与科技(上旬刊),2019(01):167-168.

2)东莞市华睿电子科技有限公司.一种基于网络爬虫的文本信息爬取方法:[P].

3)邵晓文.多线程并发网络爬虫的设计与实现[J].现代计算机(专业版),2019,637(01):99-102.

4)师阳,闫丽丽,何峤,刘炜.基于Aipnlp和Bosonnlp的语义分析应用[J].电脑编程技巧与维护,2018,No.398(08):23-24+34.

5)骆聪,王帅.结合深度学习与词性标注的网页分类算法研究[J].《计算机技术与发展》,2018(8):71-74.

6)顾敏,郭庆,曹野,朱峰,顾彦慧,周俊生,曲维光.基于结构和文本特征的网页分类技术研究[J].中国科学技术大学学报,2017(4)

7)王晓艳,林昌意.基于查询意图的中文信息类网页分类研究[J].图书情报工作,2015:115-120+128.

传统的文本分类方法中基于统计的分类方法是指:先运用向量空间模型将文本数据转换为数值特征向量,接着利用统计学和机器学习等领域的相关知识对数值特征向量进行分类计算,进而完成文本的分类工作。该方法的最大困难在于所构建的向量特征空间往往是高维且稀疏的,而寻找一种有效的特征抽取方法去降低特征空间的维度也是极其困难的,故其分类效果并不理想。

发明内容

针对以上不足,本发明提供一种基于爬虫的网页自动分类方法,针对特定的网页,定制爬虫获取这些网页的内容和信息,并将爬取的网页信息进行分词拆分成多个词。通过关键词识别方法和基于热度值的贝叶斯多维分类模型不断地提升网页分类的准确性。

所述的基于爬虫的网页自动分类方法,包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心河南分中心,未经国家计算机网络与信息安全管理中心河南分中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011172739.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top