[发明专利]一种双维度分类提取网页链接的方法有效
申请号: | 201710170129.0 | 申请日: | 2017-03-21 |
公开(公告)号: | CN107066548B | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | 袁巍;李珩;李佳桓 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/953;G06F16/35;G06K9/62 |
代理公司: | 武汉荆楚联合知识产权代理有限公司 42215 | 代理人: | 周洋 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 维度 分类 提取 网页 链接 方法 | ||
一种双维度分类提取网页链接的方法,构建了对板块标题进行分类的贝叶斯分类器以及针对链接标题进行匹配的卷积神经网络,并将两种分类器有机结合起来,提高了网页中与主题相关链接提取的准确度,改变了以往需要设计网站特征模板和用户填写模板的方式,通过程序智能地发现并自动地提取感兴趣的链接,无需设计网站特征模板,也无需用户填写模板,节省了大量的人力物力,借助于机器学习的方式,提高了处理速度,能够适应网页的结构或样式的频繁更新,并提高了获取主题相关链接的准确度。
技术领域
本发明涉及一种提取网页链接的方法,尤其涉及一种双维度分类提取网页链接的方法,属于数据处理技术领域。
背景技术
近年来,万维网信息爆炸式增长,但由于时间、精力和兴趣有限,用户往往只对某一类或某几类信息感兴趣。在这种情况下,针对用户兴趣或具体行业需求提供网页信息搜索服务的公司或网站大量涌现出来,比如,专门提供体育比赛信息的网站,专门提供股票信息的网站等。这些公司或网站通过使用主题网络爬虫来为用户精准提供感兴趣的信息。这类爬虫根据一定的算法过滤与主题无关的链接,保留与主题相关的链接并将其放入待抓的URL队列中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到满足某一条件时停止。这类爬虫的设计有两大难点。首先,需设计高效准确的网页分析或链接分类算法,提取出用户需要的链接,滤除无关链接。其次,在系统资源、带宽资源和爬取时间有限的情况下,需尽量多地发现并爬取最有价值的网站。在不少实际应用中,符合某一主题的信息可从专门的内容提供网站获取。以体育新闻为例,这类信息可从新浪、腾讯、网易等主流网站上抓取。在这种情况下,主题爬虫仅需爬取这些事先指定的内容提供网站,获取其页面,进而从页面中提取出与主题相关的链接信息。
不同网站的设计风格和页面样式可能相差很大。现有的基于主题的网页链接自动提取方法需要用户事先配置网站规则,指明待分析网页的样式,进而有针对性地进行爬取。为实现这种网页链接提取方法,设计者需参看大量网站,了解各种网页样式,经过抽象和分类,提炼出一个普适的网站特征模板。针对每一个希望爬取的网站,用户需通过软件在上述模板上进行规则配置。一旦网站风格和网页样式发生变化,用户需及时对特征模板进行重新配置。否则,链接提取软件将无法正确找到与指定主题相关的链接,导致提取失败。实际上,很多网站的设计风格和页面样式都是在不断变化的,因此,用户需要长期重复进行模板配置。
可以看到,现有的这类网页链接自动提取方法费时费力,成本很高,容易出现错漏,提取准确度不能保证。因此,如何在不引入大量人力的前提下智能地、准确地提取网页链接已经成为一个亟待解决的技术难题。解决这一难题的关键在于放弃人工配置规则这一操作,让程序自己识别网页中链接的特征,与指定主题进行匹配,进而作出是否吻合的准确判断。
发明内容
本发明的目的是针对现有网页链接获取方法处理周期较长,需要耗费大量的人力物力,而且无法适应网页的结构或样式的频繁更新,很容易出现遗漏,也容易出现误判,准确度较低的缺陷和不足,现提供一种处理速度快,能够适应网页的结构或样式的频繁更新,通过程序智能地发现并自动地提取感兴趣的链接,无需设计网站特征模板,也无需用户填写模板,准确度得到了极大提高的一种双维度分类提取网页链接的方法。
为实现上述目的,本发明的技术解决方案是:一种双维度分类提取网页链接的方法,其特征在于包括以下步骤:
a、首先构建一个对网页中板块标题进行分类的贝叶斯分类器以及一个针对网页中链接标题进行匹配的卷积神经网络;
b、为贝叶斯分类器和卷积神经网络分别获取并标记一定数量的样本形成训练集和测试集,对于贝叶斯分类器,其训练集和测试集中的样本为板块的标题;对于卷积神经网络,其训练集和测试集中的样本为链接的标题,样本分为正负两类,正样本与目标主题相关,负样本与目标主题无关;
c、利用训练样本对贝叶斯分类器和卷积神经网络分别进行训练,直至在测试集上取得较好的性能;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710170129.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于LIRE的三维模型检索方法
- 下一篇:一种搜索匹配方法、装置及系统