[发明专利]网页类型识别方法和装置在审
申请号: | 201710596140.3 | 申请日: | 2017-07-20 |
公开(公告)号: | CN110020331A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 张野 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/953 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 赵囡囡;褚敏 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 内容页 方法和装置 网页类型 页面内容 目录页 网页地址 中文字 准确率 链接 验证 | ||
本发明公开了一种网页类型识别方法和装置。其中,该方法包括:获取网页的页面内容;根据页面内容中文字和链接的比例初步确定网页的类型,其中,网页的类型包括:内容页和目录页;在初步确定网页的类型为内容页的情况下,根据网页的网页地址进一步验证初步确定的网页的类型是否准确。本发明解决了现有技术中判断网页是目录页还是内容页时准确率较低的技术问题。
技术领域
本发明涉及计算机互联网领域,具体而言,涉及一种网页类型识别方法和装置。
背景技术
当前的爬虫技术有很多需要判断网页页面的类型,分析抓取的字段,其中一个很重要的环节是判断当前网页的页面是目录页还是内容页,但是网页布局多样化,网页的URL(统一资源定位符,Uniform Resource Locator的缩写)的形式也是多种多样,使用网页URL的方式进行的判断并不能百分之百的判断正确,因此现有技术还不能实现准确率较高的判断网页是目录页还是内容页。
针对上述现有技术中判断网页是目录页还是内容页时准确率较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网页类型识别方法和装置,以至少解决现有技术中判断网页是目录页还是内容页时准确率较低的技术问题。
根据本发明实施例的一个方面,提供了一种网页类型识别方法,包括:获取网页的页面内容;根据页面内容中文字和链接的比例初步确定网页的类型,其中,网页的类型包括:内容页和目录页;在初步确定网页的类型为内容页的情况下,根据网页的网页地址进一步验证初步确定的网页的类型是否准确。
根据本发明实施例的另一方面,还提供了一种网页类型识别装置,包括:获取模块,用于获取网页的页面内容;第一确定模块,用于根据页面内容中文字和链接的比例初步确定网页的类型,其中,网页的类型包括:内容页和目录页;第二确定模块,用于在初步确定网页的类型为内容页的情况下,根据网页的网页地址进一步验证初步确定的网页的类型是否准确。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述网页类型识别方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述网页类型识别方法。
根据本发明实施例的另一方面,还提供了一种终端,包括:获取模块,用于获取网页的页面内容;第一确定模块,用于根据页面内容中文字和链接的比例初步确定网页的类型,其中,网页的类型包括:内容页和目录页;第二确定模块,用于在初步确定网页的类型为内容页的情况下,根据网页的网页地址进一步验证初步确定的网页的类型是否准确;处理器,处理器运行程序,其中,程序运行时对于从获取模块、第一确定模块和第二确定模块输出的数据执行上述网页类型识别方法。
根据本发明实施例的另一方面,还提供了一种终端,包括:获取模块,用于获取网页的页面内容;第一确定模块,用于根据页面内容中文字和链接的比例初步确定网页的类型,其中,网页的类型包括:内容页和目录页;第二确定模块,用于在初步确定网页的类型为内容页的情况下,根据网页的网页地址进一步验证初步确定的网页的类型是否准确;存储介质,用于存储程序,其中,程序在运行时对于从获取模块、第一确定模块和第二确定模块输出的数据执行上述网页类型识别方法。
在本发明实施例中,采用二次确定的方式,通过获取网页的页面内容,根据页面内容中文字和链接的比例初步确定网页的类型,其中,网页的类型包括:内容页和目录页;在初步确定网页的类型为内容页的情况下,根据网页的网页地址进一步验证初步确定的网页的类型是否准确,达到了识别网页是内容页还是目录页的目的,并且使用不同的确定标准,经过初次确定和二次确定,从而实现了对网页的识别结果准确度高的技术效果,进而解决了现有技术中判断网页是目录页还是内容页时准确率较低的技术问题。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710596140.3/2.html,转载请声明来源钻瓜专利网。