[发明专利]一种网页类型识别方法和系统有效
申请号: | 201210058024.3 | 申请日: | 2012-03-07 |
公开(公告)号: | CN103309862B | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 蔡兵;彭默;徐羽 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司11018 | 代理人: | 谢安昆,宋志强 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 类型 识别 方法 系统 | ||
技术领域
本发明实施方式涉及互联网应用技术领域,更具体地,涉及一种网页类型识别方法和系统。
背景技术
随着计算机技术和网络技术的飞速发展,互联网(Internet)在人们的日常生活、学习和工作中发挥的作用也越来越大。据中国互联网络信息中心公布的最新互联网发展调查报告显示,中国互联网网民数达到5.13亿,2010年中国网页有600亿,而全球网页则至少有1万亿。
互联网上众多网页包含的信息纷繁复杂,如何将这些网页准确归类以便于后续工作是一个严峻的挑战。比如:在网页广告方面,展示与网页类型相关的广告将会大大提升用户点击率。另外,近两年随着移动互联网的发展,移动阅读的需求呈井喷状,新闻无疑是用户最为关注的类型之一,如果能识别出新闻网页,也可以给移动阅读应用提供更干净的数据,同时还可以给页面抽取提供相应帮助。
目前,在现有技术中通常采用朴素贝叶斯的文本分类方法来识别文本内容,主要包括:标注训练样本,利用文本词作为特征,通过统计的方法来估计文本的类别,等等。
首先,目前现有技术中主要是按照网页内容进行分类,而仅仅根据网页内容进行分类的话,分类准确度并不高。其次,与互联网上的网页相比,文本分类的数据源由于过于简单而不实用。
发明内容
本发明实施方式提出一种网页类型识别方法,以提高网页分类准确度。
本发明实施方式还提出一种网页类型识别系统,以提高网页分类准确度。
本发明实施方式的具体方案如下:
一种网页类型识别方法,该方法包括:
根据网页的文本内容计算该网页的内容类型倾向值;
提取该网页的网页结构特征;
利用所述内容类型倾向值和所述网页结构特征识别所述网页的类型。
一种网页类型识别系统,该系统包括内容类型倾向值计算单元、结构特征提取单元和类型识别单元,其中:
内容类型倾向值计算单元,用于根据网页的文本内容计算该网页的内容类型倾向值;
结构特征提取单元,用于提取该网页的网页结构特征;
类型识别单元,用于利用所述内容类型倾向值和所述网页结构特征识别所述网页的类型。
从上述技术方案可以看出,在本发明实施方式中,根据网页的文本内容计算该网页的内容类型倾向值;提取该网页的网页结构特征;再利用内容类型倾向值和网页结构特征识别所述网页的类型。由此可见,应用本发明实施方式之后,首先针对网页进行两个维度的分类:一个是基于文本内容的维度,另一个是基于网页结构的维度;最后根据这两个维度的分类结果,组合确定出网页的类别。因此本发明实施方式不仅考虑了网页的文本内容维度,还考虑了网页结构维度来对网页进行分类,综合考虑了这两个维度来对网页进行分类,因此分类的准确度更高。
附图说明
图1为根据本发明实施方式的网页类型识别方法流程图;
图2为根据本发明实施方式的网页类型识别方法示范性流程图;
图3为根据本发明实施方式的网页类型识别系统结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
在本发明实施方式中,针对网页进行两个维度的分类。一个是基于文本内容的维度,另一个是基于网页结构的维度。然后,根据这两个维度的分类结果,组合确定出网页的类别。
图1为根据本发明实施方式的网页类型识别方法流程图。
如图1所示,该方法包括:
步骤101:根据网页的文本内容计算该网页的内容类型倾向值。
在这里,涉及基于文本内容的维度对网页类型进行初步分类。根据文本内容分类主要涉及利用统计机器学习分类算法,通过训练样本和特征来计算出某个页面为特定类型(比如新闻类型)的概率。
具体地,可以首先利用词典对网页的文本内容进行分词,并计算分词特征的权重以形成特征向量,然后再根据预先设置的网页内容分类器计算该特征向量的内容类型倾向值,其中计算出的内容类型倾向值可以作为对应于该种网页内容分类器所代表网页类型的概率。
除了正文信息之外,网页页面通常含有很多其它的无关内容。通过实验发现,仅利用网页中的所有句子作为分类数据源,可有效去除标签、链接、广告等噪音,使得分类效果更佳。因此,在一个实施方式中,在利用词典对网页的文本内容进行分词之前,可以从文本内容中滤去整句长度小于预定值的句子,以增强分类效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210058024.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:受控压力阻力单元接合系统
- 下一篇:簇绒地毯绷架装置