[发明专利]网页识别方法及网页识别装置有效

申请号：	201410100694.6	申请日：	2014-03-18
公开（公告）号：	CN104933055B	公开（公告）日：	2020-01-31
发明（设计）人：	蔡兵	申请（专利权）人：	腾讯科技(深圳)有限公司
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F16/958
代理公司：	44300 深圳翼盛智成知识产权事务所(普通合伙)	代理人：	刁文魁;唐秀萍
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种网页识别方法及网页识别装置，该网页识别方法包括根据预定词汇数据库，获取网页标题中的预定词汇；根据预定词汇数据库中的预定词汇的加权值，生成网页标题的第一识别值；以及根据预设的第一阈值和网页标题的第一识别值，对网页标题的所属网页进行预定网页的识别。本发明还提供一种网页识别装置。本发明的网页识别方法及网页识别装置通过对网页标题中的预定词汇进行识别，实现了对“作弊”网页的识别。

技术领域

本发明涉及互联网领域，特别是涉及一种网页识别方法及网页识别装置。

背景技术

随着互联网的爆炸式增长，各种小型网站层出不穷。这其中也包括大量具有“作弊网页”的垃圾网站，这些“作弊网页”没有实际的内容，仅仅通过吸引用户眼球的标题（如色情标题等不良内容标题），骗取用户的点击流量，以达到商业目的。

目前已有的预定网页（不良网页）计算模型可有效的识别出具有不良内容（如色情内容或欺骗内容等）的垃圾网站，其通过统计机器学习的文本分类算法，利用页面主题内容来估计网页中的不良内容。

然而，部分垃圾网站的“作弊网页”仅仅通过具有不良内容的标题来骗取用户点击，网页中并无实际的不良内容，因为标题的长度远远小于网页内容的实际长度，现有的预定网页计算模型无法对该“作弊网页”进行识别，从而无法对该垃圾网站的“作弊网页”进行过滤。

发明内容

本发明实施例提供一种可对仅仅吸引用户眼球而没有实际内容的“作弊”网页进行识别的网页识别方法；以解决现有的网页识别方法不能对上述“作弊”网页进行过滤的技术问题。

本发明实施例提供一种可对仅仅吸引用户眼球而没有实际内容的“作弊”网页进行识别的网页识别装置；以解决现有的网页识别装置不能对上述“作弊”网页进行过滤的技术问题。

为解决上述问题，本发明提供的技术方案如下：

本发明实施例提供一种网页识别方法，其包括：

根据预定词汇数据库，获取网页标题中的预定词汇，所述预定词汇数据库包括所述预定词汇以及与所述预定词汇对应的加权值；