[发明专利]一种网页类型识别方法和系统有效
申请号: | 201210058024.3 | 申请日: | 2012-03-07 |
公开(公告)号: | CN103309862B | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 蔡兵;彭默;徐羽 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司11018 | 代理人: | 谢安昆,宋志强 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施方式提出一种网页类型识别方法和系统。方法包括根据网页的文本内容计算该网页的内容类型倾向值;提取该网页的网页结构特征;利用该内容类型倾向值和该网页结构特征识别网页的类型。应用本发明实施方式之后,综合考虑了文本内容维度和网页结构维度来对网页进行分类,因此分类的准确度更高。而且,通过数据过滤,可有效去除网页中与识别类型无关的标签、链接、广告等噪音,使得分类效果更佳。 | ||
搜索关键词: | 一种 网页 类型 识别 方法 系统 | ||
【主权项】:
一种网页类型识别方法,其特征在于,该方法包括:根据网页的文本内容计算该网页的内容类型倾向值;提取该网页的网页结构特征;利用所述内容类型倾向值和所述网页结构特征识别所述网页的类型;所述根据网页的文本内容计算该网页的内容类型倾向值具体为:根据网页的文本内容计算该网页的新闻类型倾向值;其中:利用新闻类型倾向值和网页结构特征识别网页的类型,具体包括以下步骤中的至少一个:当所述新闻类型倾向值大于预先设置的新闻类型第一阈值时,直接判定所述网页的类型为新闻;或当所述新闻类型倾向值大于预先设置的新闻类型第二阈值,且所述网页结构特征中包含新闻类信息时,判定所述网页的类型为新闻;其中所述新闻类型第一阈值大于新闻类型第二阈值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210058024.3/,转载请声明来源钻瓜专利网。
- 上一篇:受控压力阻力单元接合系统
- 下一篇:簇绒地毯绷架装置