[发明专利]一种网页类型识别方法和系统有效
申请号: | 201210058024.3 | 申请日: | 2012-03-07 |
公开(公告)号: | CN103309862B | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 蔡兵;彭默;徐羽 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司11018 | 代理人: | 谢安昆,宋志强 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 类型 识别 方法 系统 | ||
1.一种网页类型识别方法,其特征在于,该方法包括:
根据网页的文本内容计算该网页的内容类型倾向值;
提取该网页的网页结构特征;
利用所述内容类型倾向值和所述网页结构特征识别所述网页的类型;
所述根据网页的文本内容计算该网页的内容类型倾向值具体为:根据网页的文本内容计算该网页的新闻类型倾向值;其中:
利用新闻类型倾向值和网页结构特征识别网页的类型,具体包括以下步骤中的至少一个:
当所述新闻类型倾向值大于预先设置的新闻类型第一阈值时,直接判定所述网页的类型为新闻;或
当所述新闻类型倾向值大于预先设置的新闻类型第二阈值,且所述网页结构特征中包含新闻类信息时,判定所述网页的类型为新闻;
其中所述新闻类型第一阈值大于新闻类型第二阈值。
2.根据权利要求1所述的网页类型识别方法,其特征在于,该方法进一步包括以下步骤中的至少一个:
基于所识别的网页类型,计算该网页的广告相关度;
基于所识别的网页类型,针对该网页执行个性化新闻推荐;
基于所识别的网页类型,从该网页中抽取网页结构化数据;或
基于所识别的网页类型,针对该网页执行阅读类应用的数据筛选。
3.根据权利要求1所述的网页类型识别方法,其特征在于,所述根据网页的文本内容计算该网页的内容类型倾向值具体包括:
利用词典对该网页的文本内容进行分词,并计算分词特征的权重以形成特征向量;
根据预先设置的网页内容分类器计算该特征向量的内容类型倾向值。
4.根据权利要求3所述的网页类型识别方法,其特征在于,在利用词典对网页的文本内容进行分词之前,该方法进一步包括:从所述文本内容中滤去整句长度小于预定值的句子。
5.根据权利要求3所述的网页类型识别方法,其特征在于,所述计算分词特征的权重为:利用词频TF-反文档频率IDF加权算法计算分词特征的权重。
6.根据权利要求3所述的网页类型识别方法,其特征在于,该方法中:
所述网页内容分类器利用逻辑回归分类算法计算该特征向量的内容类型倾向值。
7.根据权利要求1所述的网页类型识别方法,其特征在于,所述提取该网页的网页结构特征具体包括:
建立该网页的文档对象模型DOM树;
从所述DOM树中提取网页结构特征。
8.根据权利要求7所述的网页类型识别方法,其特征在于,所述网页结构特征包括以下信息中的至少一个:
二级导航信息;
文字链接比;
统一资源定位符URL;
网页标题;
最大文本长度;或
最长连续文本比率。
9.根据权利要求1所述的网页类型识别方法,其特征在于,所述网页的类型包括新闻类型、知识问答类型、论坛讨论区类型或在线交易网页类型。
10.一种网页类型识别系统,其特征在于,该系统包括内容类型倾向值计算单元、结构特征提取单元和类型识别单元,其中:
内容类型倾向值计算单元,用于根据网页的文本内容计算该网页的内容类型倾向值;
结构特征提取单元,用于提取该网页的网页结构特征;
类型识别单元,用于利用所述内容类型倾向值和所述网页结构特征识别所述网页的类型;
所述根据网页的文本内容计算该网页的内容类型倾向值具体为:根据网页的文本内容计算该网页的新闻类型倾向值;其中:
利用新闻类型倾向值和网页结构特征识别网页的类型,具体包括以下步骤中的至少一个:
当所述新闻类型倾向值大于预先设置的新闻类型第一阈值时,直接判定所述网页的类型为新闻;或
当所述新闻类型倾向值大于预先设置的新闻类型第二阈值,且所述网页结构特征中包含新闻类信息时,判定所述网页的类型为新闻;
其中所述新闻类型第一阈值大于新闻类型第二阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210058024.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:受控压力阻力单元接合系统
- 下一篇:簇绒地毯绷架装置