[发明专利]一种自动处理网页文本的内链的方法及装置有效
申请号: | 201110052159.4 | 申请日: | 2011-03-04 |
公开(公告)号: | CN102654875A | 公开(公告)日: | 2012-09-05 |
发明(设计)人: | 李永强;耿磊;严冰;李忠红;刘晓东;苏上海;闫江波;田孟月 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种自动处理网页文本的内链的方法,包括步骤:a.获取用户行为日志;b.根据所述行为日志统计所述网页文本的点击数据;c.根据所述点击数据判断所述网页文本是否满足删除条件,以得到待删除内链的网页文本集合,d.从所述网页文本集合中的子文本的所有内链中抓取出低质量的内链;e.删除所述低质量的内链。通过上述方式,大大节省了人工成本,减少了内链处理行为的主观性,并且很好地提高了文本内链的质量,改善了文本内链对用户的引导效果。 | ||
搜索关键词: | 一种 自动 处理 网页 文本 方法 装置 | ||
【主权项】:
一种自动处理网页文本的内链的方法,其特征在于,所述方法包括步骤:a.获取用户行为日志;b.根据所述行为日志统计所述网页文本的点击数据;c.根据所述点击数据判断所述网页文本是否满足删除条件,以得到待删除内链的网页文本集合,d.从所述网页文本集合中的子文本的所有内链中抓取出低质量的内链;e.删除所述低质量的内链。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110052159.4/,转载请声明来源钻瓜专利网。
- 上一篇:具有挥发份处理结构的焙烧炉
- 下一篇:一种小空间单体取暖装置