[发明专利]一种自动处理网页文本的内链的方法及装置有效
申请号: | 201110052159.4 | 申请日: | 2011-03-04 |
公开(公告)号: | CN102654875A | 公开(公告)日: | 2012-09-05 |
发明(设计)人: | 李永强;耿磊;严冰;李忠红;刘晓东;苏上海;闫江波;田孟月 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 处理 网页 文本 方法 装置 | ||
【技术领域】
本发明涉及互联网技术领域,特别涉及一种自动处理网页文本的内链的方法及装置。
【背景技术】
随着互联网的广泛应用,人们开始进入知识爆炸的时代。每天各种各样的信息随着网络迅速传播,无论是有关经济、政治的,还是有关科技、娱乐的信息,只要通过网络,人们都可以轻易地获取到。人们除了采用主动查找的方式获取自己想要的信息以外,随着各个网站建设得愈加完善,一种被动的信息传播方式也越来越普遍,那就是网页制作者在网页文本描述的信息中,对网页文本中出现的关键词给予一个指向另一个网页的链接,人们在阅读这个网页文本时,如果对这个带有链接指向的关键词感兴趣,则可以不需要采取主动查询的方式去获取那个关键词的信息,而是通过直接点击那个关键词就可以跳转到那个关键词的相关页面。这种位于一个网页文本内的链接,也被称之为内链。
在传统的有关网页文本内链的处理中,无论是内链的添加,还是内链的删除,都是采用人工的方式进行的,即网页制作者对网页文本的内容进行分析,为其认为有需要的关键词添加上内链,或者将其认为不良的内链删除。这种方法首先带有较大的主观随意性,因为每个人对哪些词是适合添加内链的关键词的理解都是不一样的,同样的,对何种内链属于不良内链的认定标准也不一致,此外,采用人工的方式处理内链,必然降低处理效率,更增加了出错的可能性。
以我们常见的百科网页为例,例如维基百科上,会以词条为网页单位来组织信息,每个词条网页文本中都包含了很多的内链,这些内链指向与本词条内容相关的另一个词条网页。为了方便读者了解相关信息,在这类型的网页上,内链通常是比较多的,又由于词条网页的内容常常变动,一些内链有可能随着时间的推移而变得没有价值,因此,如果有一种科学合理的方法来删除添加的内链,就可以大大提高词条页面的内链的质量,使得内链对用户的引导作用更加有效。
【发明内容】
本发明所要解决的技术问题是提供一种自动处理文本内链的方法,以提高文本内链的质量,改善文本内链对用户的引导效果,使得用户可以更好地通过文本内链的方式找到自己想要的信息。
本发明为了解决上述技术问题,采用的技术手段是提供了一种自动处理网页文本的内链的方法,包括步骤:a.获取用户行为日志;b.根据所述行为日志统计所述网页文本的点击数据;c.根据所述点击数据判断所述网页文本是否满足删除条件,以得到待删除内链的网页文本集合,d.从所述网页文本集合中的子文本的所有内链中抓取出低质量的内链;e.删除所述低质量的内链。
根据本发明之一优选实施例,所述删除条件进一步包括第一子条件,所述第一子条件是指在一定时间内所述文本的所有内链的总点击量大于第一阈值且所述文本的总页面浏览量大于第二阈值且所述文本的平均内链数大于第三阈值。
根据本发明之一优选实施例,在所述第一子条件不满足的情况下,所述删除条件进一步包括第二子条件,所述第二子条件是指当前时间减去上一次发生删除行为的时间大于第四阈值且在上一次发生删除行为的时间至当前时间内所述文本的所有内链的总点击率大于第五阈值。
根据本发明之一优选实施例,所述步骤d进一步包括:d11.选择所述子文本的固定区域;d12.对所述固定区域的所有内链计算与所述内链的点击量相关的统计量;d12.根据所述统计量按照预定的选取策略从所述固定区域的所有内链中选出所述低质量内链。
根据本发明之一优选实施例,所述选取策略为当所述子文本的子内链的所述统计量小于所述子文本的所有内链的所述统计量的平均值时,认定所述子内链为低质量内链。
根据本发明之一优选实施例,所述步骤d进一步包括:d21.选择包含所述子文本的子内链的第一区域与第二区域,所述的第二区域大于所述的第一区域;d22.计算所述第一区域内除所述子内链外的剩余内链对所述子内链的点击量的贡献值与所述第二区域内所有内链的平均点击量;d23.当所述子内链的点击量与所述贡献值的和小于所述第二区域内所有内链的平均点击量时,选取所述子内链为所述低质量内链。
根据本发明之一优选实施例,所述步骤d进一步包括:d31.选取所述子文本的固定区域;d32.在所述固定区域中划分上方区域和下方区域,并分别统计上方点击量与下方点击量,其中所述上方点击量是指所述上方区域包含的所有内链的平均点击量,所述下方点击量是指所述下方区域包含的所有内链的平均点击量;d32.当所述下方点击量大于所述上方点击量时,选取所述上方区域中点击量最低的内链为所述低质量内链。
根据本发明之一优选实施例,所述方法进一步还包括为所述文本添加内链。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110052159.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有挥发份处理结构的焙烧炉
- 下一篇:一种小空间单体取暖装置