[发明专利]一种自动处理网页文本的内链的方法及装置有效
申请号: | 201110052159.4 | 申请日: | 2011-03-04 |
公开(公告)号: | CN102654875A | 公开(公告)日: | 2012-09-05 |
发明(设计)人: | 李永强;耿磊;严冰;李忠红;刘晓东;苏上海;闫江波;田孟月 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 处理 网页 文本 方法 装置 | ||
1.一种自动处理网页文本的内链的方法,其特征在于,所述方法包括步骤:
a.获取用户行为日志;
b.根据所述行为日志统计所述网页文本的点击数据;
c.根据所述点击数据判断所述网页文本是否满足删除条件,以得到待删除内链的网页文本集合,
d.从所述网页文本集合中的子文本的所有内链中抓取出低质量的内链;
e.删除所述低质量的内链。
2.根据权利要求1所述的自动处理网页文本的内链的方法,其特征在于,所述删除条件进一步包括第一子条件,所述第一子条件是指在一定时间内所述文本的所有内链的总点击量大于第一阈值且所述文本的总页面浏览量大于第二阈值且所述文本的平均内链数大于第三阈值。
3.根据权利要求2所述的自动处理网页文本的内链的方法,其特征在于,在所述第一子条件不满足的情况下,所述删除条件进一步包括第二子条件,所述第二子条件是指当前时间减去上一次发生删除行为的时间大于第四阈值且在上一次发生删除行为的时间至当前时间内所述文本的所有内链的总点击率大于第五阈值。
4.根据权利要求1所述的自动处理网页文本的内链的方法,其特征在于,所述步骤d进一步包括:
d11.选择所述子文本的固定区域;
d12.对所述固定区域的所有内链计算与所述内链的点击量相关的统计量;
d12.根据所述统计量按照预定的选取策略从所述固定区域的所有内链中选出所述低质量内链。
5.根据权利要求4所述的自动处理网页文本的内链的方法,其特征在于,所述选取策略为当所述子文本的子内链的所述统计量小于所述子文本的所有内链的所述统计量的平均值时,认定所述子内链为低质量内链。
6.根据权利要求1所述的自动处理网页文本的内链的方法,其特征在于,所述步骤d进一步包括:
d21.选择包含所述子文本的子内链的第一区域与第二区域,所述的第二区域大于所述的第一区域;
d22.计算所述第一区域内除所述子内链外的剩余内链对所述子内链的点击量的贡献值与所述第二区域内所有内链的平均点击量;
d23.当所述子内链的点击量与所述贡献值的和小于所述第二区域内所有内链的平均点击量时,选取所述子内链为所述低质量内链。
7.根据权利要求1所述的自动处理网页文本的内链的方法,其特征在于,所述步骤d进一步包括:
d31.选取所述子文本的固定区域;
d32.在所述固定区域中划分上方区域和下方区域,并分别统计上方点击量与下方点击量,其中所述上方点击量是指所述上方区域包含的所有内链的平均点击量,所述下方点击量是指所述下方区域包含的所有内链的平均点击量;
d32.当所述下方点击量大于所述上方点击量时,选取所述上方区域中点击量最低的内链为所述低质量内链。
8.根据权利要求1所述的自动处理网页文本的内链的方法,其特征在于,所述方法进一步还包括为所述文本添加内链。
9.根据权利要求8所述的自动处理网页文本的内链的方法,其特征在于,所述添加内链的方法进一步包括:
g11.对所述网页文本进行分词处理以获取候选添加词;
g12.将所述候选添加词与指定的类别库进行匹配验证,并将通过验证的子候选添加词选择为链接导入词;
g13.为所述链接导入词添加链接。
10.根据权利要求8所述的自动处理网页文本的内链的方法,其特征在于,所述添加内链的方法进一步包括:
g21.对所述网页文本进行分词处理以获取候选添加词;
g22.通过实体识别技术找出所述候选添加词中的实体词,并将所述实体词选择为链接导入词;
g23.为所述链接导入词添加链接。
11.根据权利要求8所述的自动处理网页文本的内链的方法,其特征在于,所述添加内链的方法进一步包括:
g21.对所述网页文本进行分词处理以获取候选添加词;
g22.在所述网页文本中的第一文本关联第二文本的情况下验证所述第一文本中出现的子候选添加词与第二文本中出现的子内链词是否匹配,在匹配的情况下将所述子候选添加词选择为链接导入词;
g23.为所述链接导入词添加链接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110052159.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:具有挥发份处理结构的焙烧炉
- 下一篇:一种小空间单体取暖装置