[发明专利]一种互联网无价值网页的挖掘方法在审
申请号: | 201310535301.X | 申请日: | 2013-11-01 |
公开(公告)号: | CN103559257A | 公开(公告)日: | 2014-02-05 |
发明(设计)人: | 庞伟 | 申请(专利权)人: | 深圳市宜搜科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市凯达知识产权事务所 44256 | 代理人: | 任转英;刘大弯 |
地址: | 518026 广东省深圳市福田区滨*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种互联网无价值网页的挖掘方法,包括:步骤1、整理核心无效词汇;步骤2、使用核心无效词汇,识别出所有的疑似无效短语;步骤3、统计分析疑似无效短语集合;步骤4、根据统计分析结果,识别无效页面。通过本发明提供的一种互联网无价值网页的挖掘方法,通过对网页聚类、统计分析的手段,解决了互联网网页中无效页面的高准确率、高召回率、自动化的挖掘问题,从而提高挖掘速度、改善搜索引擎的用户体验。 | ||
搜索关键词: | 一种 互联网 价值 网页 挖掘 方法 | ||
【主权项】:
一种互联网无价值网页的挖掘方法,其特征在于,包括:步骤1、整理核心无效词汇;步骤2、使用核心无效词汇,识别出所有的疑似无效短语;步骤3、统计分析疑似无效短语集合;步骤4、根据统计分析结果,识别无效页面。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市宜搜科技发展有限公司,未经深圳市宜搜科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310535301.X/,转载请声明来源钻瓜专利网。
- 上一篇:用于滑动门的配件
- 下一篇:人源化CTLA‑4抗体