[发明专利]官方网站确定方法和系统及官方网站的排序方法有效
申请号: | 201510378418.0 | 申请日: | 2015-07-01 |
公开(公告)号: | CN104933178B | 公开(公告)日: | 2018-09-11 |
发明(设计)人: | 付通敏 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 方挺;黄谦 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种官方网站确定方法及系统,其中方法包括:扫描链接库,提取包含特征文本内容的链接;将所获取的链接按照各链接所对应的域名进行聚类;从聚类后的域名中筛选符合预设条件的域名确定为官方网站;系统包括链接库扫描单元,适于扫描链接库,提取包含特征文本内容的链接;链接聚类单元,适于将所提取的链接按照链接所对应的域名进行聚类;筛选判定单元,适于从聚类后的域名中筛选符合预设条件的域名,确定为官方网站。本发明的官方网站确定方法及系统能够主动识别官方网站,整个过程自动、高效。 | ||
搜索关键词: | 官方网站 确定 方法 系统 | ||
【主权项】:
1.一种官方网站确定方法,包括如下步骤:扫描链接库,提取包含特征文本内容的链接,所述链接库是由获取的所有待识别网站的所有链接构成的,所述链接为锚文本链接,所述特征文本内容为官网特征文字;将所提取的链接按照链接所对应的域名进行聚类;从聚类后的域名中筛选符合预设条件的域名,确定为官方网站,所述预设条件为:域名下包含的特征文本内容的链接的数量X小于或等于设定的阈值Y,所述阈值Y根据官方网站各级页面下共出现所述特征文本内容的次数及该次数出现的频率而设定。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510378418.0/,转载请声明来源钻瓜专利网。