[发明专利]官方网站确定方法和系统及官方网站的排序方法有效
申请号: | 201510378418.0 | 申请日: | 2015-07-01 |
公开(公告)号: | CN104933178B | 公开(公告)日: | 2018-09-11 |
发明(设计)人: | 付通敏 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 方挺;黄谦 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 官方网站 确定 方法 系统 | ||
1.一种官方网站确定方法,包括如下步骤:
扫描链接库,提取包含特征文本内容的链接,所述链接库是由获取的所有待识别网站的所有链接构成的,所述链接为锚文本链接,所述特征文本内容为官网特征文字;
将所提取的链接按照链接所对应的域名进行聚类;
从聚类后的域名中筛选符合预设条件的域名,确定为官方网站,所述预设条件为:域名下包含的特征文本内容的链接的数量X小于或等于设定的阈值Y,所述阈值Y根据官方网站各级页面下共出现所述特征文本内容的次数及该次数出现的频率而设定。
2.根据权利要求1所述的官方网站确定方法,其中,所述从聚类后的域名中筛选符合预设条件的域名,确定为官方网站包括:统计聚类后的各域名下所包含特征文本内容的链接的数量X与设定的阈值Y进行比较,将符合所述预设条件的域名确定为官方网站。
3.根据权利要求1或2所述的官方网站确定方法,其中,所述扫描链接库,提取包含特征文本内容的链接包括:
以K条链接为组,对链接库中的链接进行分组扫描,识别链接中的锚文本中是否包含了所述特征文本内容,如果是则将所述锚文本对应的链接予以提取。
4.根据权利要求1或2所述的官方网站确定方法,其中,所述扫描链接库,提取包含特征文本内容的链接包括:对链接库中的链接进行全部扫描,提取各链接的锚文本,识别所述锚文本中是否包含了所述特征文本内容,若是则将所述锚文本对应的链接予以提取。
5.根据权利要求1或2所述的官方网站确定方法,其中,所述将所提取的链接按照链接所对应的域名进行聚类包括:
S01从所提取的链接中选择一条链接所对应的域名为参照域名;
S02依次选取所述所提取的链接中剩余的链接,将各剩余的链接对应的域名分别与参照域名比较,将域名相同的链接归为一类;
S03判断是否已经完成对目标链接库的聚类,若否则循环执行步骤S01~S02直到完成对目标链接库中的所有链接的分类,若是则执行步骤S04结束聚类。
6.根据权利要求1或2所述的官方网站确定方法,其中,所述将所提取的链接按照链接所对应的域名进行聚类包括:
S01’从所提取的链接中取出一条链接,所对应的域名确定为第i参照域名;
S02’从所提取的链接中取出另一条链接,将所述另一条链接对应的域名与前i个参照域名分别进行比较;
S03’如果所述另一条链接的域名与所述前i个参照域名中的第j参照域名相同,则将所述另一条链接与第j参照域名对应的链接归为一类;
S04’否则将所述另一条链接的域名确定为第i++参照域名;
S05’判断是否已经完成对所述所提取链接的聚类,若否则执行步骤S02’,若是则结束聚类;
其中,i的初始值为1,1≤j≤i。
7.一种官方网站的排序方法,包括:
利用根据权利要求1-6中任一项所述的官方网站确定方法标记出官方网站;
增加所述官方网站在待排序网络资源中的权重;
按照权重对所述待排序网络资源进行排序,并呈现给用户。
8.一种官方网站确定系统,包括:
链接库扫描单元,适于扫描链接库,提取包含特征文本内容的链接,所述链接库是由获取的所有待识别网站的所有链接构成的,所述链接为锚文本链接,所述特征文本内容为官网特征文字;
链接聚类单元,适于将所提取的链接按照链接所对应的域名进行聚类;
筛选判定单元,适于从聚类后的域名中筛选符合预设条件的域名,确定为官方网站,所述预设条件为:域名下包含的特征文本内容的链接的数量X小于或等于设定的阈值Y,所述阈值Y根据官方网站各级页面下共出现所述特征文本内容的次数及该次数出现的频率而设定。
9.根据权利要求8所述的官方网站确定系统,其中,所述筛选判定单元配置以:统计聚类后的各域名下所包含特征文本内容的链接的数量X与设定的阈值Y进行比较,将符合所述预设条件的域名确定为官方网站。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510378418.0/1.html,转载请声明来源钻瓜专利网。