[发明专利]一种主页链接推荐方法在审
申请号: | 201710565551.6 | 申请日: | 2017-07-12 |
公开(公告)号: | CN107357891A | 公开(公告)日: | 2017-11-17 |
发明(设计)人: | 陈刚;何积丰;张新阳 | 申请(专利权)人: | 中云开源数据技术(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海科盛知识产权代理有限公司31225 | 代理人: | 宣慧兰 |
地址: | 201306 上海市浦东新区南*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 主页 链接 推荐 方法 | ||
1.一种主页链接推荐方法,其特征在于,该方法包括如下步骤:
(1)根据输入的关键词获取与关键词相关的搜索结果;
(2)过滤搜索结果提取所有与关键词相关的主页链接列表;
(3)获取步骤(2)中主页链接链表中所有主页对应的HTML源代码;
(4)对于每个主页从相应的HTML源代码中提取多组特征信息;
(5)对于每个主页根据特征信息求取该主页与关键词的相似度;
(6)根据相似度对所有主页进行排序并将相似度最高的主页链接推荐给用户。
2.根据权利要求1所述的一种主页链接推荐方法,其特征在于,步骤(2)具体为:从搜索结果中提取含有顶级域名以及带有国家域名的链接作为过滤结果并形成主页链接列表。
3.根据权利要求1所述的一种主页链接推荐方法,其特征在于,步骤(3)中多组特征信息包括:标题标签的内容、公安网络备案内容、元数据标签中关键词子标签的内容以及元数据标签中描述子标签的内容。
4.根据权利要求1所述的一种主页链接推荐方法,其特征在于,步骤(5)具体为,确定第i组特征信息的权重值wi,i=1,2,……n,n表示特征信息的总组数,然后采用下述步骤确定每个主页与关键词的相似度:
(a)确定第i组特征信息与关键词的相关度Xi,i=1,2,……n;
(c)待求取相似度的主页与关键词的相似度为F:
5.根据权利要求4所述的一种主页链接推荐方法,其特征在于,在确定每个主页与关键词的相似度之前还需判断关键词是否能进行词组拆分,若能,将关键词拆分为多个关键分词并作为比对关键词,否则将关键词直接作为比对关键词,进而步骤(b)为:将第i组特征信息拆分成多个特征分词,获取比对关键词在第i组特征信息的特征分词中出现的频数作为所述的相关度Xi。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中云开源数据技术(上海)有限公司,未经中云开源数据技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710565551.6/1.html,转载请声明来源钻瓜专利网。