[发明专利]一种网站主题提取方法、系统及电子设备和存储介质在审
申请号: | 201910074345.4 | 申请日: | 2019-01-25 |
公开(公告)号: | CN111488511A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 杨荣海 | 申请(专利权)人: | 深信服科技股份有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F40/289 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 主题 提取 方法 系统 电子设备 存储 介质 | ||
1.一种网站主题提取方法,其特征在于,包括:
将所述目标网页按照目标分割方式分割为多个页面块,并提取所有所述页面块中的内容作为所述目标网站的空间特征;
确定所述目标网站的检索关键词,根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,并提取所述搜索结果中的内容作为所述目标网站的检索特征;
对所述目标网站的所有特征进行主题提取,并根据提取得到的所有主题确定所述目标网站的最终主题;其中,所述所有特征包括所述空间特征和所述检索特征。
2.根据权利要求1所述网站主题提取方法,其特征在于,还包括:
提取目标网站中目标网页的内容作为所述目标网站的内容特征;其中,所述目标网页的内容包括所述目标网页的标题、文本信息和链接信息中任一项或任几项的组合;
和/或,确定所述目标网页的顶级域名,并在顶级域名信息表中确定所述顶级域名对应的顶级域名特征;
相应的,所述所有特征还包括所述内容特征和/或所述顶级域名特征。
3.根据权利要求1所述网站主题提取方法,其特征在于,将所述目标网页按照目标分割方式分割为多个页面块,并提取所有所述页面块中的内容作为所述目标网站的空间特征,包括:
对所述目标网页建立DOM树,并提取所述DOM树中的所有叶子节点中的内容作为所述目标网站的空间特征;
和/或,将所述目标网页按照网页标签进行分割,并提取所有所述网页标签中的内容作为所述目标网站的空间特征。
4.根据权利要求1所述网站主题提取方法,其特征在于,根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,包括:
在所述目标搜索引擎中搜索所述检索关键词得到备选结果;
将前M个所述备选结果作为所述搜索结果,其中,M为正整数。
5.根据权利要求1所述网站主题提取方法,其特征在于,若所述检索关键词为所述目标网页的网站域名,则根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,包括:
在所述目标搜索引擎中搜索所述网站域名得到备选结果;
计算所述目标网页的网站域名与所述备选结果的网站域名的字符串相似度;
将字符串相似度最高的前N个备选结果作为所述搜索结果,其中,N为正整数。
6.根据权利要求1所述网站主题提取方法,其特征在于,提取所述搜索结果中的内容作为所述目标网站的检索特征,包括:
提取所述搜索结果中的标题和摘要信息作为所述目标网站的检索特征。
7.根据权利要求1所述网站主题提取方法,其特征在于,对所述目标网站的所有特征进行主题提取之前,还包括:
在所述所有特征中过滤敏感关键词库中已存在的敏感关键词。
8.根据权利要求1所述网站主题提取方法,其特征在于,对所述目标网站的所有特征进行主题提取之前,还包括:
对所述所有特征进行分词操作,得到分词结果;
计算每个所述分词结果与敏感关键词库中每个敏感关键词的语义相似度;
在所述所有特征中过滤相似度大于预设值的分词结果对应的特征。
9.根据权利要求1至8中任一项所述网站主题提取方法,其特征在于,所述根据提取得到的所有主题确定所述目标网站的最终主题,包括:
对提取得到的所有主题进行并集操作得到所述目标网站的最终主题。
10.根据权利要求1至8中任一项所述网站主题提取方法,其特征在于,所述根据提取得到的所有主题确定所述目标网站的最终主题,包括:
将提取得到的所有主题映射为词向量,并计算每个词向量之间的相似度,根据所有所述相似度构建相似度矩阵;
将所述相似度矩阵中模长最大的前K个行向量或列向量对应的主题作为所述目标网站的最终主题;其中,K为正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深信服科技股份有限公司,未经深信服科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910074345.4/1.html,转载请声明来源钻瓜专利网。