[发明专利]一种网站主题提取方法、系统及电子设备和存储介质在审
申请号: | 201910074345.4 | 申请日: | 2019-01-25 |
公开(公告)号: | CN111488511A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 杨荣海 | 申请(专利权)人: | 深信服科技股份有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F40/289 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 主题 提取 方法 系统 电子设备 存储 介质 | ||
本申请公开了一种网站主题提取方法、系统及一种电子设备和计算机可读存储介质,该方法包括:将目标网页按照目标分割方式分割为多个页面块,并提取所有页面块中的内容作为目标网站的空间特征;确定目标网站的检索关键词,根据检索关键词在目标搜索引擎中搜索得到搜索结果,并提取搜索结果中的内容作为目标网站的检索特征;对目标网站的所有特征进行主题提取,并根据提取得到的所有主题确定目标网站的最终主题;其中,所有特征包括空间特征和检索特征,提高了网站主题提取的准确性。
技术领域
本申请涉及计算机技术领域,更具体地说,涉及一种网站主题提取方法、系统及一种电子设备和一种计算机可读存储介质。
背景技术
网站主题提取是许多网络应用(如网页推荐、网页分类等)的基础任务。现有技术中的网站主题提取方法采用DOM(中文全称:文档对象模型,英文全称:Document ObjectModel)解析、网页标签等技术对网页进行分割,从分割的网页块中提取网页主题,并对这些主题做整合。
但是,由于一个网站包含许多网页,孤立的对每个网页做主题提取的方法忽略了同一网站下网页之间有着强联系的事实,在某些场景下,使用网页主题做为网站主题并不准确。
因此,如何提高网站主题提取的准确性是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种网站主题提取方法、系统及一种电子设备和一种计算机可读存储介质,提高了网站主题提取的准确性。
为实现上述目的,本申请提供了一种网站主题提取方法,包括:
将所述目标网页按照目标分割方式分割为多个页面块,并提取所有所述页面块中的内容作为所述目标网站的空间特征;
确定所述目标网站的检索关键词,根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,并提取所述搜索结果中的内容作为所述目标网站的检索特征;
对所述目标网站的所有特征进行主题提取,并根据提取得到的所有主题确定所述目标网站的最终主题;其中,所述所有特征包括所述空间特征和所述检索特征。
其中,还包括:
提取目标网站中目标网页的内容作为所述目标网站的内容特征;其中,所述目标网页的内容包括所述目标网页的标题、文本信息和链接信息中任一项或任几项的组合;
和/或,确定所述目标网页的顶级域名,并在顶级域名信息表中确定所述顶级域名对应的顶级域名特征;
相应的,所述所有特征还包括所述内容特征和/或所述顶级域名特征。
其中,将所述目标网页按照目标分割方式分割为多个页面块,并提取所有所述页面块中的内容作为所述目标网站的空间特征,包括:
对所述目标网页建立DOM树,并提取所述DOM树中的所有叶子节点中的内容作为所述目标网站的空间特征;
和/或,将所述目标网页按照网页标签进行分割,并提取所有所述网页标签中的内容作为所述目标网站的空间特征。
其中,根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,包括:
在所述目标搜索引擎中搜索所述检索关键词得到备选结果;
将前M个所述备选结果作为所述搜索结果,其中,M为正整数。
其中,若所述检索关键词为所述目标网页的网站域名,则根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,包括:
在所述目标搜索引擎中搜索所述网站域名得到备选结果;
计算所述目标网页的网站域名与所述备选结果的网站域名的字符串相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深信服科技股份有限公司,未经深信服科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910074345.4/2.html,转载请声明来源钻瓜专利网。