[发明专利]一种基于深度信念网络算法的不良网页智能检测方法有效
申请号: | 201811476539.9 | 申请日: | 2018-12-05 |
公开(公告)号: | CN109597946B | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 邱日轩;肖子洋;付晨 | 申请(专利权)人: | 国网江西省电力有限公司信息通信分公司;国家电网有限公司 |
主分类号: | G06F16/954 | 分类号: | G06F16/954;G06F16/958 |
代理公司: | 南昌新天下专利商标代理有限公司 36115 | 代理人: | 施秀瑾 |
地址: | 330077 *** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 信念 网络 算法 不良 网页 智能 检测 方法 | ||
本发明公开了一种基于深度信念网络算法的不良网页智能检测方法,包括以下步骤;构建判别指标的层次结构模型:为丰富网页特征的种类,更加精确的识别不良网页,提取了网页的内容、链接、质量和隐藏特征并建立了相应的不良网页判别指标体系;不良网页判别指标样本集;基于SMOTE算法的指标集平衡化处理;提取了网页的内容、链接、质量和隐藏特征并建立了相应的不良网页判别指标体系,来对不良网页判别指标进行约简,先采用SMOTE技术对样本数据集进行平衡处理操作,使分类器的分类效果不受样本数据集中多数类样本的影响,提出采用DBN作为分类器,并将处理后的样本作为分类器的输入来得到检测结果,验证了该分类器的高效性。
技术领域
本发明涉及到一种不良网页智能检测方法,特别涉及一种基于深度信念网络算法的不良网页智能检测方法。
背景技术
随着科技的发展,互联网也呈现飞速发展的趋势,而搜索引擎作为用户使用互联网的重要应用之一,已经成为用户进行信息查询所必不可少的重要组成部分。中国互联网络信息中心发布的报告指出,2017年6月,中国的互联网用户数量已经增加至7.51亿。而搜索引擎作为互联网的必不可少的组成部分是当前使用率较高的互联网应用之一,也逐渐成为用户获取和访问互联网资源的重要渠道。
用户通过浏览器可以发送查询请求,针对于用户的请求,搜索引擎可以对数据库服务器进行检索,并将检索的一系列相关结果反馈给用户。然而,研究表明,在这些搜索引擎返回的结果中,用户多数只查看前三页。也就是说,在返回结果中的排名越靠前,被搜索引擎用户查看的机会就会越大,伴随着带来更大的网络流量和商业利润。在利益的驱动下,越来越多的网站设计者在开发网页时针对搜索引擎对网页的检索方法,采取作弊手段将网页的搜索排名提高到与其实际水平和质量不相符合的位置,使网页尽可能多的被搜索引擎检索到,从而获得更高的商业利润的目的。这种采用了作弊手段而得到的网页通常被我们称为是不良网页。
不良网页使搜索引擎的用户体验大大降低,从而降低搜索引擎的信任度,而且还会给整个互联网的安全带来一系列的威胁,例如:一些携带有病毒的网站,当用户打开该网站对应的网页后就会引入病毒或被盗取个人的重要信息。所以,不良网页已经成为搜索引擎面临的重要挑战,必须采取一系列相关行动,来制止不良网页继续危害互联网环境,进而创造一个安全的互联网空间,提高搜索引擎的检索能力和质量。采用相应的技术将不良网页从大量的网页资源中有效的检测出来已成为所有搜索引擎公司和相关研究人员的一项重要工作,该项工作对于提高搜索引擎的性能和用户满意度、净化互联网环境,规范互联网安全秩序具有极其重要的现实意义。
发明内容
本发明的目的在于提供一种基于深度信念网络算法的不良网页智能检测方法,具有应对当前不良网页复杂多变的作弊技术,提高对不良网页的检测性能的优点,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于深度信念网络算法的不良网页智能检测方法,包括以下步骤;
S1:构建判别指标的层次结构模型:为丰富网页特征的种类,更加精确的识别不良网页,提取了网页的内容、链接、质量和隐藏特征并建立了相应的不良网页判别指标体系;
S2:不良网页判别指标样本集;
S3:基于SMOTE算法的指标集平衡化处理;
S31:过抽样技术中有一个重要的概念,称为过抽样倍率,在此我们用N来表示它,该概念是指从每个不良网页样本的最邻近的K个样本中任意挑选出N个样本;
S32:按照下列公式的方式,将上述选取的N个样例与少数类样本分进行结合生成N个新的少数类样本。
xnew=x+rand*(y[i]-x), (2-1)
其中,i=1,2,…,N;使用x表示少数类样本;用rand来表示0到1之间的任意一个数;用xnew代表增加的新样本;用y[i]表示x的第i个临近的样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江西省电力有限公司信息通信分公司;国家电网有限公司,未经国网江西省电力有限公司信息通信分公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811476539.9/2.html,转载请声明来源钻瓜专利网。