[发明专利]网站分类方法及系统有效

专利信息
申请号: 201711167799.3 申请日: 2017-11-21
公开(公告)号: CN107908757B 公开(公告)日: 2020-05-26
发明(设计)人: 卿润东;崔渊博;聂嘉贺;阿曼太;王宇;金红;杨满智;刘长永 申请(专利权)人: 恒安嘉新(北京)科技股份公司
主分类号: G06F16/958 分类号: G06F16/958;G06F16/955;G06F16/35;G06F40/279;G06K9/62;G06N3/04;G06N3/08
代理公司: 北京市万慧达律师事务所 11111 代理人: 黄玉东
地址: 100191 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网站 分类 方法 系统
【说明书】:

发明涉及网络技术领域,公开了一种网站分类方法及系统,所述方法包括步骤:将网页所含的各类信息分别训练形成各自对应的信息矩阵;将形成的多个信息矩阵拼接组成成输入层特征矩阵;提取上述输入层特征矩阵的列特征向量个数及特征向量维数,生成卷积层;将卷积得到的列向量最大值提出并池化处理,获得和卷积核维数相同的行向量,形成池化层;将池化层输出的向量添加softmax函数,形成全连接层。本发明极大提高了现有的网站分类的准确性。

技术领域

本发明涉及网络技术领域,具体地,涉及一种网站分类方法及系统。

背景技术

互联网中的网站数目异常庞大,类别也非常多,如不良信息类的网站、新闻类网站、教育类网站等等,面对各种各样的网站,如何筛选出特定类别的网站,提取数据中有价值的信息,这些都可以用网站分类来解决。

目前,网站分类有很多方法如:

方法一、有一个网站分类的字典,每个网站通过字典来决定类别,但人工成本太高,效率低。

方法二、基于网页信息的分类,将网页信息当作一个整体,利用算法,进行分类,这样的效果分类准确率不高。

方法三、基于网络结构的分类,因网站结构和网页类别的关联性不高,只能针对特定的网站。

现有网站分类方法主要分为两种类型:

方法一、通过传统机器学习方法来进行网站分类,常见的方法有逻辑回归、朴素贝叶斯、决策树、k-近邻算法等,但是这些方法均不能将隐藏在语料间的基本特征完全提取出来,导致分类准确率不高。

方法二、通过深度学习方法来进行网站分类,常见的有cnn等算法,该算法能够识别语料间的基本特征,但是只提取了网站的文字信息特征,而网站还有如超链接、域名、网页标签信息等,网站特征提取不全,导致分类准确率不高。现有超链接处理方法为简单的统计各超链接类别数目,数目最多类别即为该网站类别,该方法并未提取出超链接的特征,分类准确率低。

发明内容

针对现有技术的缺陷,本发明所要解决的技术问题是如何提高网站分类的准确性。

为解决该问题,一方面,本发明提供了一种网站分类方法,包括步骤:

步骤S1、将网页所含的各类信息分别训练形成各自对应的信息矩阵;

步骤S2、将上述形成的多个信息矩阵拼接组成成输入层特征矩阵1;

步骤S3、提取上述输入层特征矩阵的列特征向量个数及特征向量维数,生成卷积层2;

步骤S4、将卷积得到的列向量最大值提出并池化处理,获得和卷积核维数相同的行向量,形成池化层3;

步骤S5、将池化层输出的向量添加softmax函数,形成全连接层4。

进一步地,在上述步骤S1中,从网页提取文字、超链接及域名信息分别训练形成文字信息矩阵、超链接信息矩阵和URL信息矩阵。

进一步地,所述文字信息矩阵的训练方法包括:

对网页中的文字信息进行分词;

通过word2vec,将每个词转换为词特征向量;

将各词特征向量直接拼接后得到文字信息矩阵。

进一步地,所述超链接信息矩阵的训练方法包括:

输入为设定窗口大小为2*n内的链接关系的K维向量;

将输入的向量进行求和计算得到一结果向量;

利用网页中出现的链接关系作为叶子节点建立一个Huffman树模型;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恒安嘉新(北京)科技股份公司,未经恒安嘉新(北京)科技股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711167799.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top