[发明专利]网站分类方法及系统有效
申请号: | 201711167799.3 | 申请日: | 2017-11-21 |
公开(公告)号: | CN107908757B | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 卿润东;崔渊博;聂嘉贺;阿曼太;王宇;金红;杨满智;刘长永 | 申请(专利权)人: | 恒安嘉新(北京)科技股份公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/955;G06F16/35;G06F40/279;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 黄玉东 |
地址: | 100191 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 分类 方法 系统 | ||
本发明涉及网络技术领域,公开了一种网站分类方法及系统,所述方法包括步骤:将网页所含的各类信息分别训练形成各自对应的信息矩阵;将形成的多个信息矩阵拼接组成成输入层特征矩阵;提取上述输入层特征矩阵的列特征向量个数及特征向量维数,生成卷积层;将卷积得到的列向量最大值提出并池化处理,获得和卷积核维数相同的行向量,形成池化层;将池化层输出的向量添加softmax函数,形成全连接层。本发明极大提高了现有的网站分类的准确性。
技术领域
本发明涉及网络技术领域,具体地,涉及一种网站分类方法及系统。
背景技术
互联网中的网站数目异常庞大,类别也非常多,如不良信息类的网站、新闻类网站、教育类网站等等,面对各种各样的网站,如何筛选出特定类别的网站,提取数据中有价值的信息,这些都可以用网站分类来解决。
目前,网站分类有很多方法如:
方法一、有一个网站分类的字典,每个网站通过字典来决定类别,但人工成本太高,效率低。
方法二、基于网页信息的分类,将网页信息当作一个整体,利用算法,进行分类,这样的效果分类准确率不高。
方法三、基于网络结构的分类,因网站结构和网页类别的关联性不高,只能针对特定的网站。
现有网站分类方法主要分为两种类型:
方法一、通过传统机器学习方法来进行网站分类,常见的方法有逻辑回归、朴素贝叶斯、决策树、k-近邻算法等,但是这些方法均不能将隐藏在语料间的基本特征完全提取出来,导致分类准确率不高。
方法二、通过深度学习方法来进行网站分类,常见的有cnn等算法,该算法能够识别语料间的基本特征,但是只提取了网站的文字信息特征,而网站还有如超链接、域名、网页标签信息等,网站特征提取不全,导致分类准确率不高。现有超链接处理方法为简单的统计各超链接类别数目,数目最多类别即为该网站类别,该方法并未提取出超链接的特征,分类准确率低。
发明内容
针对现有技术的缺陷,本发明所要解决的技术问题是如何提高网站分类的准确性。
为解决该问题,一方面,本发明提供了一种网站分类方法,包括步骤:
步骤S1、将网页所含的各类信息分别训练形成各自对应的信息矩阵;
步骤S2、将上述形成的多个信息矩阵拼接组成成输入层特征矩阵1;
步骤S3、提取上述输入层特征矩阵的列特征向量个数及特征向量维数,生成卷积层2;
步骤S4、将卷积得到的列向量最大值提出并池化处理,获得和卷积核维数相同的行向量,形成池化层3;
步骤S5、将池化层输出的向量添加softmax函数,形成全连接层4。
进一步地,在上述步骤S1中,从网页提取文字、超链接及域名信息分别训练形成文字信息矩阵、超链接信息矩阵和URL信息矩阵。
进一步地,所述文字信息矩阵的训练方法包括:
对网页中的文字信息进行分词;
通过word2vec,将每个词转换为词特征向量;
将各词特征向量直接拼接后得到文字信息矩阵。
进一步地,所述超链接信息矩阵的训练方法包括:
输入为设定窗口大小为2*n内的链接关系的K维向量;
将输入的向量进行求和计算得到一结果向量;
利用网页中出现的链接关系作为叶子节点建立一个Huffman树模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恒安嘉新(北京)科技股份公司,未经恒安嘉新(北京)科技股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711167799.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种产品信息展示方法和系统
- 下一篇:数据库扩展控制方法及其控制系统