[发明专利]网站分类方法及系统有效

专利信息
申请号: 201711167799.3 申请日: 2017-11-21
公开(公告)号: CN107908757B 公开(公告)日: 2020-05-26
发明(设计)人: 卿润东;崔渊博;聂嘉贺;阿曼太;王宇;金红;杨满智;刘长永 申请(专利权)人: 恒安嘉新(北京)科技股份公司
主分类号: G06F16/958 分类号: G06F16/958;G06F16/955;G06F16/35;G06F40/279;G06K9/62;G06N3/04;G06N3/08
代理公司: 北京市万慧达律师事务所 11111 代理人: 黄玉东
地址: 100191 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网站 分类 方法 系统
【权利要求书】:

1.一种网站分类方法,其特征在于,所述方法包括步骤:

步骤S1、将网页所含的各类信息分别训练形成各自对应的信息矩阵,其中,在步骤S1中,从网页提取文字、超链接及域名信息分别训练形成文字信息矩阵、超链接信息矩阵和URL信息矩阵;

步骤S2、将上述形成的多个信息矩阵拼接组成成输入层特征矩阵;

步骤S3、提取上述输入层特征矩阵的列特征向量个数及特征向量维数,生成卷积层;

步骤S4、将卷积得到的列向量最大值提出并池化处理,获得和卷积核维数相同的行向量,形成池化层;

步骤S5、将池化层输出的向量添加softmax函数,形成全连接层;

所述超链接信息矩阵的训练方法包括:

输入为设定窗口大小为2*n内的链接关系的K维向量;

将输入的向量进行求和计算得到一结果向量;

利用网页中出现的链接关系作为叶子节点建立一个Huffman树模型;

将得到的结果向量和Huffman树的非叶子节点向量进行逻辑运算,得到目标链接的Huffman树路径,并计算损失值和梯度,然后采用随机梯度上升的方法对参数进行迭代更新,最后得到训练好的超链接信息矩阵;

采用所述Huffman树训练得到链接信息矩阵的方法具体为:

步骤S11、按照出现频率对所有外链进行排序,取频率前的外链;

步骤S12、按照出现频率对外链建一棵Huffman树;

步骤S13、为Huffman树上的每个节点随机初始化一条对应k维的初始向量;

步骤S14、对于每条外链,按设定的上下文窗口大小预测外链在Huffman树上的编号;

步骤S15、根据Huffman树的路径上节点的向量计算Loss值和Gradient,运用随机梯度上升法求最大值;

步骤S16、根据梯度和学习率更新外链对应的向量及其他相关参数;

步骤S17、返回步骤S14;

步骤S18、最终Huffman树的叶子节点对应的向量就是最终的外链对应的向量。

2.根据权利要求1所述的方法,其特征在于,所述文字信息矩阵的训练方法包括:

对网页中的文字信息进行分词;

通过word2vec,将每个词转换为词特征向量;

将各词特征向量直接拼接后得到文字信息矩阵。

3.根据权利要求1所述的方法,其特征在于,所述URL信息矩阵的训练方法包括:

统计URL的关键词语料库;

比较语料库与文字信息特征矩阵维数大小;

若小于,则重复语料库,直到长度与特征矩阵维数相同;若大于,则调整特征矩阵维数使与语料库长度相同;

建立一个维数与语料库长度相同的1行向量,若URL中出现语料库中的关键词,则将该位置元素置为1,其它位置置为0。

4.一种网站分类系统,其特征在于,所述系统包括:

信息矩阵提取单元,用于将网页所含的文字、超链接及域名信息分别训练形成文字信息矩阵、超链接信息矩阵和URL信息矩阵拼接组成输入层特征矩阵;

卷积层生成单元,用于提取上述输入层特征矩阵的列特征向量个数及特征向量维数,生成卷积层;

池化处理单元,将卷积得到的列向量最大值提出并池化处理,获得和卷积核维数相同的行向量;

输出单元,将池化层输出的向量添加softmax函数,并输出;

其中,所述信息矩阵提取单元包括超链接信息矩阵训练单元,用于从网页里的超链接信息进行训练,所述超链接信息矩阵训练单元包括输入层、隐含层和输出层,其中,

所述输入层输入输入设定窗口大小为2*n内的链接关系的K维向量;

所述隐含层将输入层的向量进行求和计算得到一结果向量;

所述输出层,利用网页中出现的链接关系作为叶子节点建立一个Huffman树模型;将得到的结果向量和Huffman树的非叶子节点向量进行逻辑运算,得到目标链接的Huffman树路径,并计算损失值和梯度,然后采用随机梯度上升的方法对参数进行迭代更新,最后得到训练好的超链接信息矩阵;

其中,采用所述Huffman树训练得到链接信息矩阵的方法具体为:

步骤S11、按照出现频率对所有外链进行排序,取频率前的外链;

步骤S12、按照出现频率对外链建一棵Huffman树;

步骤S13、为Huffman树上的每个节点随机初始化一条对应k维的初始向量;

步骤S14、对于每条外链,按设定的上下文窗口大小预测外链在Huffman树上的编号;

步骤S15、根据Huffman树的路径上节点的向量计算Loss值和Gradient,运用随机梯度上升法求最大值;

步骤S16、根据梯度和学习率更新外链对应的向量及其他相关参数;

步骤S17、返回步骤S14;

步骤S18、最终Huffman树的叶子节点对应的向量就是最终的外链对应的向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恒安嘉新(北京)科技股份公司,未经恒安嘉新(北京)科技股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711167799.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top