[发明专利]网站分类方法及系统有效
申请号: | 201711167799.3 | 申请日: | 2017-11-21 |
公开(公告)号: | CN107908757B | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 卿润东;崔渊博;聂嘉贺;阿曼太;王宇;金红;杨满智;刘长永 | 申请(专利权)人: | 恒安嘉新(北京)科技股份公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/955;G06F16/35;G06F40/279;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 黄玉东 |
地址: | 100191 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 分类 方法 系统 | ||
1.一种网站分类方法,其特征在于,所述方法包括步骤:
步骤S1、将网页所含的各类信息分别训练形成各自对应的信息矩阵,其中,在步骤S1中,从网页提取文字、超链接及域名信息分别训练形成文字信息矩阵、超链接信息矩阵和URL信息矩阵;
步骤S2、将上述形成的多个信息矩阵拼接组成成输入层特征矩阵;
步骤S3、提取上述输入层特征矩阵的列特征向量个数及特征向量维数,生成卷积层;
步骤S4、将卷积得到的列向量最大值提出并池化处理,获得和卷积核维数相同的行向量,形成池化层;
步骤S5、将池化层输出的向量添加softmax函数,形成全连接层;
所述超链接信息矩阵的训练方法包括:
输入为设定窗口大小为2*n内的链接关系的K维向量;
将输入的向量进行求和计算得到一结果向量;
利用网页中出现的链接关系作为叶子节点建立一个Huffman树模型;
将得到的结果向量和Huffman树的非叶子节点向量进行逻辑运算,得到目标链接的Huffman树路径,并计算损失值和梯度,然后采用随机梯度上升的方法对参数进行迭代更新,最后得到训练好的超链接信息矩阵;
采用所述Huffman树训练得到链接信息矩阵的方法具体为:
步骤S11、按照出现频率对所有外链进行排序,取频率前的外链;
步骤S12、按照出现频率对外链建一棵Huffman树;
步骤S13、为Huffman树上的每个节点随机初始化一条对应k维的初始向量;
步骤S14、对于每条外链,按设定的上下文窗口大小预测外链在Huffman树上的编号;
步骤S15、根据Huffman树的路径上节点的向量计算Loss值和Gradient,运用随机梯度上升法求最大值;
步骤S16、根据梯度和学习率更新外链对应的向量及其他相关参数;
步骤S17、返回步骤S14;
步骤S18、最终Huffman树的叶子节点对应的向量就是最终的外链对应的向量。
2.根据权利要求1所述的方法,其特征在于,所述文字信息矩阵的训练方法包括:
对网页中的文字信息进行分词;
通过word2vec,将每个词转换为词特征向量;
将各词特征向量直接拼接后得到文字信息矩阵。
3.根据权利要求1所述的方法,其特征在于,所述URL信息矩阵的训练方法包括:
统计URL的关键词语料库;
比较语料库与文字信息特征矩阵维数大小;
若小于,则重复语料库,直到长度与特征矩阵维数相同;若大于,则调整特征矩阵维数使与语料库长度相同;
建立一个维数与语料库长度相同的1行向量,若URL中出现语料库中的关键词,则将该位置元素置为1,其它位置置为0。
4.一种网站分类系统,其特征在于,所述系统包括:
信息矩阵提取单元,用于将网页所含的文字、超链接及域名信息分别训练形成文字信息矩阵、超链接信息矩阵和URL信息矩阵拼接组成输入层特征矩阵;
卷积层生成单元,用于提取上述输入层特征矩阵的列特征向量个数及特征向量维数,生成卷积层;
池化处理单元,将卷积得到的列向量最大值提出并池化处理,获得和卷积核维数相同的行向量;
输出单元,将池化层输出的向量添加softmax函数,并输出;
其中,所述信息矩阵提取单元包括超链接信息矩阵训练单元,用于从网页里的超链接信息进行训练,所述超链接信息矩阵训练单元包括输入层、隐含层和输出层,其中,
所述输入层输入输入设定窗口大小为2*n内的链接关系的K维向量;
所述隐含层将输入层的向量进行求和计算得到一结果向量;
所述输出层,利用网页中出现的链接关系作为叶子节点建立一个Huffman树模型;将得到的结果向量和Huffman树的非叶子节点向量进行逻辑运算,得到目标链接的Huffman树路径,并计算损失值和梯度,然后采用随机梯度上升的方法对参数进行迭代更新,最后得到训练好的超链接信息矩阵;
其中,采用所述Huffman树训练得到链接信息矩阵的方法具体为:
步骤S11、按照出现频率对所有外链进行排序,取频率前的外链;
步骤S12、按照出现频率对外链建一棵Huffman树;
步骤S13、为Huffman树上的每个节点随机初始化一条对应k维的初始向量;
步骤S14、对于每条外链,按设定的上下文窗口大小预测外链在Huffman树上的编号;
步骤S15、根据Huffman树的路径上节点的向量计算Loss值和Gradient,运用随机梯度上升法求最大值;
步骤S16、根据梯度和学习率更新外链对应的向量及其他相关参数;
步骤S17、返回步骤S14;
步骤S18、最终Huffman树的叶子节点对应的向量就是最终的外链对应的向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恒安嘉新(北京)科技股份公司,未经恒安嘉新(北京)科技股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711167799.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种产品信息展示方法和系统
- 下一篇:数据库扩展控制方法及其控制系统