[发明专利]一种基于文本主题的网页暗链检测方法和装置有效
申请号: | 201911224958.8 | 申请日: | 2019-12-03 |
公开(公告)号: | CN111079042B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 范如;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/958;G06F40/289;G06F40/30 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 谢玲 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 主题 网页 检测 方法 装置 | ||
1.一种基于文本主题的网页暗链检测方法,其特征在于,包括:
获取待检测网页,并基于所述待检测网页的文本信息构建LDA文档,其中,所述LDA文档中包含所述待检测网页的文本信息经过分词处理之后得到的分词集合;
基于所述LDA文档,构建目标矩阵,其中,所述目标矩阵为基于所述待检测网页的文本信息的分词合集和所述待检测网页的文本信息的主题构建的矩阵;
基于所述目标矩阵,确定出所述待检测网页的文本信息的语义特征和所述待检测网页的文本信息的统计特征;
将所述待检测网页的文本信息的统计特征和所述待检测网页的文本信息的语义特征输入分类器,以确定所述待检测网页中是否存在网页暗链;
其中,基于所述待检测网页的文本信息构建LDA文档,包括:
对所述待检测网页的文本信息进行编码,得到所述待检测网页的第一目标文本;
删除所述待检测网页的第一目标文本中的目标字符,得到所述待检测网页的第二目标文本,其中,所述目标字符包含以下至少之一:预设停用词,标点符号;
对所述待检测网页的第二目标文本进行分词处理,得到所述待检测网页的分词集合Mj,将所述分词集合Mj确定为所述LDA文档,其中,Mj={wi|i=1,2.....,n},wi为所述第二目标文本中的第i个分词,n为所述第二目标文本包含的分词的数量;
其中,所述语义特征包括以下至少之一:任意两个主题之间的语义相似度,主题词汇分布倾斜度;
基于所述目标矩阵,确定出所述待检测网页的文本信息的语义特征和所述待检测网页的文本信息的统计特征,包括:
基于所述目标矩阵,确定出所述待检测网页的文本信息的主题分布集合Z(x),其中,Z(x)={x1,x2,...xk},k为所述待检测网页的文本信息的主题的数量;
结合预设算法和所述主题分布集合Z(x),计算出所述待检测网页的文本信息中任意两个主题之间的语义相似度,其中,预设算法为sim(xp,xq)为主题xp和主题xq之间的语义相似度,sim(wv,wu)为分词wv和分词wu之间的语义相似度,表示主题xp包含的分词的数量,主题xq包含的分词的数量,φ(wv|xp)表示分词wv为主题xq包含的分词的概率,φ(wu|xq)表示分词wu为主题xq包含的分词的概率;
结合所述目标矩阵、所述主题分布集合Z(x)和KL散度算法,计算出所述待检测网页的文本信息的KL散度值,并将所述KL散度值确定为所述主题词汇分布倾斜度;
基于所述目标矩阵确定出所述统计特征。
2.根据权利要求1所述的方法,其特征在于,所述统计特征包括以下至少之一:标题词汇数量,关键词原标签词汇数量,锚文本数量,网页压缩率,所述待检测网页中无标记文本的长度与所述待检测网页的文本信息的总长度之间的比值。
3.根据权利要求1所述的方法,其特征在于,基于所述LDA文档,构建目标矩阵,包括:
将所述LDA文档输入文本主题模型,得到所述目标矩阵,其中,所述目标矩阵包括以下至少之一:所述LDA文档的主题矩阵,每个主题对应的分词构建的矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911224958.8/1.html,转载请声明来源钻瓜专利网。