[发明专利]一种URL的类别确定方法及装置有效
申请号: | 201710190117.4 | 申请日: | 2017-03-27 |
公开(公告)号: | CN106960040B | 公开(公告)日: | 2019-09-17 |
发明(设计)人: | 翟东旭;周素华;范敦球;叶晓虎 | 申请(专利权)人: | 北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/35 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100089 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种URL的类别确定方法及装置,用以解决现有技术中URL分类不准确的问题。所述方法包括:在待分类的URL对应的网页内容中,获取预设的每个特征对应的每个特征字段;针对每个特征字段,将该特征字段划分为至少一个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段的第一特征值;根据确定的所述待分类的URL对应的每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别。由于在本发明实施例中,待分类的URL对应的网页内容中每个特征字段的第一特征值,确定待分类的URL的类别,在一定程度上提高确定待分类的URL的类别的准确性。 | ||
搜索关键词: | 一种 url 类别 确定 方法 装置 | ||
【主权项】:
1.一种统一资源定位符URL的类别确定方法,其特征在于,所述方法包括:在待分类的URL对应的网页内容中,获取预设的每个特征对应的每个特征字段;针对每个特征字段,将该特征字段划分为至少一个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段的第一特征值;根据确定的所述待分类的URL对应的每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别;其中,预先确定每个词组在每个特征中的目标分类概率和非目标分类概率的过程包括:针对每个特征,识别包含该特征的样本URL的第一数量;将所述第一数量的样本URL中该特征对应的特征字段划分为至少一个第二词组;根据预先保存的每个词组所属的类别,确定每个第二词组所属的目标类别;针对每个第二词组,在所述第一数量的样本URL中识别特征对应的特征字段中包含该第二词组的样本URL的第二数量;识别所述第一数量的样本URL中属于所述目标类别的样本URL的第三数量,以及该第二数量的样本URL中属于所述目标类别的样本URL的第四数量;将所述第四数量与第三数量的第一比值确定为该第二词组在该特征中的目标分类概率;确定所述第二数量与第四数量的第一差值和第一数量与第三数量的第二差值,将所述第一差值与第二差值的第二比值确定为该第二词组在该特征中的非目标分类概率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司,未经北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710190117.4/,转载请声明来源钻瓜专利网。