[发明专利]一种网站行业类型识别的方法、系统及设备在审
申请号: | 201910768867.4 | 申请日: | 2019-08-20 |
公开(公告)号: | CN110472131A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 罗毓环;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/955 |
代理公司: | 11227 北京集佳知识产权代理有限公司 | 代理人: | 王晓坤<国际申请>=<国际公布>=<进入 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 行业类型 可信度 统计维度 网站 分析 可信度计算 模型计算 申请 错误数据分析 可读存储介质 人工成本 准确率 验证 | ||
1.一种网站行业类型识别的方法,其特征在于,包括:
获取待分析域名;
计算所述待分析域名在每个统计维度下的统计维度值;
根据每个所述统计维度值通过可信度计算模型计算所述待分析域名在每个行业的可信度;
选择所述可信度最高的行业作为所述待分析域名的行业类型。
2.根据权利要求1所述的方法,其特征在于,在根据每个所述统计维度值通过可信度计算模型计算所述待分析域名在每个行业的可信度之前,还包括:
根据每个所述统计维度确定初始模型;
获取训练集;其中,所述训练集包括训练域名以及每个所述训练域名在每个所述行业的可信度;
利用所述训练集对所述初始模型进行训练,确定所述初始模型中每个所述统计维度的权重值,得到所述可信度计算模型。
3.根据权利要求1所述的方法,其特征在于,在选择所述可信度最高的行业作为所述待分析域名的行业类型之前,还包括:
判断是否存在所述可信度超过第一阈值的行业;
若是,则返回执行选择所述可信度最高的行业作为所述待分析域名的行业类型的步骤;
若否,则将所述待分析域名标记为非重点行业网站。
4.根据权利要求1所述的方法,其特征在于,在选择所述可信度最高的行业作为所述待分析域名的行业类型之前,还包括:
依据预设规则计算所述待分析域名的初始威胁系数;
根据所述待分析域名的初始威胁系数与可信度确定所述待分析域名的最终威胁系数;
确定所述最终威胁系数大于第二阈值的待分析域名为威胁域名。
5.一种网站行业类型识别的系统,其特征在于,包括:
第一获取模块,用于获取待分析域名;
第一计算模块,用于计算所述待分析域名在每个统计维度下的统计维度值;
第二计算模块,用于根据每个所述统计维度值通过可信度计算模型计算所述待分析域名在每个行业的可信度;
选择模块,用于选择所述可信度最高的行业作为所述待分析域名的行业类型。
6.根据权利要求5所述的系统,其特征在于,还包括:
第一确定模块,用于根据每个所述统计维度确定初始模型;
第二获取模块,用于获取训练集;其中,所述训练集包括训练域名以及每个所述训练域名在每个所述行业的可信度;
训练模块,用于利用所述训练集对所述初始模型进行训练,确定所述初始模型中每个所述统计维度的权重值,得到所述可信度计算模型。
7.根据权利要求5所述的系统,其特征在于,还包括:
判断模块,用于判断是否存在所述可信度超过第一阈值的行业;
返回模块,用于若是,则返回所述选择模块执行选择所述可信度最高的行业作为所述待分析域名的行业类型的步骤;
标记模块,用于若否,则将所述待分析域名标记为非重点行业网站。
8.根据权利要求5所述的系统,其特征在于,还包括:
第三计算模块,用于依据预设规则计算所述待分析域名的初始威胁系数;
第二确定模块,用于根据所述待分析域名的初始威胁系数与可信度确定所述待分析域名的最终威胁系数;
第三确定模块,用于确定所述最终威胁系数大于第二阈值的待分析域名为威胁域名。
9.一种网站行业类型识别设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述网站行业类型识别的方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述网站行业类型识别的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910768867.4/1.html,转载请声明来源钻瓜专利网。