[发明专利]通过网站跟踪识别因特网服务提供商的机器学习分类器在审
申请号: | 202080038760.5 | 申请日: | 2020-04-24 |
公开(公告)号: | CN113924563A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 拉维纳·乔杜里;詹姆斯·贝弗里奇;亚历山大·T·施韦尔姆;阿努迪特·维克拉姆 | 申请(专利权)人: | 邓白氏公司 |
主分类号: | G06F16/95 | 分类号: | G06F16/95;G06N20/00;G06N3/02;G06Q10/10 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 康建峰;李德山 |
地址: | 美国新*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 网站 跟踪 识别 因特网 服务 提供商 机器 学习 分类 | ||
1.一种由计算机系统执行的方法,所述计算机系统包括一个或更多个处理器以及计算机可读存储介质,所述计算机可读存储介质被编码有能够由所述处理器中的至少一个执行的指令,并且可操作地耦接至所述处理器中的至少一个,所述方法包括:
获得网站数据业务内容,所述网站数据业务内容包括网站的IP地址数据;
将所述IP地址数据映射到商业实体标识符,以识别与所述网站数据业务数据相关联的商业实体;
获得与所述商业实体标识符相关联的每个商业实体的属性数据,以识别与映射到所述IP地址数据的商业实体相关联的商业属性;
根据所述网站数据业务内容和所述属性数据生成训练数据集,用于训练因特网服务提供商(ISP)分类器以识别与所映射的网络业务数据相关联的ISP;
将所述ISP分类器应用于网站跟踪数据的数据库;以及
识别可归因于ISP的网站的网站业务。
2.根据权利要求1所述的方法,还包括:
根据映射到商业实体标识符的网站业务数据获得IP地址的匹配接受率;
根据来自与所述商业实体标识符匹配的网站业务数据的IP地址生成所述训练数据集。
3.根据权利要求2所述的方法,还包括:
用来自先前映射或匹配到其他商业实体的网站业务数据的先前识别的IP地址替换来自映射到所述商业实体标识符的网站业务数据的IP地址。
4.根据权利要求1所述的方法,还包括:
生成用于训练所述ISP分类器的模型;
在所述训练数据集上对所述模型进行训练;
确定经训练的模型是否准确地识别ISP;以及
在所述模型准确的情况下,将经训练的模型用作所述ISP分类器。
5.根据权利要求1所述的方法,其中,获得包括网站的IP地址数据的网站数据业务内容还包括:
将跟踪代码对象放置在要跟踪的网站上;
生成日志文件,所述日志文件识别由所述跟踪代码跟踪的所有IP和与所述IP相关联的cookie。
6.根据权利要求1所述的方法,其中,所述网络业务数据包括针对每个IP地址的在时间窗口内访问所述网站的访问计数、独特访问者和索引客户计数。
7.根据权利要求6所述的方法,其中,所述时间窗口包括:
选自以下的时间窗口:每周时间间隔、每两周间隔、每月间隔、每两月间隔和每季度间隔。
8.根据权利要求7所述的方法,其中,所述时间窗口包括:
所述每月间隔。
9.根据权利要求1所述的方法,其中,与所述商业实体标识符相关联的每个商业实体的属性数据包括企业统计结构数据。
10.根据权利要求9所述的方法,其中,所述属性数据的企业统计结构数据包括选自以下的企业统计结构数据:年销售额、行业代码和员工计数。
11.根据权利要求10所述的方法,其中,所述行业代码包括SIC代码、NAICS代码或两者。
12.根据权利要求4所述的方法,其中,用于训练所述ISP分类器的所述模型的特征集包括来自所述属性数据的企业统计结构数据和所述网络业务数据的特征,所述特征包括:NAICS、SIC、独特访问者、访问计数、员工计数、年销售额和索引客户计数。
13.根据权利要求4所述的方法,其中,所述模型包括选自以下的模型:决策树或梯度提升分类器。
14.根据权利要求13所述的方法,其中,所述模型包括梯度提升分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于邓白氏公司,未经邓白氏公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080038760.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多用途机器人臂的控制
- 下一篇:用于制造石墨烯膜的设备、方法和系统