[发明专利]一种基于机器学习的网络连接速度预测方法无效
申请号: | 200910102126.9 | 申请日: | 2009-08-13 |
公开(公告)号: | CN101634995A | 公开(公告)日: | 2010-01-27 |
发明(设计)人: | 徐颂华;江浩;金涛;刘智满;潘云鹤 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/08;H04L12/26 |
代理公司: | 杭州求是专利事务所有限公司 | 代理人: | 张法高 |
地址: | 310027*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 网络 连接 速度 预测 方法 | ||
技术领域
本发明涉及计算机搜索与万维网技术领域,尤其涉及一种基于机器学习的网络连接速度预测方法。
背景技术
近年来,出现了一系列的研究活动,以研究个性化或面向用户的搜索引擎和算法,如2007年发表在第十六届国际万维网会议(WWW’07:Proceedings ofthe 16th international conference on World Wide Web)上的一篇文章“个性化搜索策略的大规模评价与分析”(“A large-scale evaluation and analysis of personalizedsearch strategies”)。在2008年第二十三届美国人工智能学会会议上的一篇文章“基于用户关注时间的面向用户网页排序算法”(“A user-oriented webpage rankingalgorithm based on user attention time”)里,作者也提出建立一个面向用户的网页搜索引擎的个性化解决方案。本发明是用于专门优化个人用户的网络连接情况。在本发明中,我们最大限度的研究了面向用户的最佳网络连接选择,而这在以往的研究和发明工作很少被涉及到。
由于服务质量在网页浏览器和许多其他类型的网络接入中是非常关键的,任何可以提高服务质量的方法,都有巨大的商业价值。一些解决方案有人提出,有些则已投入商业使用。在这些解决方案,最成功的大型商业软件是利用简单的想法,会自动打开多个链接网络内容提供商做并行下载或访问。一个例子是一款叫做迅雷的软件(http://www.xunlei.com/),这是最受欢迎的中文软件之一。然而,使用这类程序,网页内容供应商的网站将受到巨大影响,因为它是由自动程序来访问网页,而不是最终用户,因此,在线广告在这些网页上将失去他们的价值。这个问题已导致正在进行提供此类服务质量改进服务的企业和网站内容供应商之间的一些法院案件。在本发明中,我们提出了一种基于数据挖掘的方法来预测用户网络状况,可以用于建立个性化网站推荐系统的重要考虑因素,从而为个人用户提供最佳的服务质量。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于机器学习的网络连接速度预测方法。
基于机器学习的网络连接速度预测方法包括以下步骤:
1)利用自定义浏览器,记录用户浏览过的网站的连接速度,作为训练集和测试集;
2)利用获得的网站连接速度,使用神经网络训练并预测用户与训练集中各网站的连接速度;
3)根据神经网络的预测误差减小状况,或者执行步骤4),或者将训练集分成更小的训练集并对每个训练集返回执行步骤2);
4)使用决策树测试神经网络的预测性能;
5)使用决策树和神经网络,预测用户与任何未知网站的连接速度。
所述的利用自定义浏览器,记录用户浏览过的网站的连接速度,作为训练集和测试集步骤:
(a)对用户访问过的每个网站,记录每次用户向网站发出访问请求到用户获得回应的时间间隔,记为网站的用户连接时间;
(b)对用户访问过的每个网站,记录每次用户从网站下载数据时的下载速度,记为网站的用户带宽;
(c)若用户多次访问网站,则以最近一周中或最近10次的用户连接时间的平均值作为网站的用户连接时间,以最近一周中或最近10次的用户带宽的平均值作为网站的用户带宽;
(d)从用户历史数据中随机选择10%作为测试集,其余90%作为训练集。
所述的利用获得的网站连接速度,使用神经网络训练并预测用户与训练集中各网站的连接速度步骤:
(e)建立人工神经网络,其输入为一个网站的特征数据:包括一个表示为32位整数的网络IP地址和1个取值在0~23之间的整数用于表示当前时间的小时数;其输出为2个实数,分别表示用户与网站的连接时间估计值和带宽估计值;
(f)将步骤(a)-(d)获得的用户连接时间和用户带宽历史数据作为训练集,使用反向传播算法训练步骤(e)所建立的神经网络,保存训练后的神经网络。
所述的根据神经网络的预测误差减小状况,或者执行步骤4),或者将训练集分成更小的训练集并对每个训练集返回执行步骤2)步骤:
(g)使用步骤(f)中训练后的神经网络预测在训练集中每个网站的用户连接时间和用户带宽,计算出网站的预测值与实际值之间的误差e:
e=t+Kb*b
其中t为用户连接时间的预测误差,单位为毫秒;b为用户带宽的预测误差,单位为千比特每秒;Kb为通常取值为200~1000的系数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910102126.9/2.html,转载请声明来源钻瓜专利网。