[发明专利]一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法在审
申请号: | 201811105084.X | 申请日: | 2018-09-21 |
公开(公告)号: | CN108966330A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 高岭;赵子鑫;袁璐;张晓;任杰;王海;党从心;秦晨光 | 申请(专利权)人: | 西北大学 |
主分类号: | H04W52/02 | 分类号: | H04W52/02;G06N99/00 |
代理公司: | 西安西达专利代理有限责任公司 61202 | 代理人: | 刘华 |
地址: | 710069 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 环境状态 能耗优化 音乐播放器 测试手机 动态调节 搜索策略 移动端 最优解 电池功率 动态调整 动作集合 动作空间 模型变化 求解模型 设备获取 网络信号 网络状态 学习过程 移动设备 用户体验 状态空间 最优策略 时间段 迭代 下载 能耗 采集 检测 音乐 | ||
一种基于Q‑learning的移动端音乐播放器动态调节能耗优化方法,在不同的网络状态下进行在线听歌,检测测试手机电池功率,测试手机收集每个时间段网络信号强度,整理出用户的环境状态,建立Q‑learning模型,根据所采集到的环境状态建立Q‑learning状态空间,其次建立Q‑learning模型的动作集合,建立Q‑learning动作空间,仿真Q‑learning模型变化过程,寻找Q值最优动作;MATLAB仿真Q‑learning模型,运用最优解搜索策略,求解模型的最优解;设备获取到的环境状态的各个值,利用Q学习的搜索策略,根据Q值不断选择最佳动作,达到能耗优化。在Q‑learning学习过程中通过Q值的迭代找到最优策略,动态调整下载的音乐质量的高低,选择最佳质量的音频,在满足用户体验的情况下尽可能降低移动设备的能耗。
技术领域
本发明属于计算机网络通信技术领域,具体涉及一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法。
背景技术
随着移动互联网的快速发展,移动端各方面技术不断提升,服务的场景越来越丰富,移动的数据量越来越大。移动网络的高速发展与wifi的普及为人们带来了便利的同时也降低了通讯成本,丰富了日常生活。移动端应用多种多样,功能也越来越强大,处理器越来越快,能让手机现有功能体验更优,同时带来全新的功能,处理器的进步也为手机带来了如沉浸式VR体验、机器学习等新的功能。人们对于手机性能的追求是无止尽的,性能的攀升必将受到市场的反馈,进而导致开发者进一步对性能的压榨。伴随着性能的升级,移动端的设备的使用频率提升,人们开始频繁手机充电与依赖手机充电宝。在关注性能和便利性的同时手机能耗的问题也暴露出来。硬件方面,手机屏幕尺寸的增大,CPU运行频率增加都会更加消耗手机电量,软件方面,更加耗电的游戏,丰富的社交app都会进一步导致移动端电池的消耗。这么多年来,即便智能手机的电池越做越大、电池储电材料升级,各大厂商们在手机电池续航方面的优化也越来越好,手机的续航却无论如何也提不起来。“一天一充”,放在今天,基本没法做到。
在我们的日常生活中,听音乐是再寻常不过的事了,随着wifi的普及和大面积覆盖,手机运营商的流量的升级,网速的提升,人们更青睐“云”音乐播放器,在线听歌,节省手机内存的同时也能提升用户体验,比如可以个性化推荐,收听音乐电台,在线音乐播放器也更适合听高质量音乐,不会因为音频质量太大占内存而苦恼。高质量音频提升用户体验的同时也造成了手机高能耗,运算能力等问题,人们听音乐时往往会会忽略手机网络状态,手机剩余电量。针对这种问题,我们从软件级别进行优化,提出了一种基于强化学习Q-learning的能耗优化的模型。在介绍Q-learning之前我们需要简单介绍一下强化学习,强化学习是一种重要的机器学习方法,是一种智能体从环境到行为的映射学习。在智能控制机器人,预测分析等方面有许多应用。
如图2所示,Q-learning是一种无监督无模型的在线强化学习方法,在Q-learning算法中智能体无时无刻地与环境交互来计算出最佳的方案,根据一次次的迭代,智能体目的是根据当前状态就能寻找到最大化累计回报的动作。Q-learning中智能体与外界环境的交互可以看作是一个马尔科夫决策过程,其有一套统一的模型,一般用一个四元组(S,A,P,R)来表示,s为智能体所处的环境状态集合,A表示可以执行的动作集合,P表示状态转移概率矩阵,R表示回报,状态转移到状态执行了动作之后从外界获得的收益。在每一轮迭代中,智能体通过不断的试错,找到每个状态最佳的策略π*(s)A。其最大期望的长期回报的最大值为:
Q学习的优点在于因为它是无模型强化学习,所以可以在R(s,a)与P(a)未知的情况下,通过Q值的迭代找到最优策略。其中将策略π下的每对状态和对应的动作与一个“Q”关联:
Q的值经过一定迭代得到,其规则为:
其中,为学习速率,范围是0到1,越大则说明算法收敛越快,随着不断的迭代,递减到0,Q将以概率1收敛到最优值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811105084.X/2.html,转载请声明来源钻瓜专利网。