[发明专利]一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法在审

专利信息
申请号: 201811105084.X 申请日: 2018-09-21
公开(公告)号: CN108966330A 公开(公告)日: 2018-12-07
发明(设计)人: 高岭;赵子鑫;袁璐;张晓;任杰;王海;党从心;秦晨光 申请(专利权)人: 西北大学
主分类号: H04W52/02 分类号: H04W52/02;G06N99/00
代理公司: 西安西达专利代理有限责任公司 61202 代理人: 刘华
地址: 710069 陕西*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 环境状态 能耗优化 音乐播放器 测试手机 动态调节 搜索策略 移动端 最优解 电池功率 动态调整 动作集合 动作空间 模型变化 求解模型 设备获取 网络信号 网络状态 学习过程 移动设备 用户体验 状态空间 最优策略 时间段 迭代 下载 能耗 采集 检测 音乐
【说明书】:

一种基于Q‑learning的移动端音乐播放器动态调节能耗优化方法,在不同的网络状态下进行在线听歌,检测测试手机电池功率,测试手机收集每个时间段网络信号强度,整理出用户的环境状态,建立Q‑learning模型,根据所采集到的环境状态建立Q‑learning状态空间,其次建立Q‑learning模型的动作集合,建立Q‑learning动作空间,仿真Q‑learning模型变化过程,寻找Q值最优动作;MATLAB仿真Q‑learning模型,运用最优解搜索策略,求解模型的最优解;设备获取到的环境状态的各个值,利用Q学习的搜索策略,根据Q值不断选择最佳动作,达到能耗优化。在Q‑learning学习过程中通过Q值的迭代找到最优策略,动态调整下载的音乐质量的高低,选择最佳质量的音频,在满足用户体验的情况下尽可能降低移动设备的能耗。

技术领域

发明属于计算机网络通信技术领域,具体涉及一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法。

背景技术

随着移动互联网的快速发展,移动端各方面技术不断提升,服务的场景越来越丰富,移动的数据量越来越大。移动网络的高速发展与wifi的普及为人们带来了便利的同时也降低了通讯成本,丰富了日常生活。移动端应用多种多样,功能也越来越强大,处理器越来越快,能让手机现有功能体验更优,同时带来全新的功能,处理器的进步也为手机带来了如沉浸式VR体验、机器学习等新的功能。人们对于手机性能的追求是无止尽的,性能的攀升必将受到市场的反馈,进而导致开发者进一步对性能的压榨。伴随着性能的升级,移动端的设备的使用频率提升,人们开始频繁手机充电与依赖手机充电宝。在关注性能和便利性的同时手机能耗的问题也暴露出来。硬件方面,手机屏幕尺寸的增大,CPU运行频率增加都会更加消耗手机电量,软件方面,更加耗电的游戏,丰富的社交app都会进一步导致移动端电池的消耗。这么多年来,即便智能手机的电池越做越大、电池储电材料升级,各大厂商们在手机电池续航方面的优化也越来越好,手机的续航却无论如何也提不起来。“一天一充”,放在今天,基本没法做到。

在我们的日常生活中,听音乐是再寻常不过的事了,随着wifi的普及和大面积覆盖,手机运营商的流量的升级,网速的提升,人们更青睐“云”音乐播放器,在线听歌,节省手机内存的同时也能提升用户体验,比如可以个性化推荐,收听音乐电台,在线音乐播放器也更适合听高质量音乐,不会因为音频质量太大占内存而苦恼。高质量音频提升用户体验的同时也造成了手机高能耗,运算能力等问题,人们听音乐时往往会会忽略手机网络状态,手机剩余电量。针对这种问题,我们从软件级别进行优化,提出了一种基于强化学习Q-learning的能耗优化的模型。在介绍Q-learning之前我们需要简单介绍一下强化学习,强化学习是一种重要的机器学习方法,是一种智能体从环境到行为的映射学习。在智能控制机器人,预测分析等方面有许多应用。

如图2所示,Q-learning是一种无监督无模型的在线强化学习方法,在Q-learning算法中智能体无时无刻地与环境交互来计算出最佳的方案,根据一次次的迭代,智能体目的是根据当前状态就能寻找到最大化累计回报的动作。Q-learning中智能体与外界环境的交互可以看作是一个马尔科夫决策过程,其有一套统一的模型,一般用一个四元组(S,A,P,R)来表示,s为智能体所处的环境状态集合,A表示可以执行的动作集合,P表示状态转移概率矩阵,R表示回报,状态转移到状态执行了动作之后从外界获得的收益。在每一轮迭代中,智能体通过不断的试错,找到每个状态最佳的策略π*(s)A。其最大期望的长期回报的最大值为:

Q学习的优点在于因为它是无模型强化学习,所以可以在R(s,a)与P(a)未知的情况下,通过Q值的迭代找到最优策略。其中将策略π下的每对状态和对应的动作与一个“Q”关联:

Q的值经过一定迭代得到,其规则为:

其中,为学习速率,范围是0到1,越大则说明算法收敛越快,随着不断的迭代,递减到0,Q将以概率1收敛到最优值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811105084.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top