[发明专利]一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法在审
申请号: | 201811105084.X | 申请日: | 2018-09-21 |
公开(公告)号: | CN108966330A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 高岭;赵子鑫;袁璐;张晓;任杰;王海;党从心;秦晨光 | 申请(专利权)人: | 西北大学 |
主分类号: | H04W52/02 | 分类号: | H04W52/02;G06N99/00 |
代理公司: | 西安西达专利代理有限责任公司 61202 | 代理人: | 刘华 |
地址: | 710069 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 环境状态 能耗优化 音乐播放器 测试手机 动态调节 搜索策略 移动端 最优解 电池功率 动态调整 动作集合 动作空间 模型变化 求解模型 设备获取 网络信号 网络状态 学习过程 移动设备 用户体验 状态空间 最优策略 时间段 迭代 下载 能耗 采集 检测 音乐 | ||
1.一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法,其特征在于,包括以下步骤:
1)在不同的网络状态下进行在线听歌,通过专业仪器检测测试手机电池功率,测试手机收集每个时间段网络信号强度,整理出用户的环境状态,分别为网络信号强度值,时间状态,手机剩余电量数值;
2)建立Q-learning模型,根据步骤1)所采集到的环境状态建立Q-learning状态空间,其次建立Q-learning模型的动作集合,建立Q-learning动作空间,将网络状态定义为奖励值,仿真Q-learning模型变化过程,寻找Q值最优动作;
3)MATLAB仿真Q-learning模型,运用最优解搜索策略,求解模型的最优解;
4)设备通过系统获取到的环境状态的各个值,利用Q学习的搜索策略,根据Q值不断选择最佳动作,达到能耗优化。
2.根据权利要求1所述的一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法,其详细步骤如下:
1)步骤1所述的系统自动采集环境值:
在wifi环境下与4g环境下分别使用自主开发的移动端在线音乐播放器从服务器端在线听歌时,通过Monsoon Solutions检测测试手机电池功率,安卓自带API收集每个时间段网络信号强度,整理出用户的环境状态,分别为网络信号强度值,将网络信号分为五个等级,根据不同的dbm从高到低分为1,2,3,4,5五个等级,时间状态,将总时长化为若干时间点,手机剩余电量数值,将这三类采集到的环境状态,按格式整理排列,存储于手机本地,后上传至电脑;
2)建立Q-learning数学模型,根据步骤1)中所采集到的环境状态值作为Q-learning模型的状态集,其主要为三个值,网络信号等级值,手机剩余电量数值,时间点,其次建立Q-learning模型的动作集合,动作集合,状态转换的时候,我们会在其中选择一个相对应的最佳动作a;
3)将系统获取到的环境值输入MATLAB中进行仿真,其中Q-learning通过对周围环境的不断交互,用试错的方法进行不断尝试,智能体可以自主选择最佳动作目标,对于Q学习方法,采用贪婪算法,在任一状态下,以小概率选取动作a,以1-选择Q值为最大的动作,以此选择最优动作,生成最优状态;
4)在实际使用中,移动端听歌设备通过系统获取到的环境状态的各个值,用到了Q-learning学习的搜索策略,根据Q值不断选择最佳动作,也就是动态调节下载的音乐质量的高低,从而达到能耗优化的目的。
3.根据权利要求2所述的一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法,其特征在于,本模型中,根据网络信号强度来选择不同的动作,也就是播放器在线播放的不同的音频质量,按大小,格式分为了无损,高清,低清,也按等级划分,分别为3,2,1,本文奖励函数R(s,s’)表示为网络强度N时执行了动作a,状态由s转换到s’所获取的奖励值,定义为执行动作时的网络等级值为奖励值,当信号小于低清所需要的网络等级时,奖励值为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811105084.X/1.html,转载请声明来源钻瓜专利网。