[发明专利]最小熵核密度估计器生成方法、装置和计算机可读存储介质在审
申请号: | 201811060759.3 | 申请日: | 2018-09-12 |
公开(公告)号: | CN109388784A | 公开(公告)日: | 2019-02-26 |
发明(设计)人: | 何玉林;蒋捷 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06F17/18 | 分类号: | G06F17/18 |
代理公司: | 深圳市恒申知识产权事务所(普通合伙) 44312 | 代理人: | 袁文英 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 核密度估计 宽度参数 目标函数 计算机可读存储介质 不确定性 健壮性 最小熵 减小 第一数据 迭代算法 一次迭代 迭代 构建 求解 预设 申请 | ||
一种最小熵核密度估计器生成方法、装置和计算机可读存储介质,以减小目标函数的不确定性和增强核密度估计器的健壮性。所述方法包括:针对第一数据集构建第一核密度估计器;确定求取所述窗口宽度参数h的最优值的目标函数;由第二核密度估计器和目标函数求解窗口宽度参数h的表达式;选取预设误差阈值ξ和窗口宽度参数h的初始值h0,采用迭代算法将窗口宽度参数h的值迭代到与前一次迭代所得h的值的绝对差值不大于ξ为止。本申请的技术方案减小了目标函数的不确定性和增强了核密度估计器的健壮性。
技术领域
本申请属于数据挖掘领域,尤其涉及一种最小熵核密度估计器生成方法、装置和计算机可读存储介质。
背景技术
估计未知分布数据的概率密度函数是数据挖掘领域的一项重要研究内容。经典的概率密度函数估计方法是核密度估计方法,又称Parzen窗口法,它利用核函数叠加的平均去拟合数据真实的概率密度函数,从而生成核密度估计器,以此估计未知分布数据的概率密度函数。
对于核密度估计器的构建而言,关键在于窗口宽度参数的选取:较大的窗口宽度将导致“过平滑”的密度估计,而较小的窗口宽度将导致“欠平滑”的密度估计。对于最优窗口宽度参数的选取,一般需要构建一个基于真实密度和估计密度误差最小化的目标函数。其中,有偏交叉验证核密度估计器(BiasedCross-ValidationBasedKernel DensityEstimator,BCV-KDE)是一种经典的未知分布数据集概率密度函数的估计器。BCV-KDE基于交叉验证的策略构建计算核密度估计器最优窗口宽度参数的目标函数,之后通过诸如梯度下降、不动点迭代、粒子群等优化算法确定核密度估计器的最优窗口宽度参数。
在BCV-KDE的目标函数中,真实密度是未知的,因此不得不通过交叉验证的策略去近似数据集的真实密度。而目标函数中已存在一个估计量(即估计密度),为了近似真实密度又必须引入新的估计量,这就相当于在未知中再次引入未知,从而增加了目标函数的不确定性和降低了核密度估计器的健壮性。
发明内容
本申请的目的在于提供一种最小熵核密度估计器生成方法、装置和计算机可读存储介质,以减小目标函数的不确定性和增强核密度估计器的健壮性。
本申请第一方面提供一种最小熵核密度估计器生成方法,所述方法包括:
针对第一数据集构建第一核密度估计器,所述第一核密度估计器含有值大于0的窗口宽度参数h;
确定求取所述窗口宽度参数h的最优值的目标函数,所述目标函数以第二核密度估计器为对数函数的变量,所述第二核密度估计器针对第二数据集构建,所述第二数据集为从所述第一数据集剔除任意一个数据构成;
由所述第二核密度估计器和目标函数求解所述窗口宽度参数h的表达式;
选取预设误差阈值ξ和所述窗口宽度参数h的初始值h0,采用迭代算法将所述窗口宽度参数h的值迭代到与前一次迭代所得h的值的绝对差值不大于所述ξ为止。
本申请第二方面提供一种最小熵核密度估计器生成装置,所述装置包括:
构建模块,用于针对第一数据集构建第一核密度估计器,所述第一核密度估计器含有值大于0的窗口宽度参数h;
确定模块,用于确定求取所述窗口宽度参数h的最优值的目标函数,所述目标函数以第二核密度估计器为对数函数的变量,所述第二核密度估计器针对第二数据集构建,所述第二数据集为从所述第一数据集剔除任意一个数据构成;
求解模块,用于由所述第二核密度估计器和目标函数求解所述窗口宽度参数h的表达式;
迭代模块,用于选取预设误差阈值ξ和所述窗口宽度参数h的初始值h0,采用迭代算法将所述窗口宽度参数h的值迭代到与前一次迭代所得h的值的绝对差值不大于所述ξ为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811060759.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:动态调整数据阶层的方法及数据视觉化处理装置
- 下一篇:筛选文本的方法和装置