[发明专利]一种应用于不完备序信息系统的属性约简方法在审
申请号: | 201810232868.2 | 申请日: | 2018-03-21 |
公开(公告)号: | CN108427760A | 公开(公告)日: | 2018-08-21 |
发明(设计)人: | 郑娜;王加阳 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N5/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 属性约简 信息系统 约简 贡献度 矩阵 知识发现技术 计算复杂度 属性添加 数据挖掘 问题转化 约束条件 证据理论 启发式 算法 分辨 应用 近似 集合 | ||
本发明公开了一种应用于不完备序信息系统的属性约简方法,属于数据挖掘与知识发现技术领域。本发明提出的属性约简算法解决了传统采用不可分辨矩阵的计算复杂度高等缺点,它结合了证据理论,将下近似约简问题转化为保持信任函数之和不变的问题,通过贡献度来选择信任约简核,并采用启发式的方式将相对贡献度最高的属性添加到约简集合中,直至满足约束条件。该方法缩短了不完备序信息系统的属性约简时间,提高了结果的准确性。
技术领域
本发明涉及一种应用于不完备序信息系统的属性约简,属于数据挖掘与知识发现技术领域。
背景技术
在现实生活中,由于数据获取的有限、数据测量的误差以及对数据的理解不够全面等原因,信息系统通常是不完备的。此外,很多属性是带有偏好信息的,比如说汽车的耗油量、产品的质量、投资回报率、学习成绩等等,这些属性值往往是带有偏好次序的。目前不完备序信息系统由于其本身的应用价值已经受到了广泛地关注。对于不完备序信息系统而言,其属性并不是具有相同的重要性,甚至有些属性是荣誉的,不必要的。与其他数据降维的方法相比,其优势在于能够保持其数据本身的语义特征。目前关于不完备序信息系统的属性约简问题主要是基于传统的不可分辨矩阵展开的,这种方法由于其计算复杂性以及计算量大,导致其不能够应用于大型数据。
证据理论是处理不确定性问题的重要工具,在决策分析、模式识别、社会计算、图像融合、安全分析、粒计算等领域得到了广泛的应用。它是在概率论的基础上发展起来的,与传统的概率论相比,它能更好的把握所研究对象的模糊性和不确定性。引入证据函数,将认知的“不确定性”和“未知不明”等概念区分开来,通过信任函数与似然函数构建信任区间,用不确定区间代替单个概率值来表示证据对不确定性问题的信任程度。由于证据理论与粗糙集之间存在着密切的联系,因此考虑将证据理论中的信任函数与似然函数引入到不完备序信息系统中,从而构建新的属性约简方法。
发明内容
本发明的目的是为了解决不完备序信息系统中属性约简复杂、难以计算以及难以应用大数据的问题,提出了一种新的基于证据理论的属性约简方法,通过信任函数之和判断是否达到属性约简的要求,根据贡献度来确定属性核,并通过相对贡献度来确定属性的删减。
本发明的技术方案是:
给定不完备序信息系统,根据优势关系来获取对该系统的抽象描述:在属性集B下,若则对象x优于对象y。
令则表示由属性集B得到的等于或者优于x的对象的集合,简称为x的优势类。
进而得到关于该优势关系的序上近似和序下近似,表示如下:
在此基础上,获取不完备序信息系统的基本概率分配函数、信任函数与似然函数:给定有序不完备信息系统S≥=(U,A,f),对于任意似然函数与信任函数分别对应于基于优势关系的上、下近似质量函数,具体如下:
相应的基本概率分配函数如下:
本发明是在信任函数之和的基础上得到的属性核,其信任函数之和计算如下:
其中,A是属性集合,表示由属性集合A所获得的优势类。
通过比较约简之后得到的信任之和与T之间的关系来确定是否达到最后结果,其计算方式为:
其中B表示约简后的属性集合。
此外,本发明要通过计算属性的贡献度来确定该属性是否属于属性核,计算方式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810232868.2/2.html,转载请声明来源钻瓜专利网。