[发明专利]一种基于关联规则算法及朴素贝叶斯法的葡萄酒分类方法在审
申请号: | 201711464283.5 | 申请日: | 2017-12-28 |
公开(公告)号: | CN107977687A | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 何波;章宏远;闫河 | 申请(专利权)人: | 重庆理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 重庆博凯知识产权代理有限公司50212 | 代理人: | 黄河 |
地址: | 400054 重*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关联 规则 算法 朴素 贝叶斯法 葡萄酒 分类 方法 | ||
技术领域
本发明属于葡萄酒分类技术领域,具体涉及一种基于关联规则算法及朴素贝叶斯法的葡萄酒分类方法。
背景技术
贝叶斯算法实际上是一种分类方法,跟统计学中通过计算概率来对所统计的数据进行分类的方法类似。而朴素贝叶斯算法是在贝叶斯定理的基础上,降低了待分类项属性值之间独立性假设的一种算法。在所有的机器学习分类算法里面,朴素贝叶斯算法在很大程度区别于其他的分类算法。常见的机器学习分类算法有KNN,Logistic回归,SVM支持向量机,决策树等,对于这些算法,它们往往是通过学习得出特征输出y和特征项x直接的关系,或者通过决策函数和条件分布来分类,过程往往十分的复杂。相对于这些分类算法,朴素贝叶斯分类算法具有简单、易用并且效率高的优势,并且在一些领域的分类问题中发挥着完全不弱于神经网络、决策树的分类能力。简而言之,朴素贝叶斯算法的思想就是假设待分类项的属性之间相互独立,并根据先验概率计算变量X属于某个类别的后验概率,其中先验概率是指事件发生前的预判概率,一般是单独事件概率,后验概率是指基于先验概率求得的反向条件概率。朴素贝叶斯模型不同于决策树模型,它源自于古典数学理论,有着稳定的分类效率。
Apriori算法(关联规则算法)是基于频繁项集的关联分析,它通过逐层迭代搜索的方法找到频繁项集(即该项集的支持度大于设定的最小支持度阙值)来发现强关联规则。Apriori的算法思想可以分为两步:第一步是自连接获取候选集,就是从数据集D中找出“1-项集”的集合,记为L1,并按顺序链接找出“2-项集”,直到不能找到“K-项集”为止。第二步是剪枝步,是使任一频繁项集的所有非空子集也必须是频繁项集,反之如果某候选集的非空子集不是频繁的,那么该候选集也一定不是频繁项集。Apriori算法通过这两步减少了计算量,提高了算法的效率。
但是朴素贝叶斯之所以方便是因为它假设待分类项的n个维度都是相互独立的,而我们知道,在现实生活中这样的假设存在很大的漏洞,在很多情况下是不可能存在的,属性之间多多少少会存在一些联系,这就导致了朴素贝叶斯分类的结果出现偏差。例如在对葡萄酒进行分类的过程中,我们能够采集到葡萄酒的酒精浓度、水、密度、酸碱度、硫酸钾、果酸、甘油、单宁和色素、氯化钠、糖分、柠檬酸、挥发性酸等属性,然而并不是所有这些属性都会对葡萄酒类别的区分起到效果,而采用传统的朴素贝叶斯方法进行分类,会将所有这些属性都考虑在内来对葡萄酒进行分类,其分类结果容易出现偏差。
因此,如何在对葡萄酒进行分类的过程中,去掉那些对葡萄酒类别不产生影响的属性成为了本领域技术人员急需解决的问题。
发明内容
针对现有技术中存在的上述不足,本发明需要解决的问题是:如何在对葡萄酒进行分类的过程中,去掉那些对葡萄酒类别不产生影响的属性。
为解决上述技术问题,本发明采用了如下的技术方案:
一种基于关联规则算法及朴素贝叶斯法的葡萄酒分类方法,包括如下步骤:
采集待分类红酒的属性信息,其中,所述属性信息包括关键属性信息;
使用关联规则算法基于所述属性信息生成强关联规则;
使用朴素贝叶斯法基于所述强关联规则提取所述关键属性信息;
使用朴素贝叶斯计算所述关键属性信息的权重并对所述关键属性信息加权;
使用朴素贝叶斯法基于加权后的关键属性信息对所述待分类红酒进行分类。
优选地,所述采集待分类红酒的属性信息包括:
采集所述待分类红酒的初始信息;
对所述初始信息进行预处理生成所述属性信息。
优选地,所述对所述初始信息进行预处理生成所述属性信息包括:
清除初始信息中超出预设属性范围的异常属性信息;
使用补全所述初始信息中的缺失信息生成所述属性信息。
优选地,所述强关联规则包括第一关联规则及第二关联规则,其中,所述第一关联规则为属性信息与类别信息的关联规则,所述第二关联规则为不同属性信息之间的关联规则,所述使用朴素贝叶斯法基于所述强关联规则提取所述关键属性信息包括:
判断所述第一关联规则的置信度是否满足预设置信度范围;
当所述第一关联规则的置信度满足预设置信度范围的范围时,判断所述第一关联规则中的属性信息为关键属性信息;
当第二关联规则中的一个属性信息为关键属性信息时,判断所述第二关联规则中的所有属性信息均为关键属性信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆理工大学,未经重庆理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711464283.5/2.html,转载请声明来源钻瓜专利网。