[发明专利]一种案例推理分类器案例检索方法在审
申请号: | 201910582920.1 | 申请日: | 2019-07-01 |
公开(公告)号: | CN110263119A | 公开(公告)日: | 2019-09-20 |
发明(设计)人: | 代祖华;徐进;李克龙;王玉环;李晓婷;李泓毅;张光辉;周安伟 | 申请(专利权)人: | 西北师范大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35 |
代理公司: | 西安合创非凡知识产权代理事务所(普通合伙) 61248 | 代理人: | 于波 |
地址: | 730070 甘肃*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 案例检索 分类器 案例推理 案例库 决策树 分簇 推理 计算时间复杂度 规约 案例特征 分类能力 检索目标 实验数据 索引策略 特征评价 特征选择 特征训练 信息增益 选择信息 传统的 数据集 加权 算法 改进 归纳 投票 研究 | ||
本发明公开了一种案例推理分类器案例检索方法,包括:S1,案例库规约特征选择;S2,C4.5算法与案例库分簇决策树训练;S3,加权投票KNN方法。本发明对案例推理分类器的案例检索方法进行了改进研究:提出在近邻案例检索中集成使用归纳索引策略的方法,采用信息增益比率的特征评价方法,选择信息增益率较显著的特征训练案例库分簇决策树;案例检索时,首先依据分簇决策树检索目标案例对应簇,然后在案例簇内进行近邻案例检索。开源数据集的实验数据表明:与传统的CBR模型相比,本发明改进的模型能够充分利用案例特征的分类能力进行案例检索,有效降低CBR推理分类器的计算时间复杂度,改善了推理准确性。
技术领域
本发明具体涉及案例推理方法,具体涉及一种改进的案例推理分类器案例检索方法。
背景技术
案例推理(Case-based reasoning,CBR) 是人工智能领域一种类比求解问题方法,它起源于从认知科学角度对人类的推理和学习机制进行的探索研究,20世纪80年代由美国耶鲁大学的认知科学和人工智能专家罗杰•沙克(Roger Sehank))在动态记忆理论基础上提出,乔治亚理工学院珍妮•克洛德纳(Janel L.Kolodner)教授最早开发出应用CBR专家系统。用类比思想求解新问题(或称目标案例)的解法时,要回忆过去类似问题的经验案例(源案例) 解法进行推理。因此,案例推理系统的计算模型除了要存储经验案例数据和案例解法外,还应具有获取与目标案例相似经验案例的技能。在众多CBR系统结构中,广泛被采纳的是1994年由奥莫特(Aamodt)和普拉扎(Plaza)等建立的4R模型。4R模型把CBR视作一个循环过程,这一循环过程由检索(Retrieve)、重用(Reuse)、修正(Revise)和存储(Retain)四个阶段组成,即通过检索得到一个或几个相似的源案例;然后重用相应的解决方案或者以此为基础修正案例来解决新问题;最后,存储新案例供未来的问题求解使用。经过四十多年的发展,CBR技术已在医疗诊断、故障维护、军事决策、软件成本估算、财务危机预警、交通管理等领域体现出有效应用潜力。从这些领域,可以归纳出CBR可承担的智能推理任务有:解释问题、解决问题或预测问题等。解释型CBR的推理目标是通过比较和对比已经被分类的案例,来对一个新案例进行分类,例如疾病诊断、故障维护等。在大数据环境下,以知识库(案例库)为核心的CBR系统在复杂数据环境中的决策和推理能力仍有很大发展空间。
在CBR模型中,案例检索处于首位,检索策略合理与否直接影响案例推理系统的性能。常用案例检索方法主要有:近邻策略、归纳索引策略等,其中以案例间相似度为基础的近邻策略被广泛应用。近邻法采用案例特征的加权匹配来估计案例相似度,相似案例检索时间随案例库中案例个数增多而线性增长,适合于案例库较小的系统。对于规模较大的数据集,近邻案例检索策略容易造成内存不足及运算时间过长的问题。如果在分类之前,先过滤掉案例库中与目标案例相关度不高的部分样本,就可以在不影响最终分类精度的条件,使得这一问题得到解决。归纳索引法需要确定案例特征的分类能力,以构建出决策树将案例库分割成簇。决策树结构的复杂性与案例特征数量成正比。案例匹配时,自上而下遍历决策树,将目标案例特征值同决策树节点进行比较,可快速确定目标案例相似的源案例包含在树的哪个部分。两种方法都要利用案例特征确定案例相似度或构造决策树。CBR系统设计中,如果利用现有案例特征设计出的CBR分类器效果不令人满意,通常要考虑增加新特征以期区分利用现有特征容易被混淆的案例类别,以计算时间复杂度为代价,改善分类器准确性。特征扩增导致案例检索计算复杂度增加,但实验中发现,少量增加案例特征,将会改善分类器准确率,当案例特征维数增加到某一个临界点后,继续增加案例特征反而会导致(线性)分类器的分类性能变差,这种现象称为“休斯(Hughes)”现象或者“休斯”效应。为了缓解“休斯”现象,人们提出许多方法以改进CBR分类器,如李锋刚等人用基于熵的属性约简技术,设计5种方案考察2种特征选择策略对案例分类性能影响,该项研究结果表明,约简后的案例集有更好的分类性能。案例特征约简减少了案例近邻检索时的数据存储需求,提高CBR案例检索效率,却违背了CBR应用中扩展案例特征的初衷,不利于稀疏数据的检索,相应的研究成果并未考察大规模数据集上的分类性能。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北师范大学,未经西北师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910582920.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:智慧建筑集成管理系统
- 下一篇:语料标注方法及装置