[发明专利]一种基于改进聚类算法的不满意原因溯源方法在审
申请号: | 202111568863.5 | 申请日: | 2021-12-21 |
公开(公告)号: | CN114444568A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 徐珊珊;林克;陆向东;朱坚;王雷 | 申请(专利权)人: | 福建新大陆软件工程有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 福州市鼓楼区京华专利事务所(普通合伙) 35212 | 代理人: | 林燕 |
地址: | 350000 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 算法 不满意 原因 溯源 方法 | ||
1.一种基于改进聚类算法的不满意原因溯源方法,其特征在于:包括如下步骤:
步骤S10、获取大量的不满意数据,提取各所述不满意数据的特征数据,以构建第一特征数据集;
步骤S20、剔除所述第一特征数据集中的异常数据,得到第二特征数据集;
步骤S30、基于所述第二特征数据集选取初始聚类中心特征;
步骤S40、基于kmeans聚类算法以及所述初始聚类中心特征创建一聚类模型,利用所述聚类模型对第二特征数据集进行聚类,得到若干个聚类簇;
步骤S50、从各所述聚类簇中筛选出强区分度特征;
步骤S60、利用所述聚类模型将待溯源数据聚类至最近的聚类簇;
步骤S70、基于所述强区分度特征以及聚类簇从待溯源数据中溯源出不满意原因。
2.如权利要求1所述的一种基于改进聚类算法的不满意原因溯源方法,其特征在于:所述步骤S20具体包括:
步骤S21、设定所述第一特征数据集包含N个元素和M列特征,构建大小为N*M的矩阵;
步骤S22、遍历M列所述特征,分别计算各所述特征对应特征值的均值以及标准差,进而构建特征列均值集合{μ1,μ2,...,μm}和特征列标准差集合{σ1,σ2,...,σm};
步骤S23、基于各所述均值以及标准差分别计算每列特征的异常值上界和异常值下界;
步骤S24、基于所述异常值上界和异常值下界分别计算各特征的偏移度,并对各所述偏移度进行归一化;
步骤S25、对归一化后的各所述偏移度对特征进行排序得到排序值,统计各所述特征的出现次数,基于所述排序值以及出现次数计算各特征的异常得分,基于所述异常得分对第一特征数据集中的异常数据进行剔除,得到第二特征数据集。
3.如权利要求2所述的一种基于改进聚类算法的不满意原因溯源方法,其特征在于:所述步骤S23中,
所述异常值上界的计算公式为:异常值上界=μm+3*σm;
所述异常值下界的计算公式为:异常值下界=μm-3*σm。
4.如权利要求2所述的一种基于改进聚类算法的不满意原因溯源方法,其特征在于:所述步骤S24中,
所述偏移度的计算公式为:偏移度=|特征值-(μm±3*σm)|。
5.如权利要求2所述的一种基于改进聚类算法的不满意原因溯源方法,其特征在于:所述步骤S25中,
所述异常得分的计算公式为:异常得分=排序值*出现次数;
所述基于所述异常得分对第一特征数据集中的异常数据进行剔除具体为:
剔除所述异常得分的排名在前N*β的特征;其中β为剔除系数,且0<β<1。
6.如权利要求1所述的一种基于改进聚类算法的不满意原因溯源方法,其特征在于:所述步骤S30具体包括:
步骤S31、构建一与所述第二特征数据集包含相同内容的数据集D,计算所述数据集D中各元素两两间的距离,将所述距离最短的两个元素组合成一个样本集合Mi(0≤i≤k),并将对应的元素从所述数据集D中删除;
步骤S32、计算所述样本集合Mi中所有元素的均值,作为所述样本集合Mi的中心点;
步骤S33、分别计算所述数据集D中各元素与中心点的距离,将距离最近的元素加入所述样本集合Mi,并将对应的元素从所述数据集D中删除;
步骤S34、重新计算所述样本集合Mi中所有元素的均值以更新中心点;
步骤S35、判断所述中心点的取值是否大于等于α,若是,则进入步骤S36;若否,则进入步骤S33;其中α表示阈值系数,且0≤α<1;
步骤S36、判断i是否等于k,若是,则将所述中心点作为初始聚类中心特征;若否,则进入步骤S31;其中i表示样本集合的编号,k表示样本集合的总数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建新大陆软件工程有限公司,未经福建新大陆软件工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111568863.5/1.html,转载请声明来源钻瓜专利网。