[发明专利]一种优化特征权值的半监督聚类教学资产分类方法在审
申请号: | 201910871026.6 | 申请日: | 2019-09-16 |
公开(公告)号: | CN110766273A | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 孙曜;孙双平 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/20;G06F16/35 |
代理公司: | 33240 杭州君度专利代理事务所(特殊普通合伙) | 代理人: | 朱亚冠 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 资产 半监督聚类 成对约束 资产分类 特征项 聚类 集合 层次聚类 分类结果 权重计算 人工分类 向量空间 样本分类 样本特征 资产属性 半监督 聚类簇 特征权 无监督 挖掘 引入 主观 分类 教学 优化 表现 分析 监督 | ||
1.一种优化特征权值的半监督聚类教学资产分类方法,其特征在于包括以下步骤:
步骤一:获取教学资产样本,包括资产名称、资产属性集及资产词条信息;
步骤二:针对教学资产样本的特性,从不同的属性特征来源提取教学资产属性特征,引入教学资产的特征权值计算公式,计算对应的属性特征权值,得到教学资产样本的向量空间表示。
步骤三:对处理后的教学资产样本进行无监督的初始聚类,得到初始聚类簇;
步骤四:通过吸收经验知识,利用样本的成对约束集合对教学资产样本进行半监督层次聚类,以提高聚类效果的准确度;具体是:
S41:利用经验知识,设定样本集中的成对约束样本集合;
成对约束包括must-link约束和cannot-link约束;其中,must-link约束表示两个样本一定被分配到同一个簇,cannot-link约束代表两个样本一定被分到不同的簇;将某一类簇中的成对约束集合表示为M(S;d)和N(S;d);M(S;d)指在聚类簇S中与样本d具有must-link约束关系的样本的集合,N(S;d)指在聚类簇S中与样本d具有cannot-link约束关系的样本的集合;相应地,M(S;S′)表示在聚类簇S与聚类簇S′中所有具有must-link约束关系的样本的集合,N(S;S′)表示在聚类簇S与聚类簇S′中所有具有cannot-link约束关系的样本的集合;
S42:结合步骤三初始无监督聚类结果,利用成对约束信息改变聚类簇之间的距离;
S43:寻找两个距离最近的聚类簇,将距离最近的聚类簇合并为一个聚类簇;
S44:重复步骤S43,直到得到的聚类簇个数为设定的教学资产类别个数K;
步骤五:依据步骤四半监督层次聚类结果对待分类教学资产样本分类;
若待分类教学资产为已有教学资产,则按照半监督层次聚类结果将教学资产样本分类到所属的类别;若待分类教学资产为新增教学资产,则计算所述新增教学资产与K个教学资产类别的距离,依据距离比较结果确定K个所述教学资产类别中与待分类教学资产拥有最小距离的目标教学资产类别,将所述新增教学资产加入目标教学资产类别。
2.如权利要求1所述的一种优化特征权值的半监督聚类教学资产分类方法,其特征在于步骤二具体是:
S21提取教学资产属性特征
在进行资产属性特征提取时,首先按照资产名称、资产属性集及资产词条信息的优先级顺序提取最能描述教学资产样本的多个属性特征,合并语义相似属性特征,去除无关属性;
S22获取教学资产属性特征权值
将上述属性特征根据其来源,依据资产名称、资产属性集、资产词条信息的优先级顺序排序,设定不同的特征权重系数,教学资产的属性特征权值计算见公式:
其中ωij表示第j个属性特征在第i个教学资产样本中的权重值;α(j)为属性特征来源系数;SD(i)为第i个教学资产样本中包含的确指性属性特征个数;n为从教学资产样本集中提取到的所有属性特征个数;
S23采用向量空间模型来表示教学资产的属性特征,将选取的教学资产属性特征及其属性特征权值表示成特征向量的形式,即将教学资产看成多维向量空间的一个向量:
在此模型中,一个包含m个教学资产样本,n个属性特征的教学资产样本集合可以表示为向量空间:
C={d1,d2,…dm} 式(2)
每一个教学资产样本Di(1≤i≤m)可以表示为一个n维的行向量:
di=(ωi1,ωi2,…,ωin)T 式(3)
其中(1≤i≤m),T表示转置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910871026.6/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理