[发明专利]一种基于机器学习和相似度评分的分类方法在审
申请号: | 202011507226.2 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112819027A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 杨胜齐;李然;谢文俊;赵鹏远 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 相似 评分 分类 方法 | ||
1.一种基于机器学习和相似度评分机制的数据分类的方法,其特征在于,步骤如下:
步骤1:将商品数据集归一化处理;
步骤2:将商品数据集划分为训练数据集和测试数据集;
步骤3:将训练数据集通过基于随机梯度下降法的权重计算模块获取各特征权重;训练数据集中的特征包括销售排名、上架时长、最高价格、最低价格、月均销量、商品收藏量、商品回购率、商品所属分类中排名、商品正面评论数量和商品负面评价数量,将这几个特征通过随机梯度下降法获取各特征权重;商品质量评价结果作为分类标签;
步骤4:对步骤3获得的特征权重判断模块,根据判断结果删除原始数据集中对应特征;
步骤5:按照特征权重判断模块标记结果删除训练数据集和测试数据集的特征;
步骤6:将新的训练数据集重新的输入通过Logistic方法进行分类,并将Logistic方法的分类过程保存为模型;
步骤7:将新训练数据集中数据输入保存模型中,将本次判断结果与新训练数据集中标签结果输入对比模块,根据对比模块结果划分判断正确数据集与判断错误数据集;
步骤8:将判断错误数据集与判断正确数据集输入基于欧几里得距离公式的相似度评估与判断模块,输出每条判断错误数据集相似度评估后的判断结果;
步骤9:根据每条判断错误数据集的相似度评分集合S对错误数据进行判定;
所描述各模块实现为:
权重计算模块:将训练数据集输入本模块计算特征权重,计算方式如下:
ωt+1=ωt+η[yi-y(xi)]xi (2)
式(1)y为sigmoid函数,xi和yi表示训练数据集中的数据特征和对应的数据标签,ω表示当前的权重向量;式(2)中,首先随机产生一个初始值ω0,然后通式(2)不断迭代从而求得ω的值,其中ωt为上一时刻的ω值,ωt+1为当前时刻的ω,η为给定步长,每次迭代都从所有样本中随机抽取一个(xi,yi)来代入式(2),通过不断地修改t+1时刻的ω,从而最后靠近到达取得最大值的点,即不断进行迭代,直到梯度等于0为止;
判断模块:对输入的各特征权重比较大小,将绝对值小于等于0.05的特征标记为可删除项;
对比模块:对输入的判断结果与新训练数据集中标签结果进行对比,判断结果与实际标签结果相同的为正确项,划分为判断正确数据集中;判断结果与实际标签结果不相同的为错误项,划分为判断错误数据集中;
相似度评估与判断模块:将一条判断错误数据集中数据与判断正确数据集每条数据进行相似度评估计算,计算方式如下:
Zj=di/max(D) (4)
sj=Zj-1 (5)
式(3)中dk为该条错误数据与判断正确数据集中每条数据计算获得的加权后欧几里得距离,k的最大值为判断正确数据集中数据条数,βi为对应特征权重,xi和X*i分别为该条错误数据的各项特征值和判断正确数据集的各项特征值,n表示特征的数量,i表示当前计算为第i个特征;式(4)中D为式(3)中获得的该条判断错误数据集与每条判断正确数据集中数据计算距离dk的集合,j表示判断错误错误数据集中的数据,Zj表示一个距离在该条距离所在的集合中的映射位置;式(5)中sj为根据距离获得的相似度评分,并将评分放入集合S中。
2.根据权利要求1所述的一种基于机器学习和相似度评分机制的数据分类的方法,其特征在于,步骤如下:
步骤1:将商品数据集归一化处理;
步骤2:将商品数据集划分为训练数据集和测试数据集;
步骤3:训练数据集中的特征包括销售排名、上架时长、最高价格、最低价格、月均销量、商品收藏量、商品回购率、商品所属分类中排名、商品正面评论数量和商品负面评价数量,将这几个特征通过随机梯度下降法获取各特征权重;和商品质量评价结果作为分类标签;
权重获得方法具体为:将训练数据集输入本模块计算特征权重,计算方式如下:
ωt+1=ωt+η[yi-y(xi)]xi (2)
式(1)y为sigmoid函数,xi和yi表示训练数据集中的数据特征和对应的数据标签,ω表示当前的权重向量;式(2)中,首先随机产生一个初始值ω0,然后通式(2)不断迭代从而求得ω的值,其中ωt为上一时刻的ω值,ωt+1为当前时刻的ω,η为给定步长,大小为0.00003,每次迭代都从所有样本中随机抽取一个(xi,yi)来代入式(2),通过不断地修改t+1时刻的ω,从而最后靠近到达取得最大值的点,即不断进行迭代,直到梯度等于0为止;共包括10种特征,根据步骤3可获得一组包含10个数值的权重以及一个偏置量数值;
步骤4:对步骤3获得的各特征权重输入判断模块,根据判断结果删除原始数据集中对应特征;
的判断模块具体实现为对输入的各特征权重比较大小,将绝对值小于等于0.05的特征标记为可删除项,经过权重判断,特征上架时长、最高价格、最低价格的权重绝对值低于0.05,在后续计算过程中删除这三个特征;
步骤5:按照特征权重判断模块标记结果删除训练数据集和测试数据集的特征;
步骤6:将新的训练数据集重新的输入通过Logistic方法进行分类,并将Logistic方法的分类过程保存为模型;
步骤7:将新训练数据集中数据输入保存模型中,将本次判断结果与新训练数据集中标签结果输入对比模块,根据对比模块结果划分判断正确数据集与判断错误数据集;
对比模块具体实现为对输入的判断结果与新训练数据集中标签结果进行对比,判断结果与实际标签结果相同的为正确项,划分为判断正确数据集中;判断结果与实际标签结果不相同的为错误项,划分为判断错误数据集中;
步骤8:将判断错误数据集与判断正确数据集输入基于欧几里得距离公式的相似度评估与判断模块,输出每条判断错误数据集相似度评估后的判断结果,判断错误的数据表示为(xi,yi),判断正确数据集表示为[X*,Y*];
相似度评估与判断模块具体实现为将一条判断错误数据集中数据与判断正确数据集每条数据进行相似度评估计算,计算方式如下:
Zj=di/max(D) (4)
sj=Zj-1 (5)
式(3)中dk为该条错误数据与判断正确数据集中每条数据计算获得的加权后欧几里得距离,k的最大值为判断正确数据集中数据条数,βi为对应特征权重,xi和X*i分别为该条错误数据的各项特征值和判断正确数据集的各项特征值,n表示特征的数量,i表示当前计算为第i个特征;式(4)中D为式(3)中获得的该条判断错误数据集与每条判断正确数据集中数据计算距离dk的集合,j表示判断错误错误数据集中的数据,Zj表示一个距离在该条距离所在的集合中的映射位置;式(5)中sj为根据距离获得的相似度评分,并将评分放入集合S中;
步骤9:根据每条判断错误数据集的相似度评分集合S对错误数据进行判定;
结果判定过程为通过高斯函数获得评分S的加权W,并根据加权获得最终结果,计算过程如下:
式(6)a是曲线的高度,b是曲线中心线在x轴的偏移,c是半峰宽度,di代表相似度评分第i高的判断正确数据集的值;式(7)中Wi代表其权重,Y是预测的结果,yi是真实值的结果,k表示判断正确数据集的数量;
步骤10:将已完成商品质量判定结果加入判断正确数据集,完善判断模型;
步骤11:将测试数据集中商品信息输入判断模型获得商品质量分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011507226.2/1.html,转载请声明来源钻瓜专利网。