[发明专利]一种样本特征的权重优化处理方法及装置在审
申请号: | 201910823348.3 | 申请日: | 2019-09-02 |
公开(公告)号: | CN110705589A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 董骐瑞 | 申请(专利权)人: | 贝壳技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 11002 北京路浩知识产权代理有限公司 | 代理人: | 苗晓静 |
地址: | 300457 天津市滨海新区经济技术开发*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 权重 负样本 相似度 优化处理 偏移量 正样本 正样本特征 样本 行为确定 样本特征 优化 个性化 反馈 | ||
本发明实施例公开了一种样本特征的权重优化处理方法及装置,方法包括:获取待优化样本,根据用户的反馈或行为确定所述待优化样本的正样本和负样本;计算正样本特征,并根据所述正样本特征,计算所述正样本中各个特征的内部相似度,以及所述负样本中各个特征的内部相似度;根据所述正样本的内部相似度以及负样本的内部相似度,计算每个特征的权重偏移量;根据所述每个特征的权重偏移量分别对各特征的权重进行优化处理。通过区分正、负样本,并分别计算正、负样本中各特征的内部相似度,最后通过计算权重偏移量对各特征的权重进行优化处理,能够得到更加真实准确的权重,同时更能反映用户个性化的需求。
技术领域
本发明涉及计算机技术领域,具体涉及一种样本特征的权重优化处理方法及装置。
背景技术
权重是指某一因素或指标相对于某一事物的重要程度,其不同于一般的比重,体现的不仅仅是某一因素或指标所占的百分比,强调的是因素或指标的相对重要程度,倾向于贡献度或重要性。现有的权重确定方法通常根据专家经验确定,也就是俗称“拍权重”。专家经验确定的权重具有个人倾向,无法客观体现实际规律,并不能代表真实的重要程度。
在房源推荐中,通常定义单价、面积等因素的权重较高。一般来说,单价权重较大比较客观,但是面积等因素却不一定。例如,客户A偏好学区房,对于朝向、面积并不敏感,朝向和面积因素的权重应该较小;客户B是婚房,喜好新小区,对于环线并不敏感,因此建成年代(房屋新旧)权重很高。类似的,还有客户对朝向、房屋格局等因素较为敏感。
针对这些情况,现有的专家经验确定的权重并不能代表个性化的需求,同时也不够真实准确。
发明内容
由于现有方法存在上述问题,本发明实施例提出一种样本特征的权重优化处理方法及装置。
第一方面,本发明实施例提出一种样本特征的权重优化处理方法,包括:
获取待优化样本,根据用户的反馈或行为确定所述待优化样本的正样本和负样本;
计算正样本特征,并根据所述正样本特征,计算所述正样本中各个特征的内部相似度,以及所述负样本中各个特征的内部相似度;
根据所述正样本的内部相似度以及负样本的内部相似度,计算每个特征的权重偏移量;
根据所述每个特征的权重偏移量分别对各特征的权重进行优化处理。
可选地,所述获取待优化样本的步骤为获取显示给用户的样本。
可选地,所述根据所述正样本的内部相似度以及负样本的内部相似度,计算每个特征的权重偏移量的步骤包括:
计算正样本的特征平均值;
根据所述特征平均值计算每个正样本中各特征的内部相似度,对正样本中各特征的内部相似度求平均得到正样本的各特征的第一平均差异度;
根据所述特征平均值计算每个负样本中各特征的内部相似度,对负样本中各特征的内部相似度求平均得到负样本的各特征的第二平均差异度;
根据各特征的第一平均差异度和第二平均差异度得到所述待优化样本中各特征的权重偏移量。
可选地,所述根据各特征的第一平均差异度和第二平均差异度得到所述待优化样本中各特征的权重偏移量的步骤包括:
计算样本各特征的第一平均差异度和第二平均差异度的差值的绝对值,作为所述待优化样本中各特征的权重偏移量。
可选地,在所述根据每个特征的权重偏移量分别对各特征的权重进行优化处理之前,还包括对每个特征的所述权重偏移量进行修正的步骤,具体包括:
获取各特征的权重偏移量中的最大值M和最小值N,根据各特征的权重偏移量x、所述最大值M和所述最小值N计算权重调整系数f(x)=A+x/(M-N);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳技术有限公司,未经贝壳技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910823348.3/2.html,转载请声明来源钻瓜专利网。