[发明专利]一种样本值区间模型的优化方法和装置在审
申请号: | 201710655996.3 | 申请日: | 2017-08-03 |
公开(公告)号: | CN107562698A | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 强晶晶 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/18 | 分类号: | G06F17/18;G06K9/62 |
代理公司: | 中原信达知识产权代理有限责任公司11219 | 代理人: | 张一军,姜劲 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 样本 区间 模型 优化 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种样本值区间模型的优化方法、装置、电子设备和计算机可读介质。
背景技术
随着大数据技术的发展及应用,有针对性地对大数据进行筛选和加工是大数据应用的关键技术之一,例如,随着近年来电子商务网站的高速发展,商品(即样本)种类和价格(即样本值)的多样化特点致使用户在选择所需商品,必须要通过一定的筛选条件,才能更精确地对所需商品进行定位,其中,根据价格来对商品进行筛选是用户经常使用的方法。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
面对数量巨大的样本,如何更准确地根据需要筛选出最优的样本集是技术提升的关键。如在电子商务网站中,同一品类的商品有时数量庞大,且单价差别也很大,用户通常根据价格区间筛选所需商品,电子商务网站可通过建立商品的价格区间(即商品的样本值区间)模型的方法对商品进行筛选分类,但是对于商品价格区间的分类配置经常由运营人员根据经验人工配置维护,费时费力,易造成不合理的价格区间配置,且不能及时对数据进行更新,使得用户不易快速准确地筛选到所需商品,降低用户体验。
发明内容
有鉴于此,本发明实施例提供一种样本值区间模型的优化方法、装置、电子设备和计算机可读介质,能够通过对样本集聚类的方法建立样本值区间模型,根据优化目标对该样本值区间模型进行优化,并更新样本集的波动,及时对样本值区间模型进行调整,从而节约了配置维护成本,为用户提供更合理的样本值区间配置,提高用户体验。
为实现上述目的,根据本发明实施例的一个方面,提供了一种样本值区间模型的优化方法,其特征在于,包括:
获取数据的样本集,所述样本集中的数据元素包括样本的样本值及其对应的权重;
对给定范围的每个正整数k,应用聚类算法对所述样本集聚类以产生所述样本集的相互不重叠的k个子集,从而得到对应的样本值区间模型,所述样本值区间模型包括与所述k个子集分别对应的k个样本值区间,并且当所述样本值区间模型满足预设的优化目标时,输出该样本值区间模型。
可选地,所述权重是所述样本的发生量或指定的数值。
可选地,所述优化目标包括所述样本值区间模型中各样本值区间所对应的所述样本数量的标准差,以及样本值区间模型中所述样本的各样本值区间的发生量的分布均满足预定条件。
可选地,所述给定范围为3≤k≤8和所述样本的种类数量与展示页面最多可显示所述样本的种类数量的比值中的较小者。
可选地,得到所述样本值区间模型包括:对于所述样本集聚类后产生的每一个子集,选取其中样本值的最小值和最大值作为该子集对应的样本值区间的两个端点,对所有所述子集对应的样本值区间进行排序,并且把排序后的样本值区间作为所述样本值区间模型。
可选地,所述聚类算法是k均值聚类算法。
可选地,当得到的样本值区间模型满足所述优化目标后,以所述样本集中所述样本的各样本值区间的发生量的正态分布为标准的正态分布;
当所述样本集发生改变时,对改变后的样本集中所述样本的各样本值区间的发生量的正态分布与所述标准的正态分布进行比较,若比较结果大于预设的阈值时,则重新对改变后的样本集进行优化,以得到新的样本值区间模型。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种样本值区间模型的优化装置,其特征在于,包括:
样本集模块,用于获取数据的样本集,所述样本集中的数据元素包括样本的样本值及其对应的权重;
聚类模块,用于对给定范围的每个正整数k,应用聚类算法对所述样本集聚类以产生所述样本集的相互不重叠的k个子集,从而得到对应的样本值区间模型,所述样本值区间模型包括与所述k个子集分别对应的k个样本值区间。
可选地,所述权重是所述样本的发生量或指定的数值。
可选地,所述装置还包括:
优化模块,用于当所述样本值区间模型满足预设的优化目标时,输出该样本值区间模型,所述优化目标包括所述样本值区间模型中各样本值区间所对应的所述样本数量的标准差,以及样本值区间模型中所述样本的各样本值区间的发生量的分布均满足预定条件。
可选地,所述给定范围为3≤k≤8和所述样本的种类数量与展示页面最多可显示所述样本种类数量的比值中的较小者。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710655996.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:认知诊断方法和系统
- 下一篇:连续承保年数统计方法、装置及计算机可读存储介质