[发明专利]一种基于客户行为特征的潜在客户挖掘方法在审
申请号: | 201510903856.4 | 申请日: | 2015-12-09 |
公开(公告)号: | CN105488697A | 公开(公告)日: | 2016-04-13 |
发明(设计)人: | 李娟;徐丽萍 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F17/30 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210003 江苏省南京市高新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于客户行为特征的潜在客户挖掘方法,步骤一:数据预处理;1)数据清洗,首先需要删除不需要的记录行;2)形成URL规则列表;3)用户标志;访问日志表里是以vinfo、客户ID联合识别用户;4)特征提取,以一个session为单位,分析单个session里每个用户的访问来源、浏览页面数、浏览产品详情页数、浏览产品数、页面浏览时长、产品详情页浏览时长、查看筛选列表的次数、是否查看业务话题、用户单日首次浏览时段,并以用户是否意向购买作为类别属性,以此特征形成训练样本;5)筛选训练集;步骤二:基于粗糙集的特征属性约简;提高分类精度;步骤三:基于客户行为特征的随机森林潜在客户识别模型。 | ||
搜索关键词: | 一种 基于 客户 行为 特征 潜在 挖掘 方法 | ||
【主权项】:
一种基于客户行为特征的潜在客户挖掘方法,其特征在于:步骤一:数据预处理;1):数据清洗原始日志记录累积了大量的客户浏览信息,很多是与数据挖掘无关的冗余信息,比如图片、短信验证、Logo图片信息,首先需要删除不需要的记录行;2):形成URL规则列表分析新一站web数据中的REQUEST字段,对包含‘confirm’时,代表意向购买等,最终形成URL规则列表;后续计算特征时,不需要逐个分析request字段,可根据request字段跟url规则列表中的url匹配,获取url_name;3):用户标志访问日志表里是以vinfo、iptonumber、客户ID联合识别用户;vinfo:相当于cookie,标志着一台计算机;iptonumber:ip地址,同一台计算机在不同地方登陆,会有不同的ip;login_id:会员登陆id,非会员登陆时login_id=‑1。4):特征提取以一个session为单位,分析单个session里每个用户的访问来源、浏览页面数、浏览产品详情页数、浏览产品数、页面浏览时长、产品详情页浏览时长、查看筛选列表的次数、是否查看业务话题、用户单日首次浏览时段、用户是否查看购物车等特征属性,并以用户是否意向购买作为类别属性,以此特征最终形成训练样本;5):筛选训练集web日志里的行为数据信息是某个时间段内全体用户在新一站网站上产生的行为信息数据,这其中就包括有多次购物的人即忠诚客户,购物次数不多的人即现有客户,潜在客户以及浏览了网站主页,但没有浏览任何网站内商品的人即纯粹的浏览者产生的行为数据;通过分析一段时间内的购买次数,排除掉多次购买的客户数据,选取对某一产品进行第一次购买的客户或浏览后未购买的客户作为挖掘对象;步骤二:基于粗糙集的特征属性约简;对于类别属性,步骤一提取的11个特征属性,冗余的特征属性须根据粗糙集理论,在不影响分类性能的前提下,将冗余属性约去,从而减少运算量,提高分类精度;方法步骤:首先利用相对正域求核Core:1):初始化数据Core=φ,C={a1,a2,...,aj}j=1,2,...11,aj为特征属性,D={a12}为类别属性,计算相对正域POSc(D);2):B=C‑{aj},计算相对正域POSB(D),并比较POSc(D)、POSB(D)。若POSc(D)≠POSB(D),则aj为核属性,Core=Core∩B,循环判断每个属性是否为核属性;3):返回Core,结束;其次利用属性依赖度求约简Reduce:1):初始化数据,剩余属性RestAtt=C‑Core,Reduce=Core,2):比较POScore(D)、POSc(D),若相等,则Core即为约简,否则转到step3;3):循环RestAtt中每个剩余属性aj,设选出使得K值最大的属性ak,令Reduce=Reduce∪{ak},RestAtt=RestAtt‑{ak},并比较POSRestAtt(D)与POSc(D),若相等则转到step4,否则继续循环;4):返回Reduce,结束;此时的Reduce即为最终输入分类器的特征属性;步骤三:基于客户行为特征的随机森林潜在客户识别模型;随机森林算法使用R3.0.2软件的语言软件包randomForest 4.6‑6来实现,程序通过数据源ODBC连接Oracle数据库,运用函数get_data()获取所需数据,运用函数cal_feture()计算数据特征;筛选训练集后,调用随机森林分类模型model_rf对特征数据进行预测得到潜在客户ip及cookie信息,最后通过ip和cookie在已有数据表中查找潜在客户的用户信息并写入数据库中;步骤三中:1):连接数据库,函数get_data()的功能为从数据库中获取所需数据,参数chan为数据库连接,cal_number为所需获取数据的日期,data=sqlQuery(chan,sql,stringsAsFactors=FALSE)通过RODBC包中odbcConnect()函数建立R与Oracle数据库连接:chan=odbcConnect("dm_xyz",uid='######',pwd='******')其中,参数dm_xyz为数据源ODBC的系统DSN名,uid为用户名,pwd为用户登录密码;建立数据库连接之后,通过执行sql语句获取数据库中所需数据;并在sql语句中添加步骤一的数据清洗规则;2):URL匹配,更新浏览页面信息;由本地读入步骤二的URL规则txt文档,根据数据中的REQUEST字段匹配URL规则的关键字,更新VISIT_PAGE字段,无匹配项的记录则设为“‑1”;Step3:特征计算cal_feature(data)函数cal_feature的功能为将get_data函数获取的单日数据分割成不同的浏览session,对单个session计算特征最终获得特征数据集;步骤四:潜在客户识别模型性能验证利用oracle编辑存储过程,判断挖出的潜在客户在挖出日期后一个月内真正购买的比例,作为模型性能验证指标。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510903856.4/,转载请声明来源钻瓜专利网。
- 上一篇:媒体插入系统
- 下一篇:一种内转子的永磁直驱风力发电机的电机轴