[发明专利]一种问题房源识别方法和系统在审
申请号: | 201711279418.0 | 申请日: | 2017-12-06 |
公开(公告)号: | CN107909516A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 刘宇;钱大伟;李君阳 | 申请(专利权)人: | 链家网(北京)科技有限公司 |
主分类号: | G06Q50/16 | 分类号: | G06Q50/16 |
代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 王莹,李相雨 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 问题 房源 识别 方法 系统 | ||
1.一种问题房源识别方法,其特征在于,包括:
S1、获取房源的特征,所述特征包括房源的基础信息的特征、与经纪行为有关的特征及与业主行为有关的特征;
S2、将房源的所述特征的值输入训练好的迭代决策树模型,识别信息维护不当的房源,将所述信息维护不当的房源确定为问题房源。
2.根据权利要求1所述的方法,其特征在于,所述训练好的迭代决策树模型通过以下步骤获取:
根据一定数量的已知属性的房源,构建训练样本集;所述已知属性的房源包括真房源和信息维护不当的房源;
根据所述训练样本集,确定使分类误差最小的切分变量和切分点,生成决策树;所述切分变量为房源的一个特征或多个特征的组合;所述切分点用于根据所述切分变量的值区分真房源和信息维护不当的房源;
训练多棵决策树,每棵决策树基于上一棵决策树的分类误差进行训练,修正所述切分变量和划分点,使得每棵决策树的输出值与上一棵决策树的分类误差的差值最小,获得包括多棵决策树的所述迭代决策树模型。
3.根据权利要求1或2所述的方法,其特征在于,
所述房源的基础信息的特征至少包括:所述房源的房产证是否完备、业主身份证是否完备、委托协议书是否完备、契税发票是否完备、业主是否为贵宾、联系电话、录入面积、在楼盘数据库中的面积、挂牌价格和所在小区的房屋平均价格;
所述与经纪行为有关的特征至少包括:经纪人带客户看房源的次数和/或时间、经纪人与业主通话的次数和/或时间、经纪人对房源进行文字描述的次数和/或时间、经纪人对房源进行实地查看的次数和/或时间,以及经纪人拿到钥匙的时间;
所述与业主行为有关的特征至少包括:业主对房源的评论的次数和/或时间、业主通知经纪人需要发布的消息的次数和/或时间、业主曝光房源的次数和/或时间、业主调整挂牌价格的次数和/或时间,以及业主行为使用的终端类型。
4.根据权利要求2所述的方法,其特征在于,所述根据一定数量的已知属性的房源,构建训练样本集的具体步骤包括:
对所述一定数量的已知属性的房源进行采样,得到所述训练样本集。
5.根据权利要求4所述的方法,其特征在于,所述通过每棵所述决策树修正上一棵所述决策树中的切分变量和划分点,获得包括多棵所述决策树的所述迭代决策树模型之后还包括:
利用所述迭代决策树模型对预估房源集中的房源是否为问题房源进行预估,当预估的准确率小于预估阈值时,继续通过每棵所述决策树修正上一棵所述决策树中的切分变量和划分点,直至获得预估的准确率大于所述预估阈值的迭代决策树模型;所述预估房源集由所述一定数量的已知属性的房源中不属于所述训练样本集的房源构成。
6.根据权利要求1或2所述的方法,其特征在于,所述步骤S2进一步包括:
S21、将房源的所述特征的值输入所述迭代决策树模型中的每棵决策树,获取每棵决策树的输出值;
S22、对所述每棵决策树的输出值进行求和,根据求和的结果识别所述信息维护不当的房源。
7.根据权利要求6所述的方法,其特征在于,所述步骤S21具体包括:
对于每棵决策树,将房源的所述特征的值输入该决策树,沿该决策树的路径从根节点遍历叶子节点,将所有叶子节点的值的平均值作为该决策树的输出值。
8.根据权利要求3所述的方法,其特征在于,所述问题房源还包括基础信息错误的房源;
相应地,确定所述基础信息错误的房源的步骤包括:
将房源的所述录入面积与所述在楼盘数据库中的面积进行对比,当所述录入面积不等于所述在楼盘数据库中的面积时,将所述房源确定为所述基础信息错误的房源;
将房源的所述挂牌价格与所述所在小区的房屋平均价格进行对比,当所述挂牌价格与所述所在小区的房屋平均价格之差高于价格阈值时,将所述房源确定为所述基础信息错误的房源。
9.一种问题房源识别系统,其特征在于,包括:
特征获取模块,用于获取房源的特征,所述特征包括房源基础信息的特征、与经纪行为有关的特征及与业主行为有关的特征;
识别模块,用于将房源的所述特征的值输入训练好的迭代决策树模型,识别信息维护不当的房源,将所述信息维护不当的房源确定为问题房源。
10.根据权利要求9所述的系统,其特征在于,所述问题房源还包括基础信息错误的房源;
相应地,所述问题房源识别系统还包括:判断模块,用于将所述房源所述录入面积与所述在楼盘数据库中的面积进行对比,当所述录入面积不等于所述在楼盘数据库中的面积时,将所述房源确定为所述基础信息错误的房源;还用于将所述挂牌价格与所述所在小区的房屋平均价格进行对比,当所述挂牌价格与所述所在小区的房屋平均价格之差高于价格阈值时,将所述房源确定为所述基础信息错误的房源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于链家网(北京)科技有限公司,未经链家网(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711279418.0/1.html,转载请声明来源钻瓜专利网。