[发明专利]基于连通图的因子筛选方法、装置、设备及介质有效
申请号: | 202110015583.5 | 申请日: | 2021-01-07 |
公开(公告)号: | CN112330080B | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 张莉;刘聃;余雯;乔延柯;吴志成 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/06 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 迟珊珊;刘丽华 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 连通 因子 筛选 方法 装置 设备 介质 | ||
本发明涉及人工智能领域,提供一种基于连通图的因子筛选方法、装置、设备及介质,能够结合贪婪遍历算法及连通图进行因子的筛选,有效剔除相关性较强的重复因子,避免由于因子的冗余造成数据的冗余,并且,最终得到的目标因子也具有较强的可解释性。本发明还涉及区块链技术,目标因子可存储于区块链。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于连通图的因子筛选方法、装置、设备及介质。
背景技术
在人工智能领域,为了提高模型的准确率及效率,在将各个因子输入模型进行运算前,首先要对因子进行筛选。
目前,在处理多个高相似性的因子时,主要采用以下两种方式:
(1)人工筛选因子的方式。
采用人工对因子进行两两相关性判断,再挑选出对模型的预测能力高的因子。由于这种方式主要依赖于人工判断,并且是进行一对一的判定,容易产生错误或者遗漏现象,在进行模型的测试等迭代任务时,也比较繁琐。
(2)基于模型自动筛选因子的方式。
目前主要采用随机森林模型进行因子的筛选,但是随机森林模型无法剔除相关性强的因子,且可解释性较弱。
发明内容
鉴于以上内容,有必要提供一种基于连通图的因子筛选方法、装置、设备及介质,能够有效剔除相关性较强的重复因子,避免由于因子的冗余造成数据的冗余,并且,最终得到的目标因子也具有较强的可解释性。
一种基于连通图的因子筛选方法,所述基于连通图的因子筛选方法包括:
响应于因子筛选指令,根据所述因子筛选指令获取至少一个因子及预测目标;
计算所述至少一个因子中每两个因子间的相关系数;
获取预设阈值,根据所述预设阈值及每两个因子间的相关系数对所述至少一个因子进行两两组合,得到至少一个因子组合,并连接所述至少一个因子组合中的两个因子,得到至少一个边;
基于贪婪遍历算法,根据所述至少一个边构建至少一个子图;
整合所述至少一个子图,得到连通图;
计算所述连通图中每个因子相对于所述预测目标的信息价值,并根据所述信息价值从每个子图中筛选目标因子。
根据本发明优选实施例,采用下述公式计算所述至少一个因子中每两个因子间的相关系数:
其中,为因子及因子之间的相关系数,为因子及因子的协方差,为因子的方差,为因子的方差,i、j为正整数。
根据本发明优选实施例,所述基于贪婪遍历算法,根据所述至少一个边构建至少一个子图包括:
检测每个边对应的两个因子中每个因子在所述至少一个边中的出现次数;
当检测到有边对应的两个因子在所述至少一个边中的出现次数都为1时,不执行遍历,将检测到的边确定为单边;或者
当检测到有边对应的两个因子在所述至少一个边中的出现次数不都为1时,将检测到的边确定为目标边,并根据所述目标边在所述至少一个边中进行遍历,根据遍历到的边对所述目标边进行扩展连接,得到完全图;
将所述单边及所述完全图确定为所述至少一个子图。
根据本发明优选实施例,所述计算所述连通图中每个因子相对于所述预测目标的信息价值,并根据所述信息价值从每个子图中筛选目标因子包括:
获取每个因子相对于所述预测目标的响应比例、未响应比例及证据权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110015583.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:地表信息预测方法及装置
- 下一篇:一种飞机进气道表面损伤的检测方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理