[发明专利]一种生成分类模型的方法和装置在审

申请号：	202010461491.5	申请日：	2020-05-27
公开（公告）号：	CN113743425A	公开（公告）日：	2021-12-03
发明（设计）人：	周默	申请（专利权）人：	北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	王志远;王安娜
地址：	100176 北京市北京经济技术***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种生成分类模型方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种生成分类模型的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：获取用于训练的第一数据集；根据所述第一数据集构建特征宽表；基于预先构建的知识图谱，根据当前目标场景、所述特征宽表的数据规模，确定所述特征宽表对应的划分比例，以将所述特征宽表划分为训练集、测试集；基于所述知识图谱，根据所述当前目标场景、当前分类问题，确定分类算法，以及所述分类算法对应的一个或多个通用参数；根据所述训练集、测试集，使用所述分类算法进行训练以生成分类模型。该实施方式能够基于知识图谱自动进行数据集的划分以及分类算法、分类算法通用参数的选择，提高了生成分类模型的效率。

技术领域

本发明涉及计算机技术领域，尤其涉及一种生成分类模型的方法和装置。

背景技术

随着人工智能的兴起与发展，机器学习成为了研究的重点及热点，而二分类问题、多分类问题等分类问题则由于广泛的应用前景成为了机器学习中基础且重要的组成部分。

为解决分类问题，算法工程师常需要基于现有的算法框架花费大量精力编写训练分类模型的程序，且编写的训练分类模型的程序无法重复使用，大幅度降低了分类模型的生成效率。此外，算法工程师在编写训练分类模型的程序之前，还需要基于个人过往经验对分类算法进行选择以及数据集的划分，浪费了大量精力，且由于个人过往经验的局限性无法基于所选择的分类算法及划分后数据集获得较优的分类模型。

发明内容

有鉴于此，本发明实施例提供了一种生成分类模型的方法和装置，能够基于知识图谱自动进行数据集的划分以及分类算法、分类算法通用参数的选择，并基于自动选择的分类算法生成分类模型，提高了生成分类模型的效率。

为实现上述目的，根据本发明实施例的一个方面，提供了一种生成分类模型的方法，包括：

获取用于训练的第一数据集；

根据所述第一数据集构建特征宽表，所述特征宽表指示了一个或多个样本对应的一个或多个特征值以及标签信息；

基于预先构建的知识图谱，根据当前目标场景、所述特征宽表的数据规模，确定所述特征宽表对应的划分比例，以将所述特征宽表划分为训练集、测试集；

基于所述知识图谱，根据所述当前目标场景、当前分类问题，确定分类算法，以及所述分类算法对应的一个或多个通用参数；

根据所述训练集、测试集，使用所述分类算法进行训练以生成分类模型。

可选地，所述知识图谱由一个或多个节点及与所述节点相连的一条或多条边构成；其中，

所述节点指示了下述任意一种：目标场景、数据规模、分类问题、分类算法、分类算法对应的参数、数据集划分比例；

所述边指示了下述任意一种：首选、备选、不建议、配置、属于。

可选地，还包括：