[发明专利]使用相异训练源训练分类模型及应用其的推论引擎在审
申请号: | 202010782604.1 | 申请日: | 2020-08-06 |
公开(公告)号: | CN113743437A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 陈士弘;苏资翔 | 申请(专利权)人: | 旺宏电子股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 任岩 |
地址: | 中国台湾新竹*** | 国省代码: | 台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 相异 训练 分类 模型 应用 推论 引擎 | ||
1.一种用以使用多个对象的一训练数据集S产生一分类模型以将这些对象分类为多个类别的方法,包括一或多个编程的计算器:
对于一索引i=1,获取一第一训练子集ST(i),该第一训练子集包括该训练数据集中的部分的这些对象;
使用该第一训练子集ST(i)训练一第一模型M(i);
使用该第一模型M(i)对该训练数据集中不包括该第一训练子集ST(i)的一第一评估子集SE(i)进行分类,并在该第一评估子集SE(i)中识别分类错误的这些对象的一错误子集ER(i);
(a)递增该索引i,并获取一另一训练子集ST(i),该另一训练子集ST(i)包括该错误子集ER(i-1)中的部分的这些对象;
(b)使用该训练子集ST(i)的组合训练一模型M(i),其中i为1至i;
(c)使用该模型M(i)对该训练数据集S中不包括该训练子集ST(i)的一评估子集SE(i)进行分类,其中i为1至i,并在该评估子集SE(i)中识别分类错误的这些对象中的一错误子集ER(i);以及
(d)评估该错误子集ER(i)以预估该模型M(i)的一效能,以及若该效能满足一条件,则储存该模型M(i),及若效能不满足该条件,则重复步骤(a)至(d)。
2.如权利要求1所述的方法,其中该评估包括决定分类错误的这些对象的一数量,并将该数量与一门限值比较。
3.如权利要求1所述的方法,其中该评估包括决定该错误子集ER(i)中分类错误的这些对象的一数量,并将该数量与前一错误子集ER(i-1)中分类错误的这些对象的数量比较。
4.如权利要求1所述的方法,其中i=1的该第一训练子集ST(i)包括该训练数据集S中的这些对象的10%或更少。
5.如权利要求1所述的方法,其中i=1的该第一训练子集ST(i)包括该训练数据集S中的这些对象的1%或更少。
6.如权利要求1所述的方法,其中i=2的该训练子集ST(i)包括该错误子集ER(1)中的这些物件的一半以下。
7.如权利要求1所述的方法,包括将该训练数据集S分成多个区块的训练资料,且其中该第一训练子集ST(1)是自这些区块中的一第一区块所获取,且该第一评估子集包括这些区块中的一第二区块的部分或全部,且不包含该第一区块。
8.如权利要求7所述的方法,其中该第一区块及该第二区块的大小相同。
9.如权利要求1所述的方法,包括将该训练数据集S分成多个区块的训练数据,这些区块具有相同大小,且其中i为一给定值的该训练子集ST(i)与i为该给定值的该评估子集SE(i)是自这些区块中的一不同的区块所获取。
10.如权利要求9所述的方法,包括决定该训练数据集中的这些类别的这些对象的分布,并分区该训练数据集,以使这些区块中部分或全部的区块具有该决定的分布。
11.如权利要求1所述的方法,包括:
存取一数据库,该数据库包括根据这些类别分类的这些对象;以及
根据这些类别对该数据库进行过滤,以产生该训练数据集S。
12.如权利要求11所述的方法,其中该过滤包括设定一给定类别的对象数量的一最大限制,以获取要包含在该训练数据集S内的这些物件。
13.如权利要求12所述的方法,其中该过滤包括设定一给定类别的对象数量的一最小限制,以获取要包含在该训练数据集S内的这些物件。
14.如权利要求1所述的方法,其中i=1的该训练子集ST(i)具有一数量N1的这些对象,且i=2的该训练子集ST(i)具有一数量N2的这些对象,且该数量N2为该数量N1的50%至3%之间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于旺宏电子股份有限公司,未经旺宏电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010782604.1/1.html,转载请声明来源钻瓜专利网。