[发明专利]一种基于智能分配算法的数据标注系统及方法在审
申请号: | 201910365835.X | 申请日: | 2019-04-30 |
公开(公告)号: | CN110188800A | 公开(公告)日: | 2019-08-30 |
发明(设计)人: | 裴正奇;聂泽宁 | 申请(专利权)人: | 武汉黑松露科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430000 湖北省武汉市武汉东湖新技术开发区佛*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能分配 数据解析模块 智能分配模块 标注 特征获取 算法 人工处理 数据标注 失误率 数据处理领域 模块输出端 模块输入端 输入端连接 标准答案 动态匹配 关键数据 文本类型 输出端 指示性 筛选 分析 | ||
1.一种基于智能分配算法的数据处理系统,其特征在于:包括数据解析模块(1)、特征获取模块(2)和智能分配模块(3),所述数据解析模块(1)输出端与特征获取模块(2)输入端连接,所述特征获取模块(2)输出端与智能分配模块(3)输入端连接;
所述数据解析模块(1)用于针对不同的任务采取不同的深度学习模型,结合Attention机制相关的协调算法,配合多模型融合方案,得到给定数据的基本量化特征;
所述特征获取模块(2)用于使用LCS动态规划算法,配合半监督式深度学习算法,对样本数据进行解析,对标注员的标注特征进行解读、归纳、存储与再利用;
所述智能分配模块(3)用于利用已获取的特征及量化资源,给定条件限制及目标预期,得到最优的方案设定及任务分配机制,并根据前线的反馈随时调整正在运行的分配机制及方案设定。
2.根据权利要求1所述的一种基于智能分配算法的数据处理系统,其特征在于:所述数据解析模块(1)包括模型数据库,所述模型数据库内部存储有多个不同的深度学习模型。
3.根据权利要求1所述的一种基于智能分配算法的数据处理系统,其特征在于:所述Attention机制相关的协调算法具体为CNN算法和LSTM算法。
4.一种基于智能分配算法的数据处理方法,其特征在于:具体处理步骤如下:
S1、在总耗时1小时以内:首先,给定待处理的大批量数据,由技术团队商讨并从针对十余种特定任务的数据解析模块(1)中挑选适合该批数据的数据解析模块(1),并使用该数据解析模块(1)将全部数据整体快速过一遍,筛选出小规模兼具代表性及指示性的关键数据作为“先行数据”;
S2、动用全部标注员对“先行数据”进行试探性标注,同时由核心团队对“先行数据”进行精标及分析,得到该批“先行数据”的“标准答案”,之后将标注员的标注结果与核心团队整理出来的“标准答案”进行动态匹配,利用特征获取模块(2)根据匹配结果自动获取每个标注员的专属标注特征,供下一步智能分配环节的执行;
S3、在总耗时1小时以内:凭借上述步骤中获取到的每个标注员的标注特征,利用智能分配模块(3),对余下的全部数据进行智能分配,期间会统筹协调每个标注员的任务负担,并根据他们在“先行数据”上面的表现进行针对性的薪资发放;
S4、在总耗时一星期以内:全体标注员对剩余数据进行标注,核心团队会全程进行针对标注员的质量抽查,期间会采用半监督式深度学习来完善相关的模块,对已标注的数据进行跟踪式质量把关。
5.根据权利要求4所述的一种基于智能分配算法的数据处理方法,其特征在于:所述步骤S1中,筛选出的小规模兼具代表性及指示性的关键数据作为“先行数据”具体为三位数规模。
6.根据权利要求4所述的一种基于智能分配算法的数据处理方法,其特征在于:所述步骤S2中,获取的专属标注特征以量化的形式体现,该特征储存了该标注员的内在信息,具体为标注风格、对该任务整体的标注能力、对不同类型数据的标注特点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉黑松露科技有限公司,未经武汉黑松露科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910365835.X/1.html,转载请声明来源钻瓜专利网。