[发明专利]一种集成的加权多数软投票的众包数据真值推理方法在审

专利信息
申请号: 202110309301.2 申请日: 2021-03-23
公开(公告)号: CN113139580A 公开(公告)日: 2021-07-20
发明(设计)人: 张桦;徐宏;沈菲;蒋世豪;张灵均;吴以凡 申请(专利权)人: 杭州电子科技大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 集成 加权 多数 投票 数据 真值 推理 方法
【权利要求书】:

1.一种集成的加权多数软投票的众包数据真值推理方法,其特征在于具体实现如下:

将众包数据集定义为每一个实例为ei=xi,yi,li,其中xi是众包数据中第i个实例的特征向量;yi是众包数据中第i个实例的真实标签;li是第i个实例的噪声标签集,包含J个工人对第i个实例的所有噪声标签:li={li1,li2,li3,...,lij},i∈{1,2,3,...,I},j∈{1,2,3,...,J};

步骤1、通过计算实例属于每一个类别的概率,复制K-1个实例副本,从而转换为新的众包数据集D′用以训练弱分类器;

步骤2、采用基于极大似然估计的方法聚合弱分类器;

步骤3、引入工人在不同的实例上的不同的标注能力,采用基于相似度比较的方法计算工人权重;

步骤4、采用加权软投票的方法聚合生成推理的标签。

2.根据权利要求1所述的一种集成的加权多数软投票的众包数据真值推理方法,其特征在于步骤1所述的计算实例属于每一个类别的概率,具体如下:

表示第i个实例的预测标签的类别是ck,Pr(ck|li)表示第i个实例工人标记为ck的标签对该实例所有标签的占比,计算实例所属类别公式如下:

其中,Pr(+|li)表示第i个实例工人标记为正类的标签对该实例所有标签的占比,相应地Pr(-|li)表示第i个实例工人标记为负类的标签对该实例所有标签的占比;δ(·)为指示函数,括号内两个值相等时函数值为1,否则为0;K为类别总数。

3.根据权利要求2所述的一种集成的加权多数软投票的众包数据真值推理方法,其特征在于步骤2包括以下分步骤:

步骤2.1根据步骤1统计得到所有弱分类器的混淆矩阵集合表示第m个分类器将真实ck预测成cl的概率;

步骤2.2假设M个弱分类器预测T个未标注的实例,所有分类器对T个未标记的实例的预测结果生成了一个矩阵A,根据极大似然估计全概率公式得到新的分类器,公式如下:

其中,表示每个类标签的先验概率的集合,表示第m个分类器是否将第t个实例预测为cl类;

步骤2.3使用期望最大化算法迭代更新先验概率;在E步中未标记的第t个实例属于ck的概率,计算公式如下:

其中,表示实例t属于ck的概率,在M步中更新每个分类器的混淆矩阵以及每个类的先验概率

其中T表示未标注实例个数,表示第m个分类器是否将第t个实例预测为cl类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110309301.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top