[发明专利]一种基于人机交互的半自动标注方法及系统有效
申请号: | 202110328124.2 | 申请日: | 2021-03-26 |
公开(公告)号: | CN112966777B | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 张新钰;李骏;李志伟;刘宇红;王力;卢一倩 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 张建纲 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人机交互 半自动 标注 方法 系统 | ||
1.一种基于人机交互的半自动标注方法,所述方法包括:
将待标注的RGB图像与产生的第一高斯热图进行融合;
对融合图像进行预处理;
将预处理后的融合图像输入预先建立和训练好的半自动标注模型,对待标注RGB图像标注多个预测框;
当有预测框不满足要求,则通过产生第二高斯热图对不满足要求的预测框进行修正;
所述将待标注的RGB图像与产生的第一高斯热图进行融合;具体包括:
利用与待标注的RGB图像对应的xml文件中左上坐标和右下坐标,在待标注RGB图像上确定目标所在区域,然后将目标所在区域内的所有像素点设为255,将目标所在区域外的像素点设为0,由此生成Mask图像;
在Mask图像的中心范围随机生成多个模拟点,由此生成第一高斯热图heat1:
其中,(x,y)为图像上的点坐标,(x1,m,y1,m)为第m个模拟点的坐标,M为模拟点的个数;sigma的值为10,r1=4,代表模拟点的辐射范围;
将待标注的RGB图像与生成的第一高斯热图heat1进行add操作。
2.根据权利要求1所述的基于人机交互的半自动标注方法,其特征在于,所述半自动标注模型为加入注意力机制的Resnet50+FPN结构。
3.根据权利要求2所述的基于人机交互的半自动标注方法,其特征在于,所述方法还包括:对半自动标注模型进行训练的步骤,具体包括:
建立用于训练模型的数据集;数据集包括:标签文件集和图像文件集,标签文件集包括多个xml文件,图像文件集包括多个RGB图像,xml文件和RGB图像是一一对应的;
遍历数据集中的每一个RGB图像,利用对应的xml文件中左上坐标和右下坐标,在RGB图像上确定目标所在区域,然后将目标所在区域内的所有像素点设为255,将目标所在区域外的像素点设为0;由此生成Mask图像,然后利用Mask图像生成第一高斯热图;
将三通道RGB图像与第一高斯热图进行融合,之后对融合后的图像进行预处理;作为神经网络模型的输入;
设定神经网络模型训练的编码器和解码器的尺寸大小、批处理数量、训练轮次数和各轮的学习率,对模型进行训练。
4.根据权利要求3所述的基于人机交互的半自动标注方法,其特征在于,所述当有预测框不满足要求,则通过产生第二高斯热图对不满足要求的预测框进行修正操作;具体包括:
步骤S1)对半自动标注模型输出的每个预测框与GT框进行交并比计算,得到IOU的值;若IOU大于阈值,则不对此预测框进行修正处理,否则对该预测框进行处理,进入步骤S2);
步骤S2)将需要修正的预测框与xml文件的坐标进行偏差计算,根据偏差重新随机生成多个模拟点,由此生成第二高斯热图heat2:
其中,(x,y)为图像上的点坐标,(x2,n,y2,n)为第n个模拟点,N为模拟点的个数;公式中sigma的值取10,r2=6;
步骤S3)将三通道RGB图像与生成的第二高斯热图的单通道进行拼接,重新输入半自动标注模型,输出标注预测框的图像,转入步骤S1),直至所有的预测框与与GT框的交并比小于阈值。
5.一种基于人机交互的半自动标注系统,其特征在于,所述系统包括:训练好的半自动标注模型、融合模块、预处理模块、标注模块和修正模块;
所述融合模块,用于将待标注的RGB图像与产生的第一高斯热图进行融合;
所述预处理模块,用于对融合图像进行预处理;
所述标注模块,用于将预处理后的融合图像输入训练好的半自动标注模型,对待标注RGB图像标注多个预测框;
所述修正模块,用于当有预测框不满足要求,则通过产生第二高斯热图对不满足要求的预测框进行修正;
所述融合模块的具体处理过程包括:
利用与待标注的RGB图像对应的xml文件中左上坐标和右下坐标,在待标注RGB图像上确定目标所在区域,然后将目标所在区域内的所有像素点设为255,将目标所在区域外的像素点设为0,由此生成Mask图像;
在Mask图像的中心范围随机生成多个模拟点,由此生成第一高斯热图heat1:
其中,(x,y)为图像上的点坐标,(x1,m,y1,m)为第m个模拟点的坐标,M为模拟点的个数;sigma的值为10,r1=4,代表模拟点的辐射范围;
将待标注的RGB图像与生成的第一高斯热图heat1进行add操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110328124.2/1.html,转载请声明来源钻瓜专利网。