在一些智能手机的相册里,只需长按照片,图中的人、物就会与背景分开,用户可以直接保存分割出的内容,进行编辑和分享,日常生活中这样的图像分割技术已无处不在,它甚至可以用于医学影像分析,如计算机断层扫描(CT)和磁共振成像(MRI)等,来帮助医生更好地识别病变部位和范围,提高诊断准确率和治疗效果。
【资料图】
图像分割是计算机视觉领域的重要部分,它能将图片中的每个像素按照不同的语义类别进行分类,识别分割出图中的各个部分,例如在街景图中使用该技术,就可以输出一张将汽车、行人、建筑物按类别分割开的图片。
然而,在训练图像分割模型时,研究人员需要人工标注好大量图片,指明图中物体所属类别,供模型提取特征、自我学习,提高识别与分割的能力。这不仅费时费力,而且容易出错,造成的错误标注会使模型难以达到预期的准确度。
针对以上问题,西交利物浦大学智能工程学院的研究人员开发了一种新颖的技术,让图像分割模型能够从带噪声的标签中继续学习,即使标注数据有误,依然可以输出较为准确的结果。
该研究成果于近日收录于计算机视觉领域顶级期刊《国际计算机视觉杂志》(International Journal of Computer Vision),它是中国计算机学会认定的四本人工智能A类期刊之一, 影响因子13.3,这也是西浦第一篇收录于该期刊的论文。
据论文的第一作者、智能工程学院2022届博士毕业生张冰峰介绍,这项技术的灵感来源于我们日常生活中的一些经验,比如我们看到的景色可能会受到不同光线、天气等因素的影响,让我们产生不同的感受,影响我们的判断。
研究团队借鉴了这种经验,引入了“双专家结构”,该结构分别优化两种不同的图片特征,给出两种图像分割结果的预测,这两种预测有不同的可信区域,综合分析它们的可靠性后,就可以最终获得一个更为精确的预测。
图片说明:比较包含噪声的标签和训练后得到的预测结果,(a)原始图像,(b)真值,(c)带噪音的标签, 白框表示标签中主要的噪声区域,(d)通过优化交叉熵损失得到的预测结果,(e)通过优化soft Dice损失得到的预测结果;(d)和(e)是双专家结构中使用两种不同的优化方案后得到的图像分割预测。
张冰峰的导师肖继民博士指出,这项技术的应用非常广泛,尤其是在一些对图像分割准确度要求较高的领域,比如医疗影像、智能驾驶等。
“这项研究为我们提供了一种全新的技术手段,让模型能够更好地处理标注数据中的噪声和错误,从错误中获取有效数据继续学习,提高图片分割性能。相信在未来,这项技术将扮演越来越重要的角色,拉近我们与智能化生活的距离。”肖继民博士总结道。
目前,张冰峰博士在中国石油大学担任副教授职务。(记者:金画恬 编辑:石露芸)