专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

医学顶刊TMI 2024！首个研究医疗AI算法公平性的眼科图像分类数据集

极市平台 · 公众号 · · 2024-04-26 22:00

正文

↑ 点击蓝字关注极市平台

作者丨 CVer粉丝投稿

来源丨CVer

编辑丨极市平台

极市导读

本文介绍了Harvard-GF数据集，这是一个用于检测青光眼的视网膜神经疾病数据集同时具有2D和3D数据，旨在实现公平学习。作者提出了一个公平性方法（FIN），通过平衡不同身份组之间的特征重要性来提高模型的公平性，并且其性能优于多种现有SOTA公平模型。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

在这里和大家分享一波我们TMI 2024中稿的工作 “Harvard Glaucoma Fairness: A Retinal Nerve Disease Dataset for Fairness Learning and Fair Identity Normalization”在本次工作中, 我们提出了第一个研究医疗算法的公平性的眼科数据集并且提出了Fair Identity Normalization的方法尝试提升不同组别的公平性（让不同组别的准确率接近）。

文章:

https://arxiv.org/pdf/2306.09264

代码地址:

https://github.com/Harvard-Ophthalmology-AI-Lab/Harvard-GF

数据集网站：

https://ophai.hms.harvard.edu/datasets/harvard-gf3300/

数据集下载链接:

https://drive.google.com/drive/u/1/folders/1-38HdWTqR4RH5GYT4bBtYu5ADUTN98Gk

Harvard-Ophthalmology-AI-Lab 致力于提供高质量公平性数据集，更多公平性数据集请点击lab的数据集主页：

https://ophai.hms.harvard.edu/datasets/

背景

公平性在机器学习中对社会福祉至关重要，但公共数据集的有限性限制了其进展。目前，没有专门的公共医疗数据集带有影像数据用于公平学习，尽管少数群体患有更多的健康问题。为了填补这一空白，我们介绍了Harvard Glaucoma Fairness (Harvard-GF) 数据集，这是一个包括3300名受试者的视网膜神经疾病（青光眼）数据集，含有2D和3D图像数据，并且在种族群体的样本数量上实现了平衡，用于青光眼检测。青光眼是全球导致不可逆致盲的主要原因，黑人患青光眼的比例是其他种族的两倍。我们还提出了一种公平身份归一化（FIN）方法，以平衡不同身份群体间特征的重要性。我们的FIN方法与各种最新的公平学习方法相比较，在种族、性别和族裔公平任务中以2D和3D医学图像数据展示了优越的性能，证明了我们的数据集Harvard-GF在公平学习中的实用性。为了促进不同模型间的公平性比较，我们提出了一个公平性加权性能衡量方法，这可以灵活地用于在公平性背景下比较所有种类的性能指标。

本文介绍了名为Harvard Glaucoma Fairness (Harvard-GF)的新医疗数据集来研究医疗AI算法的公平性，旨在促进AI自动青光眼诊断的公平性。Harvard-GF数据集专注于视网膜神经纤维层（RNFL），因为青光眼是全球主要的不可逆盲原因。这个数据集解决了目前公平学习领域面临的一些主要挑战，包括公共数据集的数量和质量有限，特别是缺乏适用于创建需要成像数据的公平计算机视觉模型的数据集，以及在医疗和健康领域的公平数据集特别缺乏。表1展示了迄今为止只有少数公开的公平数据集在至少三篇出版物中被使用过。这些数据集大多由表格数据组成，这使得它们不适合用于创建需要成像数据的公平计算机视觉模型。

Harvard-GF数据集的主要特点包括：

它是第一个专门用于医学成像深度学习研究的公平性数据集。
数据集中包含了来自三个主要种族群体（白人、黑人和亚洲人）相等数量的受试者，这避免了可能混淆公平学习问题的数据不平衡问题。
提供了2D和3D成像数据，这为3D公平学习提供了未被充分探索的研究机会。

此外，论文还提出了一种公平身份归一化Fair Identity Normalization方法，通过可学习的均值和标准差按身份群体（如种族和性别群体）归一化模型的特征空间，旨在平衡深度学习模型中不同身份群体间的特征重要性。这种方法与当前最先进的公平学习方法进行了比较，展示了Harvard-GF数据集在公平学习中的实用性和提出的Fair Identity Normalization的有效性。

为了促进不同模型间的公平比较，文章还提出了一种基于公平性的性能衡量方法，这种方法考虑了准确性与公平性之间的权衡，能够灵活用于在公平性背景下比较所有种类的性能指标，如AUC和Accuracy。图1揭示了当前公平性指标（如DPD和DEOdds）可能不足以充分考虑准确性与公平性之间的权衡。图1展示了当模型对所有身份群体都有同样低的准确性，也可能被认为具有高公平性，但这种现象是DPD和DEOdds无法反映的。

总结，该论文的核心贡献包括了：

提出了首个具有2D和3D医学成像数据的专用于研究公平性的数据集。
开发了一种新的公平身份归一化Fair Identity Normalization方法，以改善模型间不同身份群体特征重要性的平衡，提高深度学习模型公平性。
设计了一种新的基于公平性调整的性能评估指标，以惩罚模型的公平性水平。

如何获得公平性数据集：

数据涵盖2010至2021年，来源于一所大型学术眼科医院，包括三种主要类型：OCT扫描、患者人口统计数据和基于视野测试的青光眼诊断。

OCT扫描提供用于诊断青光眼、黄斑变性等眼病的先进3D成像，强调从这些扫描中派生的用于评估青光眼的2D视网膜神经纤维层厚度（RNFLT）图。这些图以200×200像素的分辨率覆盖光盘周围6×6mm^2的区域，显示RNFLT范围从0到350微米。包括高质量扫描（信号强度≥6）。

患者人口统计数据侧重于确保研究中的种族公平，从每个种族组中等量选取受试者，详细记录了年龄、性别、种族、民族、语言能力和婚姻状况。

青光眼诊断依赖于24-2视野测试，仅选择按照临床标准认为可靠的测试。

哈佛-GF数据集包括3300名受试者，其中1748名被诊断为青光眼，分为训练集（2100个样本）、验证集（300个样本）和测试集（900个样本）。数据集确保来自三个种族组（亚洲人、黑人、白人）各1000个样本，并强调平均年龄、RNFLT值和视力损失严重度。

重要发现包括黑人相比白人和亚洲人青光眼患病率更高，黑人还表现出更薄的RNFLT和更严重的视力损失。性别方面，男性的RNFLT更薄，视力损失更严重，尽管性别之间的青光眼患病率没有显著差异。

研究中的图表展示了OCT扫描与RNFLT图之间的关系、人口统计分布以及不同种族和性别组中青光眼患病率、RNFLT和视力损失的差异，专注于对种族和性别的公平学习。

提升公平性的方法Fair Identity Normalization.：

用于评估公平准确性的Equity-Scaled Metrics：

这种公式确保ES-AUC始终小于或等于I。随着群体间的分类性能平等，ES-AUC趋于传统分类metric。相反，较高的群体间的分类性能差异，导致较低的ES-AUC得分。这种方法允许我们评估深度学习模型不仅在准确性（通过AUC, Accuracy等metric）上，而且在不同群体间的公平性上。这使得ES-AUC评分函数成为确保医学成像任务分类准确性和公平性的关键指标。

实验:

总结

尽管少数族裔群体面临更多健康问题，但目前尚无专门的含有医学影像数据的数据集可用于公平学习，深度学习在很大程度上依赖于影像数据。本文介绍了Harvard-GF数据集，这是一个用于检测青光眼的视网膜神经疾病数据集同时具有2D和3D数据，旨在实现公平学习。我们提出了一个公平性方法（FIN），通过平衡不同身份组之间的特征重要性来提高模型的公平性，并且其性能优于多种现有SOTA公平模型。

公众号后台回复“ 数据集

医学顶刊TMI 2024！首个研究医疗AI算法公平性的眼科图像分类数据集

正文

背景

实验:

总结

请到「今天看啥」查看全文