专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

AI又一突破！谷歌推出“咳嗽模型”HeAR，一声咳嗽，告知你的身体健康

学术头条 · 公众号 · · 2024-09-09 08:03

正文

撰文 | 马雪薇

前言

根据世界卫生组织（WHO） 2021 年公布的数据，世界前 10 大死因共计造成 3900 万人死亡，占全球死亡总人数（6800 万）的 57%， 其主要与两大类疾病有关，即心血管疾病（如缺血性心脏病、中风等）和呼吸系统疾病（如肺结核、慢性阻塞性肺病、下呼吸道感染等）。

其中，呼吸系统疾病所导致的咳嗽或呼吸，包含很多关于我们健康状况的信息。例如，临床医生使用类似“喘息”的咳嗽声来诊断百日咳，以及使用临终呼吸来检测急性心血管事件。

那么，在人工智能（AI）时代，我们是否可以利用这一技术从这些声音数据中提取健康信息，进而更好地监测我们的身体状况呢？

来自谷歌、赞比亚传染病研究中心结核病科的研究团队在这一方向迈出了重要一步，他们合作推出了生物声学基础模型 HeAR（Health Acoustic Representations），旨在帮助他们监听人类声音并标记疾病早期迹象。相关研究论文以 “HeAR - Health Acoustic Representations” 为题，已发表在预印本网站 arXiv 上。

据介绍，他们在从多样化且去识别化的数据集中精心挑选的 3 亿个音频数据上训练了 HeAR，还特别使用了大约 1 亿个咳嗽声音来训练这一“咳嗽模型”。

HeAR 能够辨别与健康相关声音中的模式，在广泛任务上的平均排名高于其他模型，且能够跨麦克风泛化。使用 HeAR 训练的模型也以较少的训练数据实现了高性能，这在常常缺乏数据的医疗研究领域是一个关键因素。HeAR 现在可供研究人员使用，从而帮助加速开发具有较少数据、设置和计算要求的定制生物声学模型。

StopTB Partnership 数字健康专家 Zhi Zhen Qin 表示：“像 HeAR 这样的解决方案将使 AI 驱动的声学分析在肺结核筛查和检测方面大有用处，将为最需要的人提供一种可能影响较小、易于获取的工具。 ”

未来，研究团队希望通过这项研究，推进在肺结核、胸部、肺和其他疾病领域的诊断工具和监测解决方案的开发，并帮助改善全球社区的健康结果。

如今，印度的呼吸健康公司 Salcit Technologies 基于此开发了一款名为 Swaasa 的产品，使用 AI 分析咳嗽声音并评估肺部健康。该公司正在探索 HeAR 如何帮助扩展其生物声学 AI 模型的功能。

一声咳嗽，即可检测疾病

HeAR 系统由三个主要部分组成。 通过自我监督学习，HeAR 系统利用大量未标记的音频数据学习通用的音频表示，并能够迁移到各种健康声学任务中。

图｜HeAR 系统概况

在数据采集步骤，研究团队使用了一个健康声学事件检测器。这是一个多标签分类卷积神经网络（CNN），用于识别 2 秒音频片段中是否存在 6 种非语音健康声学事件：咳嗽、婴儿咳嗽、呼吸、清嗓子、笑声和说话。该检测器使用 FSD50K 和 FluSense 数据集进行训练，并通过音频片段中的标签（例如“咳嗽”、“打喷嚏”和“呼吸”）进行标注。

论文使用了两个数据集，一部分是从 30 亿个公共非版权 YouTube 视频中提取的 2 秒音频片段，总共有 3.133 亿个片段或约 174000 小时的音频。这些片段使用健康声学事件检测器进行筛选。另一部分由赞比亚传染病研究中心收集，包含来自 599 名疑似肺结核患者的咳嗽音频录音和胸部 X 光片。

研究团队使用掩码自编码器在包含 3.13 亿个两秒钟长音频片段的大型数据集上进行训练。 通过线性探测，在跨越 6 个数据集的 33 个健康声学任务基准上，HeAR 在所有健康音频嵌入模型中的表现达到了 SOTA。

图｜HeAR 在 33 个健康音频任务中取得了最高的平均排名（MRR = 0.708），超越了所有其他基线模型。

HeAR 在 FSD50K 和 FluSense 数据集上的表现优于其他模型，特别是在使用 FSD50K 训练的模型中排名第二。

图｜健康声学事件检测任务在 FSD50K 和 FluSense 数据集上的性能比较。

HeAR 在 10/14 个咳嗽推理任务中表现优于基线模型，包括人口统计、生活方式。在 TB 和 CXR 任务中，其表现与最佳模型相当。

图｜咳嗽推理任务的性能比较。

HeAR 在 SpiroSmart 数据集上的 4/5 个肺功能测试任务和性别分类任务中表现优于基线模型。

图｜肺功能测试任务的性能比较。

HeAR 在 CIDRZ 数据集上的表现不受不同录音设备的影响，对不同设备具有鲁棒性。此外，HeAR 在训练数据较少的情况下也能取得良好的性能，在标注数据稀缺的医疗研究中更具优势。

然而，HeAR 也具有一定的局限性。例如，线性探针无法完全发挥模型的性能潜力，部分数据集规模较小且存在类不平衡问题，且 HeAR 等模型较大，难以在手机等设备上运行。

研究团队表示，未来可以考虑微调模型或加入更多特征来提升性能，以及收集更多数据并改进数据预处理方法，还可以考虑研究模型压缩和量化技术，使其能够在本地设备上运行。

AI又一突破！谷歌推出“咳嗽模型”HeAR，一声咳嗽，告知你的身体健康

正文

请到「今天看啥」查看全文