AI看到你看到的:Mind’s Eye是一种AI模型,可以将脑部扫描重建成图像
我们一直被理解大脑如何运作的挑战所吸引。神经科学领域已经取得了很大的进展,但我们仍然缺乏关于我们的大脑如何工作的可靠信息。我们正在努力寻找答案,但我们仍有很长的路要走。
神经科学忙于解密大脑活动和认知状态之间复杂的关系。深入了解环境输入如何编码在神经过程中具有推进我们对大脑及其机制的认识的巨大潜力。计算方法的最新进展为解开这些谜团开辟了新的机会,功能性磁共振成像(fMRI)已成为该领域的有力工具。通过检测血氧水平的变化,fMRI能够测量神经活动并已在实时临床环境中得到应用。
fMRI的一个特别有前途的应用是它在脑-计算机接口中进行心灵阅读的潜力。通过解码神经活动模式,可以推断一个人的心理状态甚至从他们的脑活动中重建图像。以前在这个领域的研究主要采用简单的映射,如岭回归,将fMRI活动与图像生成模型相关联。
然而,就像其他领域一样,成功的AI模型的出现引发了脑图像重建的巨大飞跃。我们已经看到一些试图使用fMRI扫描和扩散模型重建我们所看到的东西的方法。今天,我们有另一种方法来解码使用AI模型的脑部扫描解码。是时候见识一下MindEye了。
MindEye旨在从脑活动中解码环境输入和认知状态。它使用大规模的MLP、对比学习和扩散模型将fMRI活动映射到预先训练的CLIP模型的图像嵌入潜空间中。模型由两个管道组成:一个高级(语义)管道和一个低级(感知)管道。
在高级管道中,fMRI体素被映射到更具语义性质的CLIP图像空间中。然后使用对比学习训练模型,并将fMRI作为预先训练的CLIP模型嵌入空间的附加模态。使用双向版本的混合对比数据增强来改善模型性能。
另一方面,低级管道将fMRI体素映射到Stable Diffusion变分自编码器(VAE)的嵌入空间中。该管道的输出可用于重建模糊的图像,这些图像展现出最先进的低级图像度量。由于输出质量不高,因此在最后使用img2img方法来进一步改善图像重建,同时保持高级别的指标。
MindEye在图像重建和检索任务中均实现了最先进的结果。它产生了与原始图像低级特征相匹配的高质量重建,并在低级和高级图像指标上表现良好。由MindEye获得的不相交CLIP fMRI嵌入还在图像和脑检索任务中表现出色。