苹果研究员推出ByteFormer：一种仅使用字节并不显式地建模输入方式的AI模型

深度学习推理通常需要明确建模输入模态。例如，通过将图片补丁编码为向量，Vision Transformers (ViTs) 直接模拟了图像的二维空间组织。类似地，在音频推理中经常涉及计算频谱特性（如 MFCCs）以传输到网络中。用户必须先将文件解码成模态特定的表示（例如 RGB 张量或 MFCCs），然后才能对保存在磁盘上的文件进行推理（如 JPEG 图像文件或 MP3 音频文件），如图1a所示。将输入解码为模态特定表示有两个实际的缺点。

首先需要为每个输入模态手动创建输入表示和模型干线。最近的项目如 PerceiverIO 和 UnifiedIO 展示了 Transformer 骨干的多功能性。但这些技术仍需要模态特定的输入预处理。例如，在将图片文件发送到网络之前，PerceiverIO 需要将其解码为张量。其他输入模态则由 PerceiverIO 转换为各种形式。他们提出，直接在文件字节上执行推理可行，可以消除所有模态特定的输入预处理。将分析的材料暴露出来是解码输入为模态特定表示的第二个缺点。

想象一下使用 RGB 照片进行推理的智能家居设备。如果敌人获得了这个模型输入的访问权限，用户的隐私可能会受到威胁。他们认为可以在保护隐私的输入上进行推理。他们指出，许多输入模态都具有将其保存为文件字节的能力，以解决这些缺点。因此，他们在推理时将文件字节馈入模型（图1b），而不进行任何解码。鉴于他们处理各种模态和可变长度输入的能力，他们采用了修改后的 Transformer 架构来构建他们的模型。

苹果公司的研究人员介绍了一种称为 ByteFormer 的模型。他们使用存储在 TIFF 格式中的数据展示了 ByteFormer 在 ImageNet 分类上的有效性，达到了 77.33% 的准确率。他们的模型使用了 DeiT-Ti transformer 骨干的超参数，该超参数在 RGB 输入上取得了 72.2% 的准确率。此外，他们在 JPEG 和 PNG 文件上提供了出色的结果。此外，他们展示了在不损失准确性的情况下伪装输入的能力，通过使用置换函数 ϕ : [0, 255] → [0, 255] 重新映射输入字节值来实现（图1c）。尽管这不能确保加密级别的安全性，但他们展示了这种方法可用作掩盖输入进入学习系统的基础。通过使用 ByteFormer 在部分生成的图片上进行推理，可以实现更高的隐私保护（图1d）。他们展示了 ByteFormer 可以训练在有 90% 像素被覆盖的图像上，并在 ImageNet 上达到 71.35% 的准确率。

图1 显示了我们的 ByteFormer（BF）与使用 DeiT 进行传统推理的比较。（A）：使用通用图像解码器，从磁盘读取文件数据并将其转换为 RGB 张量。使用补丁嵌入从 RGB 表示生成令牌。（B）：将磁盘文件字节投影到学习嵌入中，并直接使用它们作为令牌。（C）：与（B）类似，但添加了一个混淆函数。（D）：使用定制相机，我们记录了保护隐私的表示，然后从中执行令牌嵌入。

不需要知道未遮盖像素的精确位置即可使用ByteFormer。通过避免典型的图像捕捉，给予模型的表现确保了匿名性。他们的简要贡献如下：（1）他们创建了一个名为ByteFormer的模型，以对文件字节进行推断。（2）他们证明ByteFormer在几种图片和音频文件编码上表现良好，无需进行架构修改或超参数优化。（3）他们举例说明了ByteFormer如何与保护隐私的输入配合使用。（4）他们研究了ByteFormer的特征，这些特征已经被教给从文件字节中直接分类音频和视觉数据的ByteFormers。（5）他们还在GitHub上发布了他们的代码。

AI Shorts,Applications,Artificial intelligence,Computer vision,Editors Pick,Machine learning,Staff,Tech News,Technology,Uncategorized

苹果研究员推出ByteFormer：一种仅使用字节并不显式地建模输入方式的AI模型

4个Pandas函数用于DataFrame的逐元素比较

可视化社交网络以获取更好的见解：使用Python的NetworkX库分析和映射社交关系——第2部分

在经历了坎坷的一年后，扎克伯格向员工们阐述...

英伟达向1亿Windows RTX电脑和工作站引入新的...

英伟达通过Isaac AMR为移动机器人带来先进的自...

联发科技与英伟达合作，利用人工智能和加速计...

微软必应利用NVIDIA Triton提升广告交付速度

新模型提供了加快药物研发的方法

计算科学