Learn more about Computer vision - Section 11

UC Berkeley和Meta AI研究人员提出了一种拉格朗日动作识别模型，通过融合3D姿态和上下文化外观来跟踪轨迹

在流体力学中，惯性系和欧拉系的流场表示是惯例。根据维基百科，“流场的拉格朗日描述是一种研究流体运动的方法，其中观察者跟...

认识CoDi：一种新的跨模态扩散模型，可用于任意合成

在过去的几年中，出现了一些强大的交叉模态模型，能够从一种信息中生成另一种信息，例如将文本转换为文本、图像或音频。一个...

来自萨里大学的研究人员推出了一款基于素描的机器学习物体检测工具，具有颠覆性的影响

自史前时代起，人们就用草图进行交流和文件记录。在过去的十年中，研究人员在理解如何使用草图从分类和合成到更新颖的应用，...

这篇人工智能论文研究了匿名化对无人驾驶数据集训练计算机视觉模型的影响

图像去匿名化是指从图像中修改或删除敏感信息以保护隐私。虽然这对于遵守隐私法规非常重要，但匿名化通常会降低数据质量，从...

Voxel51开源VoxelGPT：一种利用GPT-3.5的能力生成Python代码进行计算机视觉数据集分析的AI助手

Voxel51是数据中心计算机视觉和机器学习软件领域的杰出创新者之一，最近推出了计算机视觉领域的一个重大突破，推出了VoxelGPT...

来自马里兰大学学院市分校的最新人工智能研究开发出了一种人工智能系统，可以从人眼中的反射中重建三维场景

人眼是一种奇妙的器官，允许视觉并存储重要的环境数据。它们通常将它们的眼睛用作两个镜头，以将光线引导到组成视网膜的感光...

了解CapPa：DeepMind的创新图像字幕策略，正在改变视觉预训练并与CLIP在可扩展性和学习性能方面展开竞争

一篇最近的论文，名为“图像字幕生成器也是可扩展的视觉学习者”，提出了一种有趣的方法，称为CapPa，旨在将图像字幕生成作为视...

认识TRACE：一种新的人工智能方法，使用全局坐标跟踪实现准确的三维人体姿态和形状估计

许多领域可以从最近估计的三维人体姿态和形状（HPS）的进展中受益并使用。然而，大多数方法只考虑一帧图像，估计相对于相机的...

友谊结束了，单模态已经不再是我的好朋友：CoDi是一种人工智能模型，可以通过可组合扩散实现任何到任何的生成

生成式AI是我们现在几乎每天都听到的术语。我甚至不记得我读过多少关于生成式AI的论文，并在这里总结了它们。它们令人印象深...

WAYVE 推出 GAIA-1 一种新的生成式人工智能模型，通过利用视频、文本和动作输入，创建逼真的驾驶视频，实现自主驾驶

汽车工业一直追求自动驾驶的目标，认识到其在改革交通和提高道路安全方面的潜力。然而，开发能够有效地在复杂的现实情景中导...

这篇来自谷歌的AI论文提出了一系列优化措施，通过在各种设备上执行大型扩散模型，共同实现了突破性的延迟指标

随着大型扩散模型在图像生成中变得更加普遍，模型大小和推理工作量已经大幅增长。由于资源限制，在移动环境中优化设备上的ML...

微软研究人员提出BioViL-T：一种新颖的自我监督框架，引入了在生物医学应用中提高预测性能和数据效率的增强型技术

人工智能（AI）已经成为许多行业的重要破坏性力量，从技术企业的运营方式到如何在医疗保健领域的不同子领域中解锁创新。特别...

使用新的计算机视觉技术学习姿态估计

介绍在图像或视频序列中找到并跟踪重要身体关节或关键点的位置是姿态检测的任务，通常称为姿态估计或关键点检测。它旨在理解...

使用人工智能和计算机视觉检测癌症生长

乳腺癌是女性中最致命的癌症之一根据世界卫生组织（WHO）的数据，仅在2020年，就诊断出了约230万例浸润性乳腺癌……

AI看到你看到的：Mind’s Eye是一种AI模型，可以将脑部扫描重建成图像

我们一直被理解大脑如何运作的挑战所吸引。神经科学领域已经取得了很大的进展，但我们仍然缺乏关于我们的大脑如何工作的可靠...

通过人类关注预测模型实现令人愉悦的用户体验

Google Research的高级研究科学家Junfeng He和员工研究科学家Kai Kohlhoff发布了这篇文章。人类有着惊人的能力，可以接受大...

揭秘DreamBooth：个性化文本到图像生成的新工具

想象一下，在雅典卫城的背景下，轻松生成一张你心爱小狗的新图片时的喜悦还不满足，你想看看梵高会如何画...

阿里巴巴集团和蚂蚁集团的研究人员推出了VideoComposer：一种AI模型，它可以将多种模式（如文本、草图、风格甚至运动）组合起来驱动视频生成

当前的视觉生成模型，特别是基于扩散的模型，在自动化内容生成方面取得了巨大的进展。由于计算、数据可扩展性和架构设计的进...

中国的研究人员介绍了Make-Your-Video：一种通过使用文本和结构指导进行视频转换的方法

视频是一种常用的数字媒介，因其能够呈现生动有趣的视觉体验而备受青睐。随着智能手机和数码相机的普及，用相机记录现场事件...

苹果研究员推出ByteFormer：一种仅使用字节并不显式地建模输入方式的AI模型

深度学习推理通常需要明确建模输入模态。例如，通过将图片补丁编码为向量，Vision Transformers (ViTs) 直接模拟了图像的二维...

Image Description

Your AI Partner

Image Description

Exploring the future with AI

Web Analytics