Learn more about Computer vision - Section 4

“见面吧GROOT：基于视觉的操纵的强大仿真学习框架，具有以物体为中心的三维先验知识和自适应策略泛化”

随着人工智能的流行和应用案例增加，模仿学习（IL）已经被证明是一种成功的技术，用于教授基于神经网络的视觉运动策略，以执...

人工智能生成内容（AIGC）中的视频扩散模型综述

“`html 人工智能正在蓬勃发展，计算机视觉作为其子领域也是如此。从研究人员、学者到学者，它引起了很多关注，并对许多...

《来自华盛顿大学和NVIDIA的研究人员提出的人形智能代理：一种用于生成型代理的人类模拟的人工智能平台》

类人生成代理通常用于聊天机器人和虚拟助手，以提供自然而引人入胜的用户互动。它们能够理解和回答用户的查询，参与对话，并...

见识LAMP：一种利用文本到图像扩散模型学习运动模式的几次训练AI框架

最近的一项研究引入了一种开创性的少样本调整框架——LAMP，旨在解决文本到视频（T2V）生成的挑战。虽然文本到图像（T2I）生成...

微软研究员介绍Table-GPT：提升语言模型在二维表格理解和任务上的表现

随着人工智能领域的最新发展，包括GPT和LLaMa在内的大型语言模型在自然语言任务的广泛领域中持续展现出卓越的性能。这些模型...

迎接OmniControl：一种人工智能方法，将灵活的空间控制信号纳入基于扩散过程的文本条件人体运动生成模型中

研究人员解决了将每个关节上的空间控制信号在任何给定的时间转化为文本条件下的人体动作产生的问题。现代基于扩散的...

遇见ScaleCrafter：通过预训练扩散模型解锁超高分辨率图像合成

近年来，图像合成技术的发展经历了显着的增长，引起了学术界和行业界的广泛关注。文本到图像生成模型和稳定扩散（SD）是该领...

M42推出Med42：一个开放获取的临床大型语言模型（LLM），扩大对医学知识的获取

总部位于阿布扎比的M42 Health刚刚发布了Med42，这是一个有前途的新型开放性临床大型语言模型。这个700亿参数的模型的发布是...

“认识Universal Simulator (UniSim)：通过生成建模的真实世界互动的交互式模拟器”

生成模型已经在文本、图像和视频的内容创作方面发挥了重要作用。下一个前沿就是模拟由人类和代理行为而引发的逼真体验。为此...

“遇见Decaf：一种面部和手部互动的新型人工智能单目变形捕捉框架”

“`html 三维立体（3D）跟踪是计算机视觉和人工智能领域的前沿领域。它专注于仅利用单个二维视频流来估计物体或场景的三...

一个新的AI研究通过计算机视觉揭示了锂离子电池的秘密

数十亿微小的粒子密集堆积在可充电锂离子电池电极中，起着存储和供应能量的关键作用。通过X射线电影对这个过程进行可视化提供...

来自谷歌和约翰霍普金斯大学的研究人员揭示了一种更快、更高效的文本到图片生成方法：克服扩散模型的局限性

通过产生高质量和多样化的结果，基于大规模数据训练的文本到图像扩散模型在生成任务中占据了重要地位。在最近发展的趋势中，...

遇见 Waymo 的 MotionLM：这种先进的多智能体运动预测方法可以让大型语言模型（LLM）帮助驾驶汽车成为可能

自回归语言模型在没有预定义的语法或解析概念的情况下，已经在预测句子中的下一个子词方面取得了出色的成果。这种方法已经扩...

UC Berkeley和UCSF研究人员革命性改变神经视频生成：引入LLM-Grounded视频扩散（LVD）以改善时空动态

为了应对从文本提示生成视频的挑战，一组研究人员提出了一种新的方法，称为基于LLM的视频扩散（LVD）。核心问题在于现有模型...

我们能真正相信人工智能AI数字水印技术吗？这篇AI论文揭示了当前深度伪造方法防御中的弱点

生成人工智能领域的快速发展使数字内容创作的格局发生了重大变化。这些AI算法已经进步并变得更广泛可用，可以创建非常引人入...

Google DeepMind介绍了直接奖励微调(DRaFT)：一种用于微调扩散模型以最大化可微奖励函数的有效人工智能方法

扩散模型已经在各种数据类型的生成建模中引起了革命。然而，在从文本描述中生成美观的图像等实际应用中，通常需要进行微调。...

“打破3D实例分割的边界：改进伪标记和逼真场景的开放世界方法”

通过提供物体实例级别的分类和语义标注，3D语义实例分割试图识别由点云或网格表示的给定3D场景中的物体。包括机器人、增强现...

DETR（目标检测的变压器）

注意：本文深入探讨了计算机视觉这个复杂领域，特别关注Transformer和注意力机制建议读者先熟悉以下关键概念...

中国的研究人员公布了ImageReward：一种突破性的人工智能方法，利用人类偏好反馈优化文本到图像模型

“` 近年来，文本到图像生成模型取得了巨大的发展，包括自回归和扩散方法。这些模型在给定正确的语言描述（即提示）时，...

认识创造者：机器人学生用NVIDIA Jetson打造自动轮椅

在人工智能、机器人、拖拉机、婴儿推车甚至滑板公园的帮助下，这些东西正在变得自主化。其中一位开发者Kabilan KB正在将自主...

Image Description

Your AI Partner

Image Description

Exploring the future with AI

Web Analytics