Learn more about Computer vision

我们如何在人工智能中推进物体识别?这篇人工智能论文介绍了GLEE:一个用于增强图像和视频分析的通用物体级基础模型

图像和视频中的目标感知释放了机器解读视觉世界的力量。就像虚拟侦探一样,计算机视觉系统搜索像素,识别、追踪和理解涂绘数...

这篇人工智能论文介绍了RTMO技术:利用双1-D热图在实时多人姿势估计中取得的突破

姿势估计领域是一个快速发展的领域,涉及确定物体在空间中的位置和方向,研究人员不断开发新的方法提高其准确性和性能。清华...

这篇AI文献介绍了EdgeSAM:推进边缘设备上高速高效的图像分割机器学习

Segment Anything Model(SAM)是一种基于人工智能的模型,用于图像的对象检测和识别的分割。它是各种计算机视觉任务的有效解...

斯坦福大学和 Salesforce AI 的研究人员发布了UniControl:一种用于AI图像生成中高级控制的统一扩散模型

生成性基础模型是一类人工智能模型,旨在生成与其训练数据相似的新数据。这些模型常被应用于自然语言处理、计算机视觉、音乐...

这份AI论文揭示了“Vary”:一种扩展大型视觉-语言模型视觉词汇的新方法,用于先进的多语种感知任务

大型视觉语言模型(LVLMs)结合了计算机视觉和自然语言处理,可以生成关于视觉内容的文本描述。这些模型在图像字幕、可见问题...

这篇人工智能论文揭示了HyperDreamer:一种具有先进纹理、360度建模和交互式编辑的3D内容创作进展

从单个RGB图像生成详细逼真的3D模型并不容易。来自上海人工智能实验室、香港中文大学、上海交通大学和S-Lab NTU的研究人员提...

斯坦福大学的研究人员引入了一种新的人工智能框架,旨在增强当前模型对各种视觉概念的可解释性和生成能力

为了拥有多样的视觉创意,提升现有模型的可解释性和生成能力非常重要。斯坦福大学的研究人员推出了一种AI框架,用于学习以语...

谷歌研究揭示了生成无限词汇变换器(GIVT):在人工智能中开创了实值向量序列

“`html 变形金刚最初被引入,并迅速崛起为自然语言处理中的主要架构。最近,它们在计算机视觉中也获得了巨大的流行度。...

Meta AI呈现EfficientSAM SAM的小弟,参数减少20倍,运行时间提速20倍

在视觉领域中,Segment Anything Model(SAM)在许多图像分割任务中取得了显著的成功,包括零样本对象提案生成、零样本实例分...

这篇由香港大学和阿里巴巴集团的人工智能研究揭示的“活照片”:文本控制的视频动画和运动强度定制的一个飞跃

香港大学、阿里巴巴集团和蚂蚁集团的研究人员开发了LivePhoto,以解决当前文本到视频生成研究中忽视时间动作的问题。LivePhot...

这项人工智能研究揭示出 Alpha-CLIP:通过有针对性的注意力和增强控制提升多模态图像分析

我们如何改进CLIP以实现更加专注和可控的图像理解和编辑?上海交通大学、复旦大学、香港中文大学、上海人工智能实验室、澳门...

这项AI研究提出了一种将姿势物体识别作为下一个标记预测的新方法

我们如何有效地进行物体识别?Meta AI和马里兰大学的研究人员团队通过开发一种新的方法来解决物体识别问题,该方法利用语言解...

微软和清华大学的研究人员提出了SCA(分割和说明任何)来有效装备SAM模型生成区域说明的能力

计算机视觉和自然语言处理的交点长期以来一直在应对在图像中为实体生成区域字幕的挑战。该任务因训练数据中缺乏语义标签而变...

与GPS-Gaussian见面:一种以实时方式合成角色新视图的新型人工智能方法

多视角摄像系统的一个重要功能是新视角合成(NVS),它试图使用源照片从新的角度生成逼真的图像。人类NVS的子领域在全息通信...

遇见Vchitect:一款用于文本到视频(T2V)和图像到视频(I2V)应用的开源大规模综合视频创作系统

最近,人工智能(AI)的普及度呈指数增长,这导致了深度生成模型的一些重大进展。这些模型已应用于视频生成领域,用于创造图...

Adobe 研究人员提出了 DMV3D:一种新颖的 3D 生成方法,使用基于 Transformer 的 3D 大型重建模型来去噪多视角扩散

在增强现实(AR)、虚拟现实(VR)、机器人技术和游戏领域中,3D资产创建面临着一个普遍的挑战。3D扩散模型的流行度激增,该...

MIT和Adobe的研究人员介绍了Distribution Matching Distillation(DMD):一种人工智能方法,可以将扩散模型转化为一步生成图像的方法

通过稳定的训练过程,扩散模型已经改变了图片生成的方式,实现了以往无法想象的多样性和真实度。但与GAN和VAE不同,扩散模型...

这项AI研究推出了CoDi-2:一种突破性的多模态大型语言模型,改变了交错指令处理和多模态输出生成的领域

研究人员在加州大学伯克利分校、微软Azure AI、Zoom和北卡罗来纳大学教堂山分校共同开发了CoDi-2多模态大语言模型(MLLM),...

腾讯AI实验室推出GPT4Video:一种统一的多模态大型语言模型,用于指导跟踪理解和安全感知生成

“`html 解决视频理解和生成场景的问题,由腾讯AI实验室和悉尼大学的研究人员提出了GPT4Video。这个统一的多模型框架支...

马克斯·普朗克研究人员推出PoseGPT:一种使用大型语言模型(LLMs)来理解和推理图像或文本描述中的3D人体姿势的人工智能框架

人的姿势对整体健康、幸福和生活的各个方面至关重要。它包括坐、站或躺时身体的对齐和定位。良好的姿势支持肌肉、关节和韧带...