Learn more about Computer vision - Section 3

新加坡南洋理工大学的研究人员提出OtterHD-8B：一种从Fuyu-8B进化而来的创新多模态人工智能模型

新加坡南洋理工大学的S-Lab研究人员介绍了OtterHD-8B，这是一种创新的多模型，来源于Fuyu-8B，专门用于精确解释高分辨率视觉...

华美和多伦多大学的研究员们推出了LabelFormer：一种高效的基于Transformer的人工智能模型，用于改进自动标注的物体轨迹

现代自动驾驶系统经常使用大规模手动注释的数据集来训练目标检测器，以识别图片中的交通参与者。最近，自动标注方法因其在计...

剑桥的研究人员开发了一种使用机器学习的虚拟现实应用程序，使用户能够在虚拟现实中获得超人能力来打开和控制工具

快捷键通常在传统桌面应用程序中找到，是键盘快捷方式。剑桥大学的一个研究团队探索了在键盘输入不再是唯一选择的3D交互空间...

元研究人员引入了VR-NeRF：一种用于高保真度捕捉和渲染虚拟现实中可行走空间的先进端到端AI系统

随着价格实惠的虚拟现实（VR）技术的出现，高度沉浸式的视觉媒体，如逼真的VR摄影和视频，得到了显著的增长。现有的方法主要...

杜克大学研究人员提出了政策编织：一种新颖的人工智能框架，可以促进机器人在新的机器人和任务组合上进行转移学习

“`html 在机器人技术中，研究人员在使用强化学习（RL）让机器人学习新技能时面临着挑战，因为这些技能对环境和机器人结...

这篇AI论文介绍了计算机视觉骨干网络的全面分析：揭示了预训练模型的优势和劣势

在计算机视觉中，骨干是许多深度学习模型的基本组件。分类、检测和分割等下游活动依赖于骨干提取的特征。近年来，新的预训练...

斯坦福大学的研究人员介绍了RT-Sketch：通过手绘草图作为目标规范来提升视觉模仿学习的能力

研究人员引入手绘草图作为视觉模仿学习中指定目标的一种未被开发的方式。草图在自然语言的模糊性和图像过度详细的规范化之间...

这项AI研究介绍了两种高质量视频生成的扩散模型：文本到视频(T2V)和图像到视频(I2V)模型

香港的一组研究人员引入了两个开源扩散模型，用于高质量视频生成。文本到视频（T2V）模型从文本输入生成影片质量的视频，超过...

这个人工智能研究引入了突破性的方法来定制语言模型到芯片设计

ChipNeMo探索了LLMs在工业芯片设计中的利用，采用了领域自适应技术而不是依赖现成的LLMs。这些技术涉及自定义标记化、领域自...

牛津大学的研究人员介绍了DynPoint：一种人工智能算法，旨在促进无限制单目视频的快速合成新视角

计算机视觉界一直在积极关注新型视角合成（VS）技术，因为它有潜力推进人工现实并增强机器对特定场景的视觉和几何方面的理解...

伦敦帝国学院团队开发出一种用于少样本模仿学习的人工智能方法：用最少的演示来掌握新颖的现实世界任务

在机器人技术和人工智能不断发展的领域中，一个有趣且具有挑战性的问题是如何教育机器人在完全独特的物体上进行工作，即它们...

精巧、高效的AI梦幻机器：DejaVu减少了AI闲聊的成本，同时保持聪明智慧

训练一个大型的语言模型需要大量的计算资源，包括强大的GPU和TPU，以及专门的硬件，如AI加速器。这些资源的获取和维护成本很...

腾讯AI实验室推出了渐进条件扩散模型（PCDMs），通过三个阶段逐步缩小目标和源姿势下的人物图像之间的差距

姿势引导的人物图像合成研究领域近年来取得了重大进展，其重点是生成以不同姿势为特征但外貌相同的人物图像。这项技术在电子...

认识Wonder3D：一种新颖的人工智能方法，可以从单视角图像高效生成高保真带纹理的网格模型

从单个图像中重建3D几何形状代表了计算机图形学和3D计算机视觉领域的一项基础工作，正如之前的研究所显示的那样，这项任务具...

这项人工智能研究介绍了DreamCraft3D：一种用于创建生成连贯且高保真度3D模型的分层方法

“`html 2D生成建模的惊人流行大大影响了他们生成视觉资料的方式。深度生成网络在创建3D图像时仍然存在很大困难，而这对...

苹果研究人员引入了一种突破性的人工智能方法，可以从动态姿态的RGB图像中进行稠密三维重建

“` 通过学习的先验，仅使用单目相机的RGB重建在解决低纹理区域和基于图像重建的固有模糊性问题方面取得了显著进展。实...

揭示卡通动画的未来：AnimeInbet在线动画描线中的创新

卡通动画自从20世纪初的起源以来，已经取得了显著的进展，当时动画师还是手工在纸上逐帧绘制。虽然在动画制作中已经引入了自...

“ConvNet是否卷土重来？揭示其在大规模Web数据集和匹配视觉转换器上的性能”

研究人员挑战了计算机视觉领域中的主流观点，认为当视觉转换器（ViTs）获得大规模网络数据集的访问权限时，它们优于卷积神经...

如何使基于模型的基础保持最新数据？苹果和CMU的研究人员推出了第一个具有12.7B个时间戳图像-文本对的网络规模时间连续（TiC）基准，用于VLM的持续训练

“`html 大规模多模态基础模型如CLIP、Flamingo和Stable Diffusion的贡献引发了多模态学习的范式变革，使图像生成和零样...

哥伦比亚大学和苹果公司的研究人员推出了Ferret：一种突破性的多模态语言模型，用于高级图像理解和描述

如何促进模型的空间知识是视觉语言学习中的一个重要研究问题。这个困境要求两种必备能力：引用和基础。基础要求模型根据提供...

Image Description

Your AI Partner

Image Description

Exploring the future with AI

Web Analytics