Learn more about Applications - Section 10

苹果研究人员引入了一种突破性的人工智能方法，可以从动态姿态的RGB图像中进行稠密三维重建

“` 通过学习的先验，仅使用单目相机的RGB重建在解决低纹理区域和基于图像重建的固有模糊性问题方面取得了显著进展。实...

揭示卡通动画的未来：AnimeInbet在线动画描线中的创新

卡通动画自从20世纪初的起源以来，已经取得了显著的进展，当时动画师还是手工在纸上逐帧绘制。虽然在动画制作中已经引入了自...

“ConvNet是否卷土重来？揭示其在大规模Web数据集和匹配视觉转换器上的性能”

研究人员挑战了计算机视觉领域中的主流观点，认为当视觉转换器（ViTs）获得大规模网络数据集的访问权限时，它们优于卷积神经...

如何使基于模型的基础保持最新数据？苹果和CMU的研究人员推出了第一个具有12.7B个时间戳图像-文本对的网络规模时间连续（TiC）基准，用于VLM的持续训练

“`html 大规模多模态基础模型如CLIP、Flamingo和Stable Diffusion的贡献引发了多模态学习的范式变革，使图像生成和零样...

哥伦比亚大学和苹果公司的研究人员推出了Ferret：一种突破性的多模态语言模型，用于高级图像理解和描述

如何促进模型的空间知识是视觉语言学习中的一个重要研究问题。这个困境要求两种必备能力：引用和基础。基础要求模型根据提供...

“见面吧GROOT：基于视觉的操纵的强大仿真学习框架，具有以物体为中心的三维先验知识和自适应策略泛化”

随着人工智能的流行和应用案例增加，模仿学习（IL）已经被证明是一种成功的技术，用于教授基于神经网络的视觉运动策略，以执...

遇见尤里卡：由大型语言模型（LLMs）驱动的人类级奖励设计算法

大型语言模型（LLMs）在高级规划方面表现出色，但需要帮助掌握低级任务，如旋转笔技巧。然而，NVIDIA、UPenn、Caltech和UT Au...

人工智能生成内容（AIGC）中的视频扩散模型综述

“`html 人工智能正在蓬勃发展，计算机视觉作为其子领域也是如此。从研究人员、学者到学者，它引起了很多关注，并对许多...

据耶鲁大学和Google DeepMind的研究人员使用先进的微调技术在大型语言模型上取得了数学问题解决的成功

即使是最先进的大型语言模型（LLMs），如GPT-4和PaLM 2，也很难解决数学问题，因为这需要想象力、数学推理和计算。当LLMs被允...

《来自华盛顿大学和NVIDIA的研究人员提出的人形智能代理：一种用于生成型代理的人类模拟的人工智能平台》

类人生成代理通常用于聊天机器人和虚拟助手，以提供自然而引人入胜的用户互动。它们能够理解和回答用户的查询，参与对话，并...

见识LAMP：一种利用文本到图像扩散模型学习运动模式的几次训练AI框架

最近的一项研究引入了一种开创性的少样本调整框架——LAMP，旨在解决文本到视频（T2V）生成的挑战。虽然文本到图像（T2I）生成...

微软研究员介绍Table-GPT：提升语言模型在二维表格理解和任务上的表现

随着人工智能领域的最新发展，包括GPT和LLaMa在内的大型语言模型在自然语言任务的广泛领域中持续展现出卓越的性能。这些模型...

如何利用预先训练的视觉表达解决长期操纵问题？认识通用视觉分解器（UVD）：一种用于从视频中识别子目标的现成方法

在研究论文“通用视觉分解器：轻松实现长期目标操控”中，作者们解决了教会机器人从视觉观察中执行长期目标操控任务的挑战。这...

这个AI研究介绍了“RAFA”：一个可证明样本效率的自治LLM智能体的原则人工智能框架

尽管LLM的推理能力很出色，但它们仍然需要改进以将这些能力应用于实际环境中。特别是，如何通过最小的与外部世界的互动来可靠...

颠覆性文件解析：与DSG相遇- 第一个可训练的分层结构提取端到端系统

文档结构生成器（DSG）是一种强大的解析和生成结构化文档的系统。 DSG超越了商业OCR工具的能力，并树立了新的性能标准，将其...

德州大学奥斯汀分校研究人员推出了LIBERO：一个终身机器人学习基准，以研究大规模决策和机器人领域的知识传递

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screen...

检索扩充对长文问题回答的影响是怎样的？这项人工智能研究为我们提供了新的观点，揭示了检索扩充对语言模型生成丰富知识文本的影响

在产生深度问题回答时，着重研究了检索如何影响答案的生成。这项研究提供了两个模拟的研究背景，一个保持语言模型（LM）不变...

利用 Segmind APIs 实现稳定扩散模型的无服务器 API

介绍在现代软件开发中，无服务器计算的出现彻底改变了我们构建和部署应用程序的方式。在可用的工具和技术中，无服务器API已...

迎接OmniControl：一种人工智能方法，将灵活的空间控制信号纳入基于扩散过程的文本条件人体运动生成模型中

研究人员解决了将每个关节上的空间控制信号在任何给定的时间转化为文本条件下的人体动作产生的问题。现代基于扩散的...

来自阿姆斯特丹大学和高通人工智能研究团队的研究员们开发了一种名为VeRA的创新微调人工智能方法，与LoRA相比，可以将可训练参数的数量减少10倍

随着自然语言处理应用领域的不断扩展，对能够有效理解和执行特定指令的模型的需求也越来越大，而这些模型要求具备最少的计算...

Image Description

Your AI Partner

Image Description

Exploring the future with AI

Web Analytics