Learn more about Editors Pick - Section 11

见识LAMP:一种利用文本到图像扩散模型学习运动模式的几次训练AI框架

最近的一项研究引入了一种开创性的少样本调整框架——LAMP,旨在解决文本到视频(T2V)生成的挑战。虽然文本到图像(T2I)生成...

微软研究员介绍Table-GPT:提升语言模型在二维表格理解和任务上的表现

随着人工智能领域的最新发展,包括GPT和LLaMa在内的大型语言模型在自然语言任务的广泛领域中持续展现出卓越的性能。这些模型...

如何利用预先训练的视觉表达解决长期操纵问题?认识通用视觉分解器(UVD):一种用于从视频中识别子目标的现成方法

在研究论文“通用视觉分解器:轻松实现长期目标操控”中,作者们解决了教会机器人从视觉观察中执行长期目标操控任务的挑战。这...

这个AI研究介绍了“RAFA”:一个可证明样本效率的自治LLM智能体的原则人工智能框架

尽管LLM的推理能力很出色,但它们仍然需要改进以将这些能力应用于实际环境中。特别是,如何通过最小的与外部世界的互动来可靠...

颠覆性文件解析:与DSG相遇- 第一个可训练的分层结构提取端到端系统

文档结构生成器(DSG)是一种强大的解析和生成结构化文档的系统。 DSG超越了商业OCR工具的能力,并树立了新的性能标准,将其...

检索扩充对长文问题回答的影响是怎样的?这项人工智能研究为我们提供了新的观点,揭示了检索扩充对语言模型生成丰富知识文本的影响

在产生深度问题回答时,着重研究了检索如何影响答案的生成。这项研究提供了两个模拟的研究背景,一个保持语言模型(LM)不变...

迎接OmniControl:一种人工智能方法,将灵活的空间控制信号纳入基于扩散过程的文本条件人体运动生成模型中

​​​​​​​​研究人员解决了将每个关节上的空间控制信号在任何给定的时间转化为文本条件下的人体动作产生的问题。现代基于扩散的...

谷歌云致力于为生成式人工智能赔偿提供客户保护

在积极的前瞻举措中,谷歌云再次确认对客户利益的承诺,将他们置于共创创新、支持和命运的前沿。这意味着当企业选择与谷歌云...

来自阿姆斯特丹大学和高通人工智能研究团队的研究员们开发了一种名为VeRA的创新微调人工智能方法,与LoRA相比,可以将可训练参数的数量减少10倍

随着自然语言处理应用领域的不断扩展,对能够有效理解和执行特定指令的模型的需求也越来越大,而这些模型要求具备最少的计算...

一项来自麻省理工学院的新人工智能研究显示了深度神经网络与我们看世界的方式不同

在复制人类感觉系统的复杂运作方面,神经科学和人工智能研究人员面临着一个持久的挑战:计算模型和人类感知之间的不变性差异...

来自中国的新人工智能研究提出了4K4D:一种支持硬件光栅化并实现了前所未有的渲染速度的4D点云表示

动态视图合成是从捕捉的视频中重建动态3D场景并创建沉浸式虚拟播放的过程。这个过程一直以来都是计算机视觉和图形学中的一个...

魔改MatFormer:一种适用于平台间灵活部署的通用嵌套变压器架构

Transformer模型在各种应用中得到应用,从强大的多加速器集群到个人移动设备。这些设置中的推断的各种需求使开发者举办训练基...

SalesForce AI推出CodeChain:一种通过一系列自我修订具有代表性子模块的模块化代码生成的创新人工智能框架

人工智能研究的一个主要目标是开发能够提供有用的计算机程序来解决具有挑战性的问题的AI系统。近年来在这方面已取得了很大的...

一支来自德国的研究团队已经开发出DeepMB:一种通过MSOT实现高质量和实时光声成像的深度学习框架

在医学成像中,快速获取高质量的图像长期以来一直制约着多光谱光声断层扫描(MSOT)的临床实用性。这项前沿技术承诺能够诊断...

CMU研究人员推出多模式图学习(MMGL):一种新的人工智能框架,用于捕捉多个多模式邻居之间的关系结构中的信息

多模态图学习是一门多学科领域,结合了机器学习、图论和数据融合的概念,用于解决涉及多种数据源及其相互关系的复杂问题。多...

KAIST研究人员提出了SyncDiffusion 通过从感知相似性损失进行梯度下降,同步多个扩散的即插即用模块

在最近的一篇研究论文中,韩国科学技术院的研究团队介绍了SYNCDIFFUSION,一种创新模块,旨在通过预训练的扩散模型增强全景图...

遇见ScaleCrafter:通过预训练扩散模型解锁超高分辨率图像合成

近年来,图像合成技术的发展经历了显着的增长,引起了学术界和行业界的广泛关注。文本到图像生成模型和稳定扩散(SD)是该领...

Python数据科学中Jupyter笔记本的6个神奇命令

在基于Python的数据科学项目领域,Jupyter Notebook的使用是无处不在的。这些交互式和用户友好的环境有助于代码和文档的无缝...

微软研究员提出DeepSpeed-VisualChat:可扩展的多模态语言模型训练中的一次飞跃

大语言模型是先进的人工智能系统,旨在在大规模上理解和产生与人类类似的语言。这些模型在各种应用中非常有用,如问答、内容...