Learn more about Editors Pick - Section 3

这篇由香港大学和阿里巴巴集团的人工智能研究揭示的“活照片”：文本控制的视频动画和运动强度定制的一个飞跃

香港大学、阿里巴巴集团和蚂蚁集团的研究人员开发了LivePhoto，以解决当前文本到视频生成研究中忽视时间动作的问题。LivePhot...

这项人工智能研究揭示出 Alpha-CLIP：通过有针对性的注意力和增强控制提升多模态图像分析

我们如何改进CLIP以实现更加专注和可控的图像理解和编辑？上海交通大学、复旦大学、香港中文大学、上海人工智能实验室、澳门...

这项AI研究提出了一种将姿势物体识别作为下一个标记预测的新方法

我们如何有效地进行物体识别？Meta AI和马里兰大学的研究人员团队通过开发一种新的方法来解决物体识别问题，该方法利用语言解...

见面Neosync：用于在开发环境和测试中同步和匿名化生产数据的开源解决方案

在软件开发中，团队在测试和开发过程中经常面临处理敏感生产数据的挑战。在数据隐私和安全与强大测试的必要性之间取得平衡可...

谷歌AI研究推出颠覆性的量子算法，高效模拟耦合振荡器

经典力学处理物体的运动、作用在它们上面的力以及与它们的活动相关的能量。量子力学是物理学中的一个基本理论，描述了物质和...

微软和清华大学的研究人员提出了SCA（分割和说明任何）来有效装备SAM模型生成区域说明的能力

计算机视觉和自然语言处理的交点长期以来一直在应对在图像中为实体生成区域字幕的挑战。该任务因训练数据中缺乏语义标签而变...

练习SQL的最佳平台

“`html SQL，或结构化查询语言，就像数据库的语言。这是计算机了解和管理数据的一种方式。无论您是想成为数据分析师、...

与GPS-Gaussian见面：一种以实时方式合成角色新视图的新型人工智能方法

多视角摄像系统的一个重要功能是新视角合成（NVS），它试图使用源照片从新的角度生成逼真的图像。人类NVS的子领域在全息通信...

纽约大学的研究人员提出了GPQA：一项挑战性的数据集，其中包含由生物学、物理学和化学领域的专家编写的448道多项选择题

大型语言模型（LLMs）正在人工智能（AI）领域处于前沿，显示出超越人类技能的巨大潜力。但是，当这些模型接近超人类能力时，...

遇见Vchitect：一款用于文本到视频（T2V）和图像到视频（I2V）应用的开源大规模综合视频创作系统

最近，人工智能（AI）的普及度呈指数增长，这导致了深度生成模型的一些重大进展。这些模型已应用于视频生成领域，用于创造图...

Adobe 研究人员提出了 DMV3D：一种新颖的 3D 生成方法，使用基于 Transformer 的 3D 大型重建模型来去噪多视角扩散

在增强现实（AR）、虚拟现实（VR）、机器人技术和游戏领域中，3D资产创建面临着一个普遍的挑战。3D扩散模型的流行度激增，该...

MIT和Adobe的研究人员介绍了Distribution Matching Distillation（DMD）：一种人工智能方法，可以将扩散模型转化为一步生成图像的方法

通过稳定的训练过程，扩散模型已经改变了图片生成的方式，实现了以往无法想象的多样性和真实度。但与GAN和VAE不同，扩散模型...

这项AI研究推出了CoDi-2：一种突破性的多模态大型语言模型，改变了交错指令处理和多模态输出生成的领域

研究人员在加州大学伯克利分校、微软Azure AI、Zoom和北卡罗来纳大学教堂山分校共同开发了CoDi-2多模态大语言模型（MLLM），...

谷歌研究人员揭示通用自洽性（USC）：为复杂任务性能提供大型语言模型的新飞跃

Google的研究人员通过他们的Universal Self-Consistency（USC）方法解决了在任务性能上增强数学推理和代码生成等任务中从多个...

顶级人工智能电子邮件助手（2023年12月）

人工智能电子邮件助手使编写电子邮件更快更容易。自动任务完成，消息优先级和即时，深入的答案只是人工智能电子邮件助手如何...

少量数据标注 + 更多 AI = 深度主动学习

训练人工智能（AI）模型通常需要大量标记数据。这可能非常昂贵和耗时，尤其是对于像图像识别或自然语言处理这样的复杂任务。...

“认识Ego-Exo4D：一套支持视频学习和多模式感知研究的基础数据集和基准套件”

如今，人工智能几乎应用于几乎所有可以想象的领域。它无疑改变了我们的生活，使过程更加简化，效率更高，这是我们之前无法想...

谷歌AI研究呈现Translatotron 3：一种新颖的无监督语音到语音翻译架构

语音到语音翻译（S2ST）是一项破解语言障碍的变革性技术，但是平行语音数据的稀缺性阻碍了其进展。大多数现有模型需要监督设...

马克斯·普朗克研究人员推出PoseGPT：一种使用大型语言模型（LLMs）来理解和推理图像或文本描述中的3D人体姿势的人工智能框架

人的姿势对整体健康、幸福和生活的各个方面至关重要。它包括坐、站或躺时身体的对齐和定位。良好的姿势支持肌肉、关节和韧带...

关于小型语言模型（SLM）及其应用的一切你需要了解的事情

大型语言模型（LLMs），如GPT、PaLM、LLaMA等，因其令人难以置信的能力而受到广泛关注。它们利用自然语言处理、生成和理解的...

Image Description

Your AI Partner

Image Description

Exploring the future with AI

Web Analytics