Learn more about Applications - Section 18

微软研究员发布PromptTTS 2:通过增强语音可变性和成本效益的提示生成,革新文本转语音技术

由于文本到语音系统的最新发展,合成语音的可懂性和自然度得到了改善。已经为多说话者环境创建了大规模的TTS系统,一些TTS系...

LLMs和数据分析:AI如何对大数据进行商业洞察

大型语言模型(LLMs)具有通过广泛的数据集提供有价值的商业洞察的能力。本文探讨了公司如何利用LLMs分析客户评论、社交媒体...

普林斯顿研究人员提出CoALA:一个概念性人工智能框架,用于系统地理解和构建语言代理

在快速发展的人工智能领域中,开发能够理解和生成人类语言的语言代理人已经成为一个巨大的挑战。这些代理人被期望能够理解和...

索尼研究人员提出了BigVSAN:通过GAN-Based Vocoders中的切片对抗网络彻底改变音频质量

神经网络的发展和它们不断增长的受欢迎程度导致了语音合成技术的显著改进。大多数语音合成系统使用两阶段方法:首先,它们从...

“认识ResFields:一种新颖的人工智能方法,克服了时空神经场在有效建模长期和复杂时间信号方面的局限性”

用于表示神经连续时空场的最流行的神经网络架构,也称为神经场,是多层感知器。这是因为它可以对任意维度上的连续信号进行编...

“带我走进时间:SceNeRFlow是一种生成时间一致的NeRF的人工智能方法”

神经辐射场(NeRF)最近在3D领域中成为了一个革命性的概念。它重新塑造了我们处理3D对象可视化的方式,并开启了新的可能性。...

康奈尔大学和特拉维夫大学的研究人员介绍了“Doppelgangers 学习区分相似结构的图像”

请看上面的图片。你能分辨出区别吗?就像区分双胞胎一样。也许其中一个的头发略短一些?还是说他是这样的?在计算机视觉系统...

顶级的GPT和AI内容检测器

GPTZero 教育工作者和其他对识别AI生成的文本感兴趣的人可以使用一个名为GPTZero的工具。GPTZero包括一个剽窃分数,提供了一...

谷歌AI推出了一个新的TensorFlow模拟框架,可以利用TPU计算流体流动

在流体力学中,通过数值技术和算法来研究和解决涉及流体流动和传热行为的问题,被称为计算流体力学(CFD)。它可以应用于各种...

机器人如何做出更好的决策?MIT和斯坦福研究人员推出了Diffusion-CCSP,用于先进的机器人推理和规划

选择连续值的能力(例如握持和物体放置),以满足复杂的几何和物理约束条件(如稳定性和避免碰撞),对于机器人操作规划至关...

Adept AI Labs 开源了 Persimmon-8B:一款功能强大的完全许可证开放的语言模型

近年来,人工智能领域取得了显著进展,特别是在语言模型的发展方面。在Marktechpost Media上,我们已经报道了许多基于不同参...

“见识Falcon 180B:具备1800亿参数的最大开放语言模型”

强大而多功能的语言模型需求在自然语言处理和人工智能领域变得更加迫切。这些模型是众多应用的基础,从聊天机器人和虚拟助手...

遇见WavJourney:一种基于大型语言模型的音频创作AI框架

多模态人工智能(AI)的新兴领域将视觉、听觉和文本数据融合,为个性化娱乐和改进的辅助功能等各个领域提供了令人兴奋的潜力...

苹果研究人员提出了一种新的张量分解模型,用于处理隐式反馈的协同过滤

从过去的行为中推断用户偏好的能力对于有效的个性化建议至关重要。许多产品没有星级评分使得这个任务变得更加具有挑战性。过...

这项AI研究介绍了Point-Bind:一种将点云与2D图像、语言、音频和视频进行对齐的3D多模态模型

在当前的技术环境中,3D视觉因其快速增长和演化而备受关注,成为崭露头角的明星。对此兴趣的激增主要归因于对自动驾驶、增强...

“这项人工智能研究通过深度学习和进化算法彻底改变了硅马赫-泽尔德调制器的设计”

由于Netflix和物联网的普及以及向分布式计算和存储架构的转变,网络传输容量需求不断增长。在网络成本较高的短距离应用中,尤...

遇见城市梦想家:一种用于无限制三维城市的组合生成模型

近年来,3D自然场景的创建一直是研究的热点。在创建多种类型的3D物体(包括3D城市、3D场景和3D化身)方面已经取得了重大进展...