Learn more about Staff - Section 8

“遇见BLIVA：一种多模态大型语言模型，用于更好地处理文本丰富的视觉问题”

最近，大型语言模型（LLMs）在自然语言理解领域发挥了关键作用，展示了在广泛任务范围内泛化的非凡能力，包括零-shot和少-sho...

“人工智能如何革新有声图书制作？利用神经文本转语音技术从电子书籍中创作成千上万本高质量的有声图书”

如今，许多人选择阅读有声书而不是传统的书籍或其他媒体。有声书不仅让读者在路上也能享受信息，还能帮助让内容对各个群体更...

麻省理工学院的研究人员引入了一种新颖的轻量级多尺度关注机制，用于设备端的语义分割

语义分割是计算机视觉中的一个基本问题，其目标是为输入图像中的每个像素分类为某个类别。自动驾驶、医学图像处理、计算摄影...

谷歌DeepMind研究探索了神经网络中令人困惑的理解现象：揭示了记忆和泛化之间的相互作用

神经网络学习和泛化的传统理论受到了神经网络中的理解现象的考验。当神经网络被训练时，期望是随着训练损失降低并收敛到一个...

见到NExT-GPT：一种端到端的通用任意多模态大型语言模型（MM-LLMs）

多模式语言模型（Multimodal LLMs）可以通过语音、文本和视觉输入实现更自然和直观的用户与人工智能系统之间的交互，从而增强...

赫瑞瓦特大学和Alana AI的研究人员提出了FurChat：一种基于大型语言模型的新型具有实体交互功能的对话代理系统

大型语言模型（LLMs）在科技正在飞速发展的世界中占据了重要地位。这些LLMs是非常复杂的计算机程序，可以以非常自然的方式理...

UCI和哈佛研究人员推出了TalkToModel，它可以向用户解释机器学习模型

机器学习模型已成为各个专业领域中不可或缺的工具，推动智能手机、软件包和在线服务的应用。然而，这些模型的复杂性使得它们...

一项来自特拉维夫和哥本哈根大学的新的人工智能研究引入了一种“即插即用”的方法，通过使用辨别信号来快速微调文本到图像扩散模型

文本到图像扩散模型在根据输入文本描述生成多样且高质量图像方面取得了令人印象深刻的成功。然而，当输入文本在词汇上存在歧...

微软研究院推出BatteryML：一款用于电池衰减的机器学习开源工具

锂离子电池由于其高能量密度、长循环寿命和低自放电率，在当代能源储存中成为关键所在。这些特性使它们在电动汽车、消费电子...

认识FLM-101B：一个拥有1010亿参数的开源解码器型LLM

最近，大型语言模型（LLM）在自然语言处理（NLP）和多模态任务方面表现出色，但面临两个重大挑战：高计算成本和难以进行公平...

结识TensorRT-LLM：一款在NVIDIA Tensor Core GPU上加速和优化最新LLM推理性能的开源库

人工智能（AI）大型语言模型（LLMs）可以生成文本，翻译语言，写各种形式的创意材料，并为您的问题提供有用的答案。然而，LLM...

认识PyGraft：一款开源的基于Python的人工智能工具，可以生成高度定制化的、与领域无关的模式和知识图谱

一种越来越受欢迎的表示数据的图结构的方法是使用知识图谱（KGs）。KG是一组三元组（s，p，o），其中s（主体）和o（对象）是...

大型语言模型真的能做数学吗？这篇人工智能研究介绍了MathGLM：一个强大的模型，可以在没有计算器的情况下解决数学问题

谈到下游自然语言处理（NLP）任务时，大型语言模型（LLMs）已被证明非常有效。为了生成连贯和相关上下文的回复，像GPT4和Chat...

低成本四足机器人能掌握跑酷吗？揭示了一种革命性的敏捷机器人运动学习系统

使机器人执行复杂的物理任务，比如在具有挑战性的环境中导航，一直以来都是机器人技术领域的一大难题。这个领域中最具挑战性...

“《侏罗纪公园》的等待结束了吗？这种人工智能模型使用图像到图像的转换技术将古老的化石复活了起来”

图像到图像的转换（I2I）是计算机视觉和机器学习领域内的一个有趣领域，它有能力将图像内容从一个域转换到另一个域而无缝衔接...

通过密度提示链增强GPT-4摘要

近年来，大型语言模型由于其出色的能力而备受关注。大型语言模型可以进行问题回答、内容生成、语言翻译和文本摘要等各种任务...

百度AI研究人员推出VideoGen：一种新的文本到视频生成方法，可以生成高清视频并具有高帧率保真度

文本到图像（T2I）生成系统，例如DALL-E2、Imagen、Cogview、Latent Diffusion等，在近年来取得了长足的进展。另一方面，文本...

如何减轻细粒度图像分类中的背景引起的偏差？屏蔽策略和模型架构的比较研究

细粒度图像分类深入研究了在更广泛的类别中区分密切相关的子类别。例如，不仅仅将图像识别为”鸟”，这种方法可以...

谷歌研究员提出了MEMORY-VQ：一种新的人工智能方法，可以减少存储要求，而不会牺牲存储增强模型的性能

近期语言模型的研究强调了提高事实知识的检索增强的重要性。检索增强涉及为这些模型提供相关的文本段落以提高其性能，但这会...

微软研究员发布PromptTTS 2：通过增强语音可变性和成本效益的提示生成，革新文本转语音技术

由于文本到语音系统的最新发展，合成语音的可懂性和自然度得到了改善。已经为多说话者环境创建了大规模的TTS系统，一些TTS系...

Image Description

Your AI Partner

Image Description

Exploring the future with AI

Web Analytics