Learn more about Staff - Section 8

“遇见BLIVA:一种多模态大型语言模型,用于更好地处理文本丰富的视觉问题”

最近,大型语言模型(LLMs)在自然语言理解领域发挥了关键作用,展示了在广泛任务范围内泛化的非凡能力,包括零-shot和少-sho...

“人工智能如何革新有声图书制作?利用神经文本转语音技术从电子书籍中创作成千上万本高质量的有声图书”

如今,许多人选择阅读有声书而不是传统的书籍或其他媒体。有声书不仅让读者在路上也能享受信息,还能帮助让内容对各个群体更...

麻省理工学院的研究人员引入了一种新颖的轻量级多尺度关注机制,用于设备端的语义分割

语义分割是计算机视觉中的一个基本问题,其目标是为输入图像中的每个像素分类为某个类别。自动驾驶、医学图像处理、计算摄影...

谷歌DeepMind研究探索了神经网络中令人困惑的理解现象:揭示了记忆和泛化之间的相互作用

神经网络学习和泛化的传统理论受到了神经网络中的理解现象的考验。当神经网络被训练时,期望是随着训练损失降低并收敛到一个...

见到NExT-GPT:一种端到端的通用任意多模态大型语言模型(MM-LLMs)

多模式语言模型(Multimodal LLMs)可以通过语音、文本和视觉输入实现更自然和直观的用户与人工智能系统之间的交互,从而增强...

UCI和哈佛研究人员推出了TalkToModel,它可以向用户解释机器学习模型

机器学习模型已成为各个专业领域中不可或缺的工具,推动智能手机、软件包和在线服务的应用。然而,这些模型的复杂性使得它们...

微软研究院推出BatteryML:一款用于电池衰减的机器学习开源工具

锂离子电池由于其高能量密度、长循环寿命和低自放电率,在当代能源储存中成为关键所在。这些特性使它们在电动汽车、消费电子...

认识FLM-101B:一个拥有1010亿参数的开源解码器型LLM

最近,大型语言模型(LLM)在自然语言处理(NLP)和多模态任务方面表现出色,但面临两个重大挑战:高计算成本和难以进行公平...

结识TensorRT-LLM:一款在NVIDIA Tensor Core GPU上加速和优化最新LLM推理性能的开源库

人工智能(AI)大型语言模型(LLMs)可以生成文本,翻译语言,写各种形式的创意材料,并为您的问题提供有用的答案。然而,LLM...

低成本四足机器人能掌握跑酷吗?揭示了一种革命性的敏捷机器人运动学习系统

使机器人执行复杂的物理任务,比如在具有挑战性的环境中导航,一直以来都是机器人技术领域的一大难题。这个领域中最具挑战性...

通过密度提示链增强GPT-4摘要

近年来,大型语言模型由于其出色的能力而备受关注。大型语言模型可以进行问题回答、内容生成、语言翻译和文本摘要等各种任务...

如何减轻细粒度图像分类中的背景引起的偏差?屏蔽策略和模型架构的比较研究

细粒度图像分类深入研究了在更广泛的类别中区分密切相关的子类别。例如,不仅仅将图像识别为”鸟”,这种方法可以...

微软研究员发布PromptTTS 2:通过增强语音可变性和成本效益的提示生成,革新文本转语音技术

由于文本到语音系统的最新发展,合成语音的可懂性和自然度得到了改善。已经为多说话者环境创建了大规模的TTS系统,一些TTS系...