Google 在 CVPR 2023

谷歌计划经理Shaina Mehta发布了消息:

本周是全球首屈一指的计算机视觉和模式识别会议(CVPR 2023)的开幕之际。这次会议将在温哥华(BC)举行,同时还有额外的虚拟内容。作为计算机视觉研究的领导者和白金赞助商,谷歌研究将在CVPR 2023上拥有强大的影响力,主会场将有近90篇论文被发表,参与超过40个会议工作坊和教程。

如果您今年参加CVPR,请到我们的展台与我们的研究人员交流,他们正在积极探索最新的技术,以应用到机器感知的各个领域。我们的研究人员还将提供有关最近的工作的讲解和演示,包括使用MediaPipe的设备上的ML应用程序、差分隐私策略、神经辐射场技术等等。

您还可以在以下列表中了解我们在CVPR 2023上发表的研究(谷歌关联以粗体显示)。

董事会和组织委员会

高级领域主席包括:Cordelia SchmidMing-Hsuan Yang

领域主席包括:Andre AraujoAnurag ArnabRodrigo BenensonAyan ChakrabartiHuiwen ChangAlireza FathiVittorio FerrariGolnaz GhiasiBoqing GongYedid HoshenVarun JampaniLu JiangDa-Cheng JuaDahun KimStephen LombardiPeyman MilanfarBen MildenhallArsha NagraniJordi Pont-TusetPaul Hongsuck SeoFei ShaSaurabh SinghNoah SnavelyKihyuk SohnChen SunPratul P. SrinivasanDeqing SunAndrea TagliasacchiFederico TombariJasper Uijlings

宣传主席:Boqing Gong

演示主席:Jonathan T. Barron

项目咨询委员会包括:Cordelia SchmidRichard Szeliski

专题

人工智能和计算机视觉的历史和未来,与会者包括:Chelsea Finn

科学发现和环境,与会者包括:Sara Beery

最佳论文奖候选人

MobileNeRF:利用多边形光栅化管道在移动架构上进行高效神经场渲染,Zhiqin ChenThomas FunkhouserPeter HedmanAndrea Tagliasacchi

DynIBaR:神经动态基于图像的渲染,Zhengqi LiQianqian WangForrester ColeRichard TuckerNoah Snavely

DreamBooth:微调文本到图像扩散模型以进行主体驱动生成,Nataniel Ruiz*,Yuanzhen LiVarun JampaniYael PritchMichael RubinsteinKfir Aberman

关于引导扩散模型的蒸馏,Chenlin Meng,Robin Rombach,Ruiqi GaoDiederik Kingma,Stefano Ermon,Jonathan HoTim Salimans

重点论文

视频本地化叙述中连接视觉与语言 Paul VoigtlaenderSoravit ChangpinyoJordi Pont-TusetRadu SoricutVittorio Ferrari

MaskSketch: 非成对结构引导的遮罩图像生成 Dina Bashkirova*,Jose LezamaKihyuk SohnKate SaenkoIrfan Essa

SPARF: 从稀疏和嘈杂姿态中提取神经辐射场 Prune Truong*,Marie-Julie RakotosaonaFabian ManhardtFederico Tombari

MAGVIT: 遮罩生成式视频转换器 Lijun Yu*,Yong ChengKihyuk SohnJose LezamaHan ZhangHuiwen ChangAlexander HauptmannMing-Hsuan YangYuan HaoIrfan EssaLu Jiang

面向开放词汇对象检测的区域感知预训练 Dahun KimAnelia AngelovaWeicheng Kuo

I2MVFormer:由大型语言模型生成的多视角文档监督用于零样本图像分类 Muhammad Ferjad Naeem,Gul Zain Khan,Yongqin Xian,Muhammad Zeshan Afzal,Didier Stricker,Luc Van Gool,Federico Tombari

通过直接 PAC-Bayesian 边界最小化来提高鲁棒泛化 Zifan Wang*,Nan DingTomer LevinboimXi ChenRadu Soricut

Imagen Editor 和 EditBench:推进和评估文本引导的图像修补(请参见博客文章) Su WangChitwan SahariaCeslee MontgomeryJordi Pont-TusetShai NoyStefano PellegriniYasumasa OnoeSarah LaszloDavid J. FleetRadu SoricutJason BaldridgeMohammad NorouziPeter AndersonWilliam Cha

RUST:潜在神经场景表示来自未姿态造型的图像 Mehdi S. M. SajjadiAravindh MahendranThomas KipfEtienne PotDaniel DuckworthMario LučićKlaus Greff

REVEAL:检索增强的视觉语言预训练与多源多模态知识记忆(请参见博客文章) Ziniu Hu*,Ahmet IscenChen SunZirui Wang,Kai-Wei Chang,Yizhou SunCordelia SchmidDavid RossAlireza Fathi

RobustNeRF:使用鲁棒损失忽略干扰因素 Sara SabourSuhani VoraDaniel DuckworthIvan KrasinDavid J. FleetAndrea Tagliasacchi

论文

AligNeRF: 基于对齐感知训练的高保真神经辐射场 Yifan Jiang*,Peter HedmanBen Mildenhall,Dejia Xu,Jonathan T. Barron,Zhangyang Wang,Tianfan Xue*

BlendFields: 少样本示例驱动的面部建模 Kacper Kania,Stephan Garbin,Andrea Tagliasacchi,Virginia Estellers,Kwang Moo Yi,Tomasz Trzcinski,Julien Valentin,Marek Kowalski

通过共同学习检测和描述关键点来增强可变形局部特征 Guilherme Potje,Felipe Cadar,Andre Araujo,Renato Martins,Erickson Nascimento

物体如何帮助动作识别?Xingyi ZhouAnurag ArnabChen SunCordelia Schmid

大规模场景运动模糊的混合神经渲染 Peng Dai,Yinda Zhang,Xin Yu,Xiaoyang Lyu,Xiaojuan Qi

IFSeg:基于视觉语言模型的无图像语义分割 Sukmin Yun,Seong Park,Paul Hongsuck Seo,Jinwoo Shin

从独特的角度进行用户感知建模(见博客文章)Shi Chen*,Nachiappan ValliappanShaolei ShenXinyu YeKai KohlhoffJunfeng He

MAGE:掩蔽式生成编码器用于统一表示学习和图像合成 Tianhong Li*,Huiwen Chang,Shlok Kumar Mishra,Han Zhang,Dina Katabi,Dilip Krishnan

NeRF-Supervised Deep Stereo Fabio Tosi,Alessio Tonioni,Daniele Gregorio,Matteo Poggi

Omnimatte3D:在不受限制的单目视频中关联对象及其效果 Mohammed Suhail,Erika LuZhengqi LiNoah Snavely,Leon Sigal,Forrester Cole

OpenScene:使用开放词汇的3D场景理解 Songyou PengKyle GenovaChiyu JiangAndrea TagliasacchiMarc PollefeysThomas Funkhouser

PersonNeRF:来自照片集合的个性化重建 Chung-Yi Weng,Pratul SrinivasanBrian CurlessIra Kemelmacher-Shlizerman

前缀条件统一语言和标签监督 Kuniaki Saito*,Kihyuk SohnXiang ZhangChun-Liang LiChen-Yu Lee,Kate Saenko,Tomas Pfister

重新思考视频ViTs:稀疏视频管以进行联合图像和视频学习(见博客文章)AJ PiergiovanniWeicheng KuoAnelia Angelova

Burstormer:爆发图像恢复和增强变压器 Akshay Dudhane,Syed Waqas Zamir,Salman Khan,Fahad Shahbaz Khan,Ming-Hsuan Yang

多头蒸馏的分散式学习 Andrey ZhmoginovMark SandlerNolan MillerGus KristiansenMax Vladymyrov

GINA-3D:学习在野外生成隐式神经资产 Bokui Shen,Xinchen Yan,Charles R. Qi,Mahyar Najibi,Boyang Deng,Leonidas Guibas,Yin Zhou,Dragomir Anguelov

Grad-PU: 通过学习距离函数的梯度下降实现任意比例点云上采样 何云,唐丹航张茵达,薛向阳,傅延威

Hi-LASSIE: 从稀疏图像集合中高保真度的关节形状和骨骼发现 姚俊涵*,洪伟智,李元臻迈克尔·鲁宾斯坦杨明轩Varun Jampani

视觉表示的双曲对比学习 葛松威,Mishra Shlok,Simon KornblithChun-Liang Li,David Jacobs

Imagic: 基于扩散模型的文本实图像编辑 Bahjat Kawar*,Shiran ZadaOran LangOmer Tov常会文Tali DekelInbar MosseriMichal Irani

从RGB序列预测增量式3D语义场景图 武顺成,Keisuke Tateno,Nassir Navab,Federico Tombari

IPCC-TP:利用增量Pearson相关系数进行联合多智能体轨迹预测 朱德开,翟广耀,狄燕,Fabian Manhardt,Hendrik Berkemeyer,Tuan Tran,Nassir Navab,Federico Tombari,Benjamin Busam

学习使用用户级差分隐私生成图像嵌入 Zheng Xu,Maxwell Collins,Yuxiao Wang,Liviu Panait,Sewoong Oh,Sean Augenstein,Ting Liu,Florian Schroff,H. Brendan McMahan

NoisyTwins:通过StyleGAN实现类一致性和多样性的图像生成 Harsh Rangwani,Lavish Bansal,Kartik Sharma,Tejan KarmaliVarun Jampani,Venkatesh Babu Radhakrishnan

使用引导扩散模型编辑真实图像的NULL-Text Inversion Ron Mokady*,Amir Hertz*,Kfir AbermanYael Pritch,Daniel Cohen-Or*

SCOOP:自监督对应和优化的场景流 Itai Lang*,Dror AigerForrester ColeShai AvidanMichael Rubinstein

通过引导辐射场反演实现单图像的形状、姿态和外观 Dario Pavllo*,David Joseph TanMarie-Julie RakotosaonaFederico Tombari

TexPose:自监督6D物体姿态估计的神经纹理学习 Hanzhi Chen,Fabian Manhardt,Nassir Navab,Benjamin Busam

TryOnDiffusion:两个UNet的故事 Luyang Zhu*,Dawei YangTyler ZhuFitsum RedaWilliam ChanChitwan SahariaMohammad NorouziIra Kemelmacher-Shlizerman

一条新路:利用合成指令和模仿学习扩展视觉语言导航 Aishwarya Kamath*,Peter AndersonSu Wang,Jing Yu Koh*,Alexander KuAustin Waters,Yinfei Yang*,Jason BaldridgeZarana Parekh

CLIPPO:仅从像素中理解图像和语言 Michael TschannenBasil MustafaNeil Houlsby

肖像的可控光散射 David FutschikKelvin RitlandJames VecoreSean FanelloSergio Orts-EscolanoBrian CurlessDaniel SýkoraRohit Pandey

CUF:连续上采样滤波器 Cristina VasconcelosCengiz OztireliMark MatthewsMilad HashemiKevin SwerskyAndrea Tagliasacchi

改进多模型的零样本泛化和鲁棒性 Yunhao Ge*,Jie RenAndrew GallagherYuxiao WangMing-Hsuan YangHartwig AdamLaurent IttiBalaji LakshminarayananJiaping Zhao

LOCATE:弱监督可支配定位和传输对象部分 Gen Li,Varun JampaniDeqing Sun,Laura Sevilla-Lara

Nerflets:局部辐射场,从二维监督中实现高效结构感知三维场景表示 Xiaoshuai ZhangAbhijit KunduThomas FunkhouserLeonidas GuibasHao SuKyle Genova

自监督AutoFlow Hsin-Ping HuangCharles HerrmannJunhwa HurErika LuKyle SargentAustin StoneMing-Hsuan YangDeqing Sun

Train-Once-for-All 个性化 Hong-You Chen*,Yandong LiYin CuiMingda Zhang,Wei-Lun Chao,Li Zhang

Vid2Seq:大规模预训练视觉语言模型,用于密集视频字幕(请参见博客文章) Antoine Yang*,Arsha NagraniPaul Hongsuck Seo,Antoine Miech,Jordi Pont-Tuset,Ivan Laptev,Josef Sivic,Cordelia Schmid

VILA:从用户评论中学习图像美学与视觉语言预训练 Junjie KeKeren YeJiahui YuYonghui WuPeyman MilanfarFeng Yang

您需要多次退出:用于加速统一视觉语言模型的动态早期退出 Shengkun Tang,Yaqing Wang,Zhenglun Kong,Tianchi Zhang,Yao Li,Caiwen Ding,Yanzhi Wang,Yi Liang,Dongkuan Xu

意外的光探针 Hong-Xing Yu,Samir Agarwala,Charles HerrmannRichard SzeliskiNoah Snavely, Jiajun Wu,Deqing Sun

FedDM:用于通信高效的联邦学习的迭代分布匹配 Yuanhao Xiong,Ruochen Wang,Minhao Cheng,Felix Yu,Cho-Jui Hsieh

FlexiViT:所有补丁尺寸的一种模型 Lucas BeyerPavel IzmailovAlexander KolesnikovMathilde CaronSimon KornblithXiaohua ZhaiMatthias MindererMichael TschannenIbrahim AlabdulmohsinFilip Pavetic

迭代式视觉和语言导航 Jacob Krantz、Shurjo Banerjee、Wang Zhu、Jason Corso、Peter Anderson、Stefan Lee、Jesse Thomason

MoDi:来自多样数据的无条件运动合成 Sigal Raab、Inbal Leibovitch、Peizhuo Li、Kfir Aberman、Olga Sorkine-Hornung、Daniel Cohen-Or

缺失模态下的多模提示用于视觉识别 Yi-Lun Lee、Yi-Hsuan Tsai、Wei-Chen Chiu、Chen-Yu Lee

场景感知 Egocentric 3D 人体姿态估计 Jian Wang、Diogo Luvizon、Weipeng Xu、Lingjie Liu、Kripasindhu Sarkar、Christian Theobalt

ShapeClipper:通过几何和 CLIP 一致性从单视图图像中学习可扩展的 3D 形状 Zixuan Huang、Varun Jampani、Ngoc Anh Thai、Yuanzhen Li、Stefan Stojanov、James M. Rehg

通过从 Web 规模的图像文本数据中检索来改善图像识别 Ahmet IscenAlireza FathiCordelia Schmid

JacobiNeRF:通过互信息梯度塑造 NeRF Xiaomeng Xu、Yanchao Yang、Kaichun Mo、Boxiao Pan、Li Yi、Leonidas Guibas

从单目 RGB 视频中学习个性化的高质量体积头像 Ziqian Bai*、Feitong TanZeng HuangKripasindhu SarkarDanhang TangDi QiuAbhimitra MekaRuofei DuMingsong DouSergio Orts-EscolanoRohit Pandey、Ping Tan、Thabo BeelerSean FanelloYinda Zhang

你手中的 NeRF:通过新视角合成进行机器人的纠错增强 Allan Zhou、Mo Jin Kim、Lirui Wang、Pete FlorenceChelsea Finn

Pic2Word:将图片映射到单词中以进行零样本组合图像检索 Kuniaki Saito*、Kihyuk SohnXiang ZhangChun-Liang LiChen-Yu LeeKate SaenkoTomas Pfister

SCADE:通过明确深度估计的模糊感知进行空间雕刻的 NeRFs Mikaela UyRicardo Martin BruallaLeonidas GuibasKe Li

用于重建可控制化头像的结构化 3D 特征 Enric CoronaMihai ZanfirThiemo AlldieckEduard Gabriel BazavanAndrei ZanfirCristian Sminchisescu

Token Turing 机 Michael S. RyooKeerthana GopalakrishnanKumara KahatapitiyaTed XiaoKanishka RaoAustin StoneYao LuJulian IbarzAnurag Arnab

TruFor:利用全方位线索进行可信图像伪造检测和定位 Fabrizio Guillaro、Davide Cozzolino、Avneesh SudNicholas Dufour、Luisa Verdoliva

在投影潜在空间中的视频概率扩散模型 余世铉,Kihyuk Sohn,Subin Kim,Jinwoo Shin

视觉提示调整用于生成式迁移学习 Kihyuk SohnYuan HaoJose LezamaLuisa PolaniaHuiwen ChangHan ZhangIrfan EssaLu Jiang

具有全局-局部上下文特征的零样本指代图像分割 Seonghoon Yu,Paul Hongsuck Seo,Jeany Son

AVFormer:将视觉注入冻结的语音模型以进行零样本AV-ASR(请参见博客文章)Paul Hongsuck SeoArsha NagraniCordelia Schmid

通过学习对焦进行双摄像头虚化控制 Hadi AlzayerAbdullah AbuolaimLeung Chun ChanYang YangYing Chen LouJia-Bin HuangAbhishek Kar

从边缘到形状到概念:用于强健视觉的对抗性增强 Aditay Tripathi*,Rishubh Singh,Anirban Chakraborty,Pradeep Shenoy

MetaCLUE:面向综合视觉隐喻研究 Arjun R. AkulaBrendan DriscollPradyumna NarayanaSoravit ChangpinyoZhiwei JiaSuyash DamleGarima PruthiSugato BasuLeonidas GuibasWilliam T. FreemanYuanzhen LiVarun Jampani

具有条件生成器的多逼真图像压缩 Eirikur AgustssonDavid MinnenGeorge TodericiFabian Mentzer

NeRDi:使用语言引导扩散作为通用图像先验的单视图NeRF合成 Congyue Deng,Chiyu Jiang,Charles R. Qi,Xinchen Yan,Yin Zhou,Leonidas Guibas,Dragomir Anguelov

关于校准语义分割模型的分析和算法 Dongdong Wang,Boqing Gong,Liqiang Wang

持久性本质:无界三维世界的生成模型 Lucy Chai,Richard TuckerZhengqi Li,Phillip Isola,Noah Snavely

重新思考面向人脸反欺诈的域泛化:可分性和对齐性 Yiyou Sun*,Yaojie LiuXiaoming Liu,Yixuan Li,Wen-Sheng Chu

SINE:具有先验引导编辑场的语义驱动图像NeRF编辑 Chong Bao,Yinda Zhang,Bangbang Yang,Tianxing Fan,Zesong Yang,Hujun Bao,Guofeng Zhang,Zhaopeng Cui

GAN分类器的顺序训练揭示了独立训练的GAN实例之间存在的相关“知识差距”Arkanath PathakNicholas Dufour

SparsePose:稀疏视图相机姿态回归和细化 Samarth Sinha,Jason Zhang,Andrea Tagliasacchi,Igor Gilitschenski,David Lindell

教师生成的空间注意力标签提高了对比模型的鲁棒性和准确性 Yushi Yao,Chang YeGamaleldin F. ElsayedJunfeng He

工作坊

混合现实计算机视觉 演讲者包括:Ira Kemelmacher-Shlizerman

自动驾驶工作坊(WAD) 演讲者包括:Chelsea Finn

多模态内容审核(MMCM) 组织者包括:Chris Bregler 演讲者包括:Mevan Babakar

医学计算机视觉(MCV) 演讲者包括:Shekoofeh Azizi

VAND:视觉异常和新颖性检测 演讲者包括:Yedid HoshenJie Ren

三维数据的结构和组成学习 组织者包括:Leonidas Guibas 演讲者包括:Andrea TagliasacchiFei XiaAmir Hertz

细粒度视觉分类(FGVC10) 组织者包括:Kimberly WilberSara Beery 嘉宾包括:Hartwig Adam

XRNeRF:虚拟现实中 NeRF 的进展 组织者包括:Jonathan T. Barron 演讲者包括:Ben Poole

OmniLabel:通过自然语言实现语义理解的无限标签空间 组织者包括:Golnaz GhiasiLong Zhao 演讲者包括:Vittorio Ferrari

大规模整体视频理解 组织者包括:David Ross 演讲者包括:Cordelia Schmid

零样本图像字幕评估的新前沿(NICE) 演讲者包括:Cordelia Schmid

计算摄像机和显示器 组织者包括:Ulugbek Kamilov 演讲者包括:Mauricio Delbracio

野外注视估计和预测 组织者包括:Thabo Beele 演讲者包括:Erroll Wood

面部和手势分析用于健康信息学 演讲者包括:Daniel McDuff

动物行为跟踪和建模计算机视觉 组织者包括:Sara Beery 演讲者包括:Arsha Nagrani

三维视觉和机器人技术 演讲者包括:Pete Florence

端到端自动驾驶:感知、预测、规划和模拟 组织者包括:Anurag Arnab

端到端自动驾驶:新兴任务和挑战 演讲者包括:Sergey Levine

多模态学习和应用 演讲者包括:Aleksander Hołyński

用于自主系统的合成数据 演讲者包括:Lukas Hoyer

视觉数据集理解 组织者包括:José Lezama 演讲者包括:Vijay Janapa Reddi

预知:透过未来 组织者包括:Utsav Prabhu

图像恢复和增强的新趋势(NTIRE) 组织者包括:Ming-Hsuan Yang

计算机视觉生成模型 演讲者包括:Ben MildenhallAndrea Tagliasacchi

计算机视觉上的对抗机器学习:鲁棒性的艺术 组织者包括:Xinyun Chen 演讲者包括:Deqing Sun

媒体取证 演讲者包括:Nicholas Carlini

跟踪及其多种形式:在开放世界中跟踪任何物体 组织者包括:Paul Voigtlaender

视觉、图形和机器人的三维场景理解 演讲者包括:Andy Zeng

生理测量的计算机视觉(CVPM)组织者包括:Daniel McDuff

野外情感行为分析的组织者包括:Stefanos Zafeiriou

计算机视觉创意应用的伦理考虑(EC3V)组织者包括:Rida QadriMohammad HavaeiFernando DiazEmily DentonSarah LaszloNegar RostamzadehPamela Peter-AgbiaEva Kozanecka

VizWiz大挑战:描述盲人拍摄的图像和视频,演讲者包括:Haoran Qi

计算机视觉的高效深度学习(请参阅博客文章)组织者包括:Andrew HowardChas Leichner,演讲者包括:Andrew Howard

视觉复制检测的组织者包括:Priya Goyal

使用多视角监督学习3D(3DMV)的演讲者包括:Ben Poole

图像匹配:本地特征及其它,组织者包括:Eduard Trulls

逆境天气和闪电条件下的全季节视觉(V4AS)组织者包括:Lukas Hoyer

视觉转换器(T4V),演讲者包括:Cordelia SchmidHuiwen Chang

学者与大型模型-学术界如何适应?组织者包括:Sara Beery,演讲者包括:Jonathan T. BarronCordelia Schmid

ScanNet室内场景理解挑战赛,演讲者包括:Tom Funkhouser

用于显微镜图像分析的计算机视觉,演讲者包括:Po-Hsuan Cameron Chen

嵌入式视觉,演讲者包括:Rahul Sukthankar

视听,组织者包括:Arsha NagraniWilliam Freeman

内容创作的人工智能,组织者包括:Deqing SunHuiwen ChangLu Jiang,演讲者包括:Ben MildenhallTim SalimansYuanzhen Li

野外计算机视觉,组织者包括:Xiuye GuNeil Houlsby,演讲者包括:Boqing GongAnelia Angelova

视觉预训练用于机器人,组织者包括:Mathilde Caron

全向计算机视觉,组织者包括:Yi-Hsuan Tsai

教程

了解和解释视觉中的注意力的全部细节:ViTs,演讲者包括:Hila CheferSayak Paul

异常检测的最新进展,演讲者包括:Guansong Pang,Joey Tianyi Zhou,Radu Tudor Ionescu,Yu Tian,Kihyuk Sohn

使用摄像头和无线传感器进行无接触医疗,演讲者包括:Wenjin Wang,Xuyu Wang,Jun Luo,Daniel McDuff

自由的物体定位:超越自我监督学习,演讲者包括:Oriane Simeoni,Weidi Xie,Thomas Kipf,Patrick Pérez

视觉提示,演讲者包括:Kaiyang Zhou,Ziwei Liu,Phillip Isola,Hyojin Bahng,Ludwig Schmidt,Sarah Pratt,Denny Zhou


* 在Google期间完成的工作