用“切割并学习”进行机器学习中的对象状态组合的识别和生成
切割并学习:机器学习中对象状态组合的识别和生成技巧
“`html
真实世界包含多种尺寸、颜色和纹理的物体。视觉质量,通常被称为状态或属性,可以是物品固有的(如颜色)或通过处理获得的(如切割)。当前的数据驱动识别模型(如深度网络)假设有充分的训练数据可用于详尽的对象属性,然而它们仍然需要帮助推广到对象的未见方面。然而,人类和其他动物通过组合少量已知物品和其状态的能力,具有识别和想象各种具有不同属性的事物的内在能力。现代深度学习模型经常需要更多的组合推广能力,以及从有限概念中合成和检测新的组合能力。
为了帮助研究组合泛化能力 – 即识别和生成不同状态的未知组合物,马里兰大学的一组研究人员提出了一个新的数据集,Chop&Learn(ChopNLearn)。他们将研究限制在切割水果和蔬菜上,以突出组合组件。这些物品在不同方式切片时以可识别的方式改变形状,这取决于切片方法的使用。目的是研究如何将这些对对象的状态进行认知的不同方法应用于各种对象。他们选择了20种物品和七种典型的切割风格(包括完整的物体),产生了不同的颗粒度和尺寸的对象状态对。
第一个任务需要系统创建一个未在训练中遇到过的(对象,状态)组合的图像。为此,研究人员提出修改现有的大规模文本到图像生成模型。他们通过利用文本提示来表示对象状态创建,比较了许多现有方法,包括文本逆转和DreamBooth。他们还提出了一个不同的过程,该过程除了同时调整语言和扩散模型外,还涉及为对象和状态添加额外的标记。最后,他们评估了所提出的生成模型和现有文献的优劣。
第二项挑战是对现有的组合动作识别工作进行扩展。过去的工作一直关注电影中的长期活动跟踪,而这项工作旨在识别对象状态的微小变化,这是活动识别的关键初始步骤。该任务允许模型通过识别任务开始和结束时状态的组合来学习人眼不可见的对象状态的变化。利用ChopNLearn数据集,他们比较了几个视频任务的最新基线。研究通过讨论使用数据集可能受益的许多与图像和视频相关的功能来结束。
以下是一些贡献:
- 所提出的ChopNLearn数据集将包括来自不同摄影角度的照片和电影,代表不同的对象状态组合。
- 他们提供了一种名为组合图像生成的新活动,用于生成目前用户看不到的对象和状态的组合图像。
- 他们为组合动作设定了一个新的标准。识别旨在学习和识别物体随时间和不同视角的变化。
限制
随着基础模型的可用性越来越大,小样本泛化变得越来越重要。这项工作探讨了ChopNLearn在组合生产研究和识别极度复杂且相互关联的概念方面的潜力。ChopNLearn是一个小规模的数据集,具有绿幕背景,这限制了在其上训练的模型的泛化能力。然而,这是学习不同对象可能共享的细粒度状态(切割风格)的首次尝试。他们通过使用ChopNLearn训练和测试更复杂的模型,然后使用相同的工具对它们进行精调,研究了这一点。此外,他们预计社区将从在更具挑战性的任务中使用ChopNLearn中受益,例如3D重建,视频帧插值,状态改变创建等。
访问https://chopnlearn.github.io/获取更多信息。
总而言之
研究人员提出了ChopNLearn,这是一个用于衡量模型识别和构建不同状态下看不到的对象组合的组合泛化能力的新数据集。此外,他们提出了两个新任务 – 组合图像生成和组合动作识别,以评估现有生成模型和视频识别技术的效果。他们说明了当前方法的问题以及它们在新组合中的有限泛化能力。然而,这两个活动只是象征性冰山的一角。包括立体重建、未来帧预测、视频生成、摘要和长期视频解析在内的多个图像和视频活动都依赖于对对象状态的理解。因此,研究人员希望看到计算机视觉界提出和学习通过这个数据集提出的关于照片、视频、3D和其他媒体的新的组合挑战。
“`