糖霜AI发布了一套搭配图像和文本的自由创作许可的糖霜-25M数据集

糖霜AI推出了一套25M数据集,提供搭配图像和文本的自由创作许可

处理和分析大量数据被称为大规模数据处理。它涉及提取有价值的见解,做出明智的决策和解决复杂问题。它在包括商业、科学、医疗保健等各个领域都至关重要。工具和方法的选择取决于数据处理任务的具体要求和可用资源。编程语言如Python、Java和Scala经常用于大规模数据处理。在这个背景下,Apache Flink、Apache Kafka和Apache Storm等框架也非常有价值。

研究人员构建了一个名为Fondant的新的开源框架,以简化和加快大规模数据处理。它具有各种嵌入式工具,用于下载、探索和处理数据。它还包括通过URL下载和下载图片的组件。

目前生成式人工智能(如Stable Diffusion和Dall-E)的一个挑战是,它们是基于来自公共互联网的数亿张图片进行训练的,其中包括受版权保护的作品。这给使用这些图片的用户带来了法律风险和不确定性,对于可能不希望未经同意复制其专有作品的版权持有人来说,这是不公平的。

为了解决这个问题,研究人员开发了一个数据处理流程,以创建5亿个创作共用图片数据集,以训练潜在扩散的图像生成模型。数据处理流程是设计用于收集、处理和移动数据的步骤和任务,其中数据可以被存储和分析以实现各种目的。

创建自定义数据处理流程涉及几个步骤,具体方法可能因数据源、处理要求和工具而异。研究人员使用构建块的方法创建自定义流程。他们设计了Fondant流程,将可重用组件和定制组件混合使用。他们进一步在生产环境中部署,并为定期数据处理设置了自动化。

Fondant-cc-25m包含2500万个图片URL,其中包含其创作共用许可信息,可以一次轻松访问!研究人员已发布了详细的逐步安装程序,供本地用户使用。要在本地执行流程,用户必须在其系统上安装Docker,并为其Docker环境分配至少8GB的RAM。

由于发布的数据集可能包含敏感的个人信息,研究人员只设计数据集包括公共的非个人信息,以支持进行和发布他们的开放获取研究。他们说数据集的过滤流程仍在进行中,并且他们愿意接受其他研究人员的贡献,为该项目创建匿名流程。研究人员表示未来他们希望添加不同的组件,如基于图像的去重、自动字幕、视觉质量估计、水印检测、人脸检测、文本检测等等!