创建开放的机器学习数据集?在Hugging Face Hub上分享它们!
在Hugging Face Hub上分享您的开放式机器学习数据集!
这篇博客文章适合谁?
你是一名进行数据密集型研究或将机器学习作为研究工具的研究人员吗?作为这项研究的一部分,您很可能已经创建了用于训练和评估机器学习模型的数据集,并且像许多研究人员一样,您可能正在通过Google Drive,OneDrive或您自己的个人服务器共享这些数据集。在本文中,我们将概述为什么您可能希望考虑在Hugging Face Hub上共享这些数据集。
本文概述了以下内容:
- 为什么研究人员应该公开分享他们的数据(如果您已经坚信这一点,可以跳过本节)
- Hugging Face Hub为希望分享数据集的研究人员提供了什么
- 开始在Hugging Face Hub上共享数据集的资源
为什么要分享您的数据?
机器学习在各个学科中的应用越来越广泛,提高了解决各种问题的研究效率。数据在训练和评估模型方面仍然至关重要,特别是在为特定任务或领域开发新的机器学习方法时。大型语言模型可能在生物医学实体提取等专业任务上表现不佳,计算机视觉模型可能在分类领域特定图像时遇到困难。
领域特定数据集对于评估和训练机器学习模型至关重要,有助于克服现有模型的局限性。然而,创建这些数据集是具有挑战性的,需要大量时间、资源和领域专业知识,尤其是在注释数据方面。最大化利用这些数据对于参与研究的研究人员和他们所属的领域都至关重要。
Hugging Face Hub可以帮助实现这种最大化的影响。
什么是Hugging Face Hub?
Hugging Face Hub已成为共享开放式机器学习模型、数据集和演示文稿的中心枢纽,托管了超过360,000个模型和70,000个数据集。Hub使人们(包括研究人员)能够通过几行代码访问最先进的机器学习模型和数据集。
Hugging Face Hub上的数据集。
Hugging Face Hub为数据共享提供了什么?
本博客文章不会涵盖Hugging Face Hub托管数据集的所有功能和优势,而是重点介绍一些特别适用于研究人员的功能。
您的工作可见性
Hugging Face Hub已成为人们在开放机器学习方面进行合作的中心枢纽。通过Hugging Face Hub共享您的数据集可确保广泛的机器学习研究人员群体能够看到它。Hub使得可以暴露数据集、模型和演示之间的链接,从而更容易了解人们如何使用您的数据集来训练模型和创建演示。
探索和处理数据集的工具
目前已经有越来越多的工具被开发出来,使得更容易理解在Hugging Face Hub上托管的数据集。
加载Hugging Face Hub上托管的数据集的工具
通过Hugging Face Hub共享的数据集可以通过多种工具加载。Python库datasets
可以通过load_dataset
命令直接从huggingface hub加载数据集。这个库被优化用于处理大型数据集(包括无法加载到内存中的数据集)和支持机器学习工作流。
此外,许多Hub上的数据集也可以直接加载到Pandas
,Polars
和DuckDB
中。这个页面提供了更详细的概述,介绍了从Hub加载数据集的不同方法。
数据集查看器
数据集查看器允许用户在浏览器中直接访问Hugging Face Hub上的数据集仓库,以便探索和与数据集进行交互。这使得其他人在未下载数据集之前就能更轻松地查看和探索数据。数据集查看器还允许您搜索和过滤数据集,对于潜在的数据集使用者来说,能够更快地了解数据集的特性。
多实体_v2命名实体识别数据集的数据集查看器。
社区工具
除了数据集查看器,Hub上还有越来越多社区创建的用于探索数据集的工具。
Spotlight
Spotlight
是一个工具,您可以通过一行代码与Hub上的数据集进行交互。
您可以在这篇博文中了解更多关于如何使用该工具的信息。
Lilac
Lilac
是一个旨在帮助您更轻松地“策划优质LLM数据”的工具,让您能够更轻松地探索自然语言数据集。该工具允许您按语义搜索数据集(按含义搜索),聚类数据并深入了解数据集的高级信息。
您可以在这个演示中进一步探索Lilac
工具。
Hub上的这些越来越多的用于探索数据集的工具可以使人们更容易地探索和理解您的数据集,并有助于将您的数据集推广给更广泛的受众。
大型数据集支持
Hub可以托管大型数据集;它目前托管着数TB的数据集。数据集库允许用户从Hub下载和处理数据集,支持流式处理,这意味着您可以处理大型数据集而无需提前下载整个数据集。这对于计算资源较少的研究人员来说非常有价值,或者对于选择巨大数据集的一小部分进行测试、开发或原型制作也非常有用。
Hugging Face Hub可以托管为机器学习研究创建的大型数据集。
与Hub的API和客户端库交互
可以通过API或huggingface_hub
Python库与Hugging Face Hub进行交互。这包括创建新的存储库、以编程方式上传数据以及创建和修改数据集的元数据。这对于在持续创建新数据或注释的研究工作流程中非常有用。客户端库还使上传大型数据集变得更加容易。
社区
Hugging Face Hub已经成为一个大型的研究人员、开发人员、艺术家和其他对使用和贡献开源机器学习生态系统感兴趣的人的社区。使您的数据集可以让这个社区访问,增加它们的可见性,将它们开放给新类型的用户,并将您的数据集置于更大的模型、数据集和库的生态系统的环境中。
Hub还具有让社区更轻松协作的功能。这包括为Hub上的每个数据集、模型和Space建立的讨论页面。这意味着使用您的数据集的用户可以快速提问并讨论与数据集相关的想法。
Hub使提问和讨论数据集变得简单。
其他对研究人员重要的功能
Hub 的其他一些功能可能会引起研究人员的兴趣,特别是希望在 Hub 上共享他们的机器学习数据集的研究人员:
- 组织 允许您与其他人合作,并在单个组织下共享模型、数据集和演示。这是突出特定研究项目或研究机构工作的极好方式。
- 带门控库 允许您对访问数据集设置一些访问限制。
- Hub 上的数据集可以获得下载指标;这对于向资助机构和招聘委员会传达研究人员的影响力非常有用。
- 数字对象标识符 (DOI):可以为您的数据集注册一个持续标识符。
我如何在 Hugging Face Hub 上共享我的数据集?
以下资源将帮助您开始在 Hugging Face Hub 上共享数据集:
- 有关创建和共享 Hub 上数据集的一般指南
- 特定模式的指南:
- 有关结构化存储库的指导,以使数据集可以从 Hub 自动加载。
如果您希望共享大型数据集,以下页面将非常有用:
- 存储库限制和建议提供了共享大型数据集时需要考虑的一些一般性指导。
- 大规模上传的技巧和诀窍页面提供了如何将大型数据集上传到 Hub 的一些指导。
如果您需要在 Hub 上上传数据集,或者想上传尤其大型的数据集,请联系[email protected]获取进一步帮助。