我们应该将我们的数据科学系统虚拟化吗?还是不应该虚拟化?

应该虚拟化数据科学系统吗?

作者当前的家庭实验室设置

随着“大数据”在各个行业中变得越来越重要,家庭实验室和数据湖等规模的数据存储库需要比以往更多的并行计算能力来提取、转换、加载和分析数据。在创建我的家庭实验室时,选择在虚拟机上还是在硬件上本地创建并行设置让我困惑不已,我苦于找不到性能比较。在本文中,我们将探讨每种设置的一些利弊,以及虚拟和本地方法论的性能和基准测试。

介绍

许多并行计算集群包括多个节点或计算机,用于在集群中分布式处理任务。管理这些节点可能是一项很大的头痛,这也是为什么数据工程相对于分析工作更有吸引力的原因。通常,公司会管理整个集群群集,这几乎不可能对每个节点进行个别关注,而是要求使用诸如Proxmox、Kubernetes和Docker Swarm等工具进行“高可用性”设置。你可能已经在不知不觉中与这些集群进行过交互,例如我从Chick-fil-A午餐吃的鸡肉三明治就是通过边缘计算的Kubernetes集群来实现的。

在虚拟机中计算有许多好处,包括:

  • 可以从企业服务器快速部署整个操作系统到实地
  • 镜像可以实时备份
  • 部署可以容器化,以限制范围并增加安全性
  • 在硬件故障的情况下,系统可以迁移而几乎没有停机时间

这些概念并不新鲜,但随着数据分析在组织的各个层级上的需求越来越大,方式…