十个数据科学家的 Jupyter Notebook 技巧和诀窍

通过专业技巧和技术,包括节省时间的快捷方式、强大的魔法函数和高级功能,发掘Jupyter Notebook的全部潜力,提高您的生产力

无论您是初学者还是数据专业人员,您都必须使用Jupyter Notebook并发现了在报告格式中运行Python代码和可视化输出的简便性。

但是,如果我告诉您可以改进您的Jupyter开发体验呢? 在本文中,我们将学习10个Jupyter Notebook技巧,以增强数据专业人员的生产力和性能。

1. 快捷键

快捷键对于执行重复任务和节省时间非常重要。 您可以通过帮助 > 键盘快捷键或按H键来了解所有默认键盘快捷键。

访问命令的最简单和最流行的方式是使用类似于VSCode的命令调色板。 您可以按Ctrl + Shift + P来调用命令调色板。 它允许您搜索和执行命令,或者滚动所有命令以发现要运行的命令。

2. IPython魔术命令

您可以在Jupyter Notebook中访问所有IPython魔术命令。 这些命令为您执行代码提供了额外的功能。

例如,您可以使用%%time魔术命令来显示单元格执行时间。 在我们的例子中,代码运行1000次迭代花费了1.09秒。

%%time

import time
for i in range(1_000):
    time.sleep(0.001)

CPU times: user 10.2 ms, sys: 1.68 ms, total: 11.9 ms
Wall time: 1.09 s

您可以通过运行%lsmagic命令或查看内置魔术命令来了解所有可用的魔术命令。

常用命令列表:

  • %env用于设置环境变量。
  • %run用于执行Python代码。
  • %store用于在多个笔记本之间访问变量。
  • %%time提供单元格的执行时间。
  • %%writefile将单元格的内容保存到文件中。
  • %pycat显示外部文件的内容。
  • %pdb用于调试。
  • %matplotlib inline用于在最后一行中抑制函数的输出。

3. 执行Shell命令

您可以在Jupyter Notebook单元格中使用!运行Shell和Bash命令。 它为您提供了在Unix或Linux基础上运行命令和工具的额外能力。

!git push origin

这个命令的最受欢迎的用途是在旅途中安装Python包。

!pip install numpy

您还可以使用魔法命令%pip安装Python包

%pip install numpy

4. 使用LaTeX公式

在创建数据分析报告时,您需要提供统计或数学方程式,Jupyter Notebook使您能够使用LaTeX公式呈现复杂的方程式。

只需创建一个Markdown单元格,并将您的LaTeX公式用美元符号$括起来,如下所示。

$\int \frac{1}{x} dx = \ln \left| x \right| + C$

输出:

5. 安装其他Jupyter Notebook内核

我们都知道Python内核,但您还可以安装其他内核并在任何语言中运行代码。

例如,如果您想在Jupyter Notebook中运行R编程语言,则需要安装R并在R环境中安装IRkernel。

install.packages('IRkernel')
IRkernel::installspec()

或者,如果您已经安装了Anaconda,则可以在终端中简单地运行以下命令来设置R以供Jupyter Notebook使用。

conda install -c r r-essentials

对于Julia语言爱好者,我已经创建了一个简单的指南,介绍如何在Jupyter Notebook上设置Julia。

6. 从不同内核运行代码

您还可以使用Magic命令(如:)%%bash、%%html、%%javascript、%%perl、%%python3、%%ruby)在Python Jupyter Notebook中从多个内核运行代码。

例如,我们将尝试使用%%HTML Magic命令在Python内核中运行HTML代码。

%%HTML

<html>

<body>

<h1>Hello World</h1>

<p>Welcome to my website</p>

</body>

</html>

输出:

!类似,您可以使用%%script运行Shell脚本,它允许您在计算机上安装的所有内核中运行脚本。例如,您可以运行R脚本。

%%script R --no-save
print("小猪AI")

输出:

> print("小猪AI")
[1] "小猪AI"
>

7. 多光标支持

您可以使用多个光标编辑多个变量和语法或添加多行代码。要创建多个光标,您需要按住Alt键,单击并拖动鼠标。

8. 输出图像、视频和音频

您可以在不安装其他Python软件包的情况下显示图像、视频和音频。

您只需要导入IPython.display即可获得图像、视频和音频函数。当您处理非结构化数据集和机器学习应用程序时,它非常有用。

9. 处理大型数据

您可以使用IPython Parallel库来处理和查询大型数据集。它是基于Jupyter协议构建的控制IPython进程集群的CLI脚本集合。

此外,您可以使用sparkmagic命令与PySpark会话。

请查看来自sparkmagic存储库的示例。

%%spark -c sql -o df_employee--maxrows 5
SELECT * FROM employee

输出:

 age name
0   40.0    abid
1   20.0    Matt
2   36.0    Chris

10. 共享笔记本

共享带有输出的报告或代码源很重要,您可以以多种方式完成:

  1. 使用文件>另存为>HTML将Notebooks转换为HTML文件。
  2. 使用文件>另存为>PDF将Notebooks保存为PDF文件。
  3. 使用文件>另存为>Markdown将Notebooks保存为Markdown文件。
  4. 使用Pelican创建博客。
  5. 将.ipynb文件上传到Google Colab并在同事之间共享。
  6. 使用GitHub Gits与公众共享笔记本文件。
  7. 将文件托管在云端或外部服务器上,并使用nbviewer渲染Notebook。

希望你发现我的10个Jupyter Notebook提示列表很有帮助。如果你有任何额外的建议或者关于Jupyter Notebook的提示想要分享,请在下面的评论中提出。谢谢你的阅读。

Abid Ali Awan(@1abidaliawan)是一位认证的数据科学家,热衷于构建机器学习模型。目前,他专注于内容创作,并撰写有关机器学习和数据科学技术的技术博客。Abid拥有技术管理硕士学位和电信工程学士学位。他的愿景是使用图神经网络构建一个AI产品,帮助患有精神疾病的学生。