十个数据科学家的 Jupyter Notebook 技巧和诀窍
通过专业技巧和技术,包括节省时间的快捷方式、强大的魔法函数和高级功能,发掘Jupyter Notebook的全部潜力,提高您的生产力
无论您是初学者还是数据专业人员,您都必须使用Jupyter Notebook并发现了在报告格式中运行Python代码和可视化输出的简便性。
但是,如果我告诉您可以改进您的Jupyter开发体验呢? 在本文中,我们将学习10个Jupyter Notebook技巧,以增强数据专业人员的生产力和性能。
1. 快捷键
快捷键对于执行重复任务和节省时间非常重要。 您可以通过帮助 > 键盘快捷键或按H键来了解所有默认键盘快捷键。
访问命令的最简单和最流行的方式是使用类似于VSCode的命令调色板。 您可以按Ctrl + Shift + P来调用命令调色板。 它允许您搜索和执行命令,或者滚动所有命令以发现要运行的命令。
2. IPython魔术命令
您可以在Jupyter Notebook中访问所有IPython魔术命令。 这些命令为您执行代码提供了额外的功能。
例如,您可以使用%%time
魔术命令来显示单元格执行时间。 在我们的例子中,代码运行1000次迭代花费了1.09秒。
%%time
import time
for i in range(1_000):
time.sleep(0.001)
CPU times: user 10.2 ms, sys: 1.68 ms, total: 11.9 ms
Wall time: 1.09 s
您可以通过运行%lsmagic
命令或查看内置魔术命令来了解所有可用的魔术命令。
常用命令列表:
- %env用于设置环境变量。
- %run用于执行Python代码。
- %store用于在多个笔记本之间访问变量。
- %%time提供单元格的执行时间。
- %%writefile将单元格的内容保存到文件中。
- %pycat显示外部文件的内容。
- %pdb用于调试。
- %matplotlib inline用于在最后一行中抑制函数的输出。
3. 执行Shell命令
您可以在Jupyter Notebook单元格中使用!
运行Shell和Bash命令。 它为您提供了在Unix或Linux基础上运行命令和工具的额外能力。
!git push origin
这个命令的最受欢迎的用途是在旅途中安装Python包。
!pip install numpy
您还可以使用魔法命令%pip
安装Python包
%pip install numpy
4. 使用LaTeX公式
在创建数据分析报告时,您需要提供统计或数学方程式,Jupyter Notebook使您能够使用LaTeX公式呈现复杂的方程式。
只需创建一个Markdown单元格,并将您的LaTeX公式用美元符号$括起来,如下所示。
$\int \frac{1}{x} dx = \ln \left| x \right| + C$
输出:
5. 安装其他Jupyter Notebook内核
我们都知道Python内核,但您还可以安装其他内核并在任何语言中运行代码。
例如,如果您想在Jupyter Notebook中运行R编程语言,则需要安装R并在R环境中安装IRkernel。
install.packages('IRkernel')
IRkernel::installspec()
或者,如果您已经安装了Anaconda,则可以在终端中简单地运行以下命令来设置R以供Jupyter Notebook使用。
conda install -c r r-essentials
对于Julia语言爱好者,我已经创建了一个简单的指南,介绍如何在Jupyter Notebook上设置Julia。
6. 从不同内核运行代码
您还可以使用Magic命令(如:)%%bash、%%html、%%javascript、%%perl、%%python3、%%ruby)在Python Jupyter Notebook中从多个内核运行代码。
例如,我们将尝试使用%%HTML
Magic命令在Python内核中运行HTML代码。
%%HTML
<html>
<body>
<h1>Hello World</h1>
<p>Welcome to my website</p>
</body>
</html>
输出:
与!
类似,您可以使用%%script
运行Shell脚本,它允许您在计算机上安装的所有内核中运行脚本。例如,您可以运行R脚本。
%%script R --no-save
print("小猪AI")
输出:
> print("小猪AI")
[1] "小猪AI"
>
7. 多光标支持
您可以使用多个光标编辑多个变量和语法或添加多行代码。要创建多个光标,您需要按住Alt键,单击并拖动鼠标。
8. 输出图像、视频和音频
您可以在不安装其他Python软件包的情况下显示图像、视频和音频。
您只需要导入IPython.display
即可获得图像、视频和音频函数。当您处理非结构化数据集和机器学习应用程序时,它非常有用。
9. 处理大型数据
您可以使用IPython Parallel库来处理和查询大型数据集。它是基于Jupyter协议构建的控制IPython进程集群的CLI脚本集合。
此外,您可以使用sparkmagic命令与PySpark会话。
请查看来自sparkmagic存储库的示例。
%%spark -c sql -o df_employee--maxrows 5
SELECT * FROM employee
输出:
age name
0 40.0 abid
1 20.0 Matt
2 36.0 Chris
10. 共享笔记本
共享带有输出的报告或代码源很重要,您可以以多种方式完成:
- 使用文件>另存为>HTML将Notebooks转换为HTML文件。
- 使用文件>另存为>PDF将Notebooks保存为PDF文件。
- 使用文件>另存为>Markdown将Notebooks保存为Markdown文件。
- 使用Pelican创建博客。
- 将.ipynb文件上传到Google Colab并在同事之间共享。
- 使用GitHub Gits与公众共享笔记本文件。
- 将文件托管在云端或外部服务器上,并使用nbviewer渲染Notebook。
希望你发现我的10个Jupyter Notebook提示列表很有帮助。如果你有任何额外的建议或者关于Jupyter Notebook的提示想要分享,请在下面的评论中提出。谢谢你的阅读。
Abid Ali Awan(@1abidaliawan)是一位认证的数据科学家,热衷于构建机器学习模型。目前,他专注于内容创作,并撰写有关机器学习和数据科学技术的技术博客。Abid拥有技术管理硕士学位和电信工程学士学位。他的愿景是使用图神经网络构建一个AI产品,帮助患有精神疾病的学生。