选择最佳图表:网络图、热力图还是桑基图,最大化您的洞察力?

选择最佳图表以最大化洞察力:网络图、热力图还是桑基图?

优美的可视化很棒,但为了最大程度地提高可解释性,您需要仔细选择图表。

David Pisnoy在Unsplash上的照片

可视化是数据分析的重要组成部分,它可以将数据转化为洞察力,并帮助您进行故事叙述。在这篇博文中,我将重点介绍网络图表、热力图和桑基图。这些图表具有相同的输入,但我们应该记住它们是根据特定目标设计的,因此可解释性可能会有所不同。 我将描述网络图、热力图和桑基图之间的区别,以及它们的应用,并通过一个实际示例演示它们的可解释性。 所有示例都是使用D3Blocks库在Python中创建的。

热力图和桑基图的输入。

作为一名数据科学家,制作图表是一项常见但必不可少的任务。有时,这些图表用作检查数据的准确性,有时则用于演示,并构成故事的基础。特别是对于后一种情况,我们的目标是将复杂的信息转化为逻辑的图表可视化。

制作图表就像摄影一样,您希望捕捉能够讲述故事的风景。

然而,决定使用哪种图表并不总是一件容易的事情,因为尽管图表可能具有相似的输入,但它们的设计目的是描述场景的特定部分。这三个图表的输入需要sourcetargetweight信息。下面是一个小例子,它描述了变量(或节点)之间的连接关系及其强度。换句话说,Penny与Leonard的连接强度为5。第二个节点的名称再次是Penny,她也与Amy相连,但强度稍低,值为3,依此类推。

# Source node names
source = ['Penny', 'Penny', 'Amy', 'Bernadette', 'Bernadette', 'Sheldon', 'Sheldon', 'Sheldon', 'Rajesh']
# Target node names
target = ['Leonard', 'Amy', 'Bernadette', 'Rajesh', 'Howard', 'Howard', 'Leonard', 'Amy', 'Penny']
# Edge Weights
weight = [5, 3, 2, 2, 5, 2, 3, 5, 2]