数据可视化 理论与技术

数据可视化理论与技术

 

在一个由大数据和复杂算法主导的数字化领域中,人们可能会认为普通人在数字和数据的海洋中迷失了方向。

是吗?

然而,从原始数据到可理解的洞察力的桥梁在于数据可视化的艺术。

它是指引我们的指南针,引导我们的地图,解码我们每天遇到的大量数据的翻译者。

但是好的可视化背后有什么魔力呢?

为什么一个可视化启发人,而另一个让人困惑呢?

今天,我们将回归基础,试图理解数据可视化的基本原理。

让我们一起来探索吧!👇🏻

 

将数据可视化简化为基本概念

 

作为一名数据科学家,掌握高效讲故事的技巧是最难掌握的技能之一。如果我们在字典中查看“数据可视化”一词,将会找到以下定义:

“将信息表示为图片、图表或图形的行为,或者用这种方式表示信息的图片”

这基本上意味着数据可视化的目标是从数据集中创作故事,以一种易于消化、吸引人且具有影响力的形式呈现洞察力。

数据可视化,或者使数据在图表和图形中呈现出色,可能看起来不像机器学习之类的东西那么酷。

但是,这确实是数据科学家所做的重要部分。

在当今数据驱动的世界中,数据可视化就像帮助我们清晰看到的眼镜。对于那些不熟悉数字和算法语言的人来说,它提供了一种理解复杂数据叙事的高效方法。

任何图表都由两个主要组成部分组成:

 

1. 数据类型 

 

我敢打赌你认为数据是数字,但是数值只是我们可能会遇到的几种数据类型中的两种。无论我们可视化哪种数据,我们总是需要考虑我们正在处理的数据类型。

除了连续和离散的数值之外,数据还可以以离散的类别形式、日期或时间形式以及文本形式存在。

当数据是数值时,我们也称之为定量数据,当数据是分类的时,我们称之为定性数据。

因此,任何显示的数据都可以在以下类别中进行描述。

   

一旦我们清楚了我们拥有的数据类型,我们就需要了解如何将这些数据编码成最终的图表。

 

2. 编码信息:视觉词汇

 

视觉编码是数据可视化的核心。它将抽象的数字转化为图形表示,这是我们所有人都精通的语言。

尽管有许多不同类型的数据可视化,乍一看,散点图、饼图和热力图似乎没有太多共同之处,但是所有这些可视化都可以用一种共同的语言来描述,这种语言捕捉了数据值如何转化为纸上的墨点或屏幕上的彩色像素。

但是…如你已经意识到的那样…

有成千上万种编码数字的方法!

主要有两大类:

  1. 感知编码:从形状、大小、颜色和强度等方面,这些是我们的眼睛立即捕捉到的元素。它们是元素固有的。

   

  1. 空间编码:它利用我们大脑皮层对空间意识的知觉来编码信息。这种编码可以通过在刻度中的位置,定义的顺序或使用相对大小来实现。

   

通过前面解释的所有编码方式,我们可以在一个图表中使用它们中的所有编码方式,但读者很难迅速掌握所有信息。将多个编码方式重叠在一个图表中可能会让人困惑,因此每个图表最多使用1或2个视网膜编码最佳。

永远记住,少即是多,因此始终尝试创建简约易懂的图表。

把它看作是给菜品调味,撒点盐和胡椒可能会增加它的味道,但倒满整个盐瓶可能会破坏口感。

那么…应该选择哪种编码方式呢?

这,朋友们,取决于你想要编织的故事。

所以你可以更好地问…

什么有效,什么无效?

虽然我们可以利用丰富的视觉工具,但并非所有武器都适用于每场战斗。

考虑一下哪种编码方式最适合哪种类型的变量。

  • 连续数据变量,例如体重和身高,在共同的比例尺上的位置上找到它们最佳的表示方式。
  • 离散数据变量,例如性别或国籍,通过颜色或空间区域来表示。

某些图表之所以直观易懂,有一些原因。而这背后有两个主要理论。

1. 整体感知理论

从事技术工作的人有时会忽视事物的人性方面。整体感知原则是心理学中解释我们的大脑如何看待模式的规则。

其中一些规则帮助我们理解为什么我们会将外观相似的事物分组,或者注意到突出的事物。

  1. 相似性:整体感知的相似性意味着我们的大脑将外观相似的事物分组。这可能是因为它们的位置、形状、颜色或大小。这在热力图或散点图中广泛使用。

  1. 闭合性:边界内的对象,例如线条或共享颜色,看起来像是属于一起的。这使它们与我们看到的其他事物区别开来。我们通常在表格和图表中使用边框或颜色来分组数据。

  1. 连续性:当个体元素连接在一起时,我们的眼睛认为它们归属于一组。即使它们看起来不同,线条使我们看到它们作为一组。这在折线图中广泛使用。

  1. 亲近性:如果事物彼此靠近,我们认为它们属于同一组。为了显示事物属于一起,将它们放在一起。适当留一些空间可以帮助分离不同的组。这在散点图或节点链接图中常用。

Image by Author

因此,在制作可视化时需要考虑整体感知原则及其相互作用。

2. 比例墨水原则

在许多不同的可视化场景中,我们通过图形元素的范围来表示数据值。

通常习惯性地使用术语墨水来指代与背景颜色有所不同的可视化的任何部分。这包括线条、柱形、点、共有区域和文本。

例如,在条形图中,我们绘制的柱形从0开始,结束于它们所表示的数据值。在这种情况下,数据值不仅编码在柱形的终点,也编码在柱形的高度或长度中。

如果我们绘制的条形图起始值与0不同,那么条形图的长度和条形图的终点将传达出相互矛盾的信息。

  图片由作者提供  

在所有这些情况下,我们需要确保没有不一致之处。这个概念被伯格斯特罗姆(Bergstrom)和韦斯特(West)称为比例油墨原理。

“当使用阴影区域表示数值时,该阴影区域的面积应与相应的数值成比例。”

在试图操纵数据时,违反这一原则是相当常见的,特别是在大众媒体和金融界。

类似的问题将在我们使用矩形、任意形状的阴影区域或任何其他具有定义的可视范围的图形元素时发生,这些图形元素可以与所显示的数据值一致或不一致。

 

一个好的可视化的本质

 

美学和功能之间的平衡至关重要。严格遵循像伯格斯特罗姆的比例油墨原则这样的原则,但不以可读性为代价。

而一些编码可能看起来效果较差,但可以有意选择,以发表观点或引发情感。

在我们这个时代,数据流量不断增加,构建有意义的视觉叙述的重要性不可低估。特别是在试图向非数据专业人士传达我们的见解时。

好的数据可视化不仅仅是关于呈现数字,而是试图围绕一个故事表达我们的数据。在讲述故事的同时,将数据活灵活现,并在原始信息和现实世界的影响与见解之间建立联系。

作为技术专家和数据爱好者,这是我们的艺术、我们的语言,也是我们与整个世界的桥梁。    Josep Ferrer 是来自巴塞罗那的分析工程师。他毕业于物理工程专业,目前在应用于人类移动性的数据科学领域工作。他是一名兼职内容创作者,专注于数据科学和技术。您可以通过LinkedIn、Twitter或VoAGI与他联系。