可视化社交网络以获取更好的见解:使用Python的NetworkX库分析和映射社交关系——第2部分

继续使用Python的NetworkX库进行社交网络分析的初学者指南

在第一部分中,我们探讨了链接分析,特别是社交网络分析,以研究和了解个人和实体之间的关系。然后,我们介绍了社交网络分析(SNA),这是一种特定类型的链接分析,重点关注人和群体及其关系。我们回顾了SNA的基本概念,包括节点(代表个人)和边缘(代表个人之间的连接)。然后,我们讨论了如何使用SNA来理解社会影响力、群体形成和信息流,使用度中心性和介数中心性等指标,以Billy Corgan及其与Smashing Pumpkins的创始成员之间的关系为简单例子。

Image by Gordon Johnson from Pixabay

在那个例子中,我们保持了网络的小而简单。在本教程中,我们将继续使用Python和NetworkX来检查Billy Corgan的影响范围。我们还将扩展Billy Corgan的网络,使其更加复杂,增加我们对度中心性和介数中心性的理解。在我们完成这个例子的过程中,我们将讨论上下文及其如何利用领域知识来最大化社交网络分析的好处。

社交网络分析的背景

领域知识和研究是社交网络分析的必要组成部分,因为它们提供必要的背景、理论框架和对塑造社交网络的社会和文化因素的理解。如果没有这种理解,你就会产生误导性或不正确的结果,无法准确地捕捉社交网络数据的复杂性和细微差别。

开始之前……

  1. 你是否具备Python的基本知识?如果没有,请从这里开始。
  2. 你是否熟悉社交网络分析的基本概念,如节点和边缘,或诸如中心性之类的指标?如果不是,请从这里开始。

收集分析社交网络的数据

那么,我们需要什么样的数据来开始调查Billy Corgan的影响范围呢?让我们从所有Smashing Pumpkins的乐手,包括现任和前任,开始。

使用维基百科,我们可以得到一个相当可靠的自1988年以来演奏Smashing Pumpkins的所有音乐家的列表。顺便说一句,你知道Billy Corgan(简要地)在2000年代初期还有另一个名为Zwan的乐队吗?剧透警告,它没有好的结局。让我们也列一个名单。

然后,打开你最喜欢的IDE,导入相关的库,并创建两个列表,一个用于Smashing Pumpkins,一个用于Zwan。

描述社交网络中的关系

我们的下一个任务是建立一些元组列表,以表示Billy Corgan与每个乐队成员之间的关系。我们还需要考虑每个乐队成员与所有其他乐队成员之间的关系。

在图论中,这种关系被称为对称。如果Billy与Jimmy在一个乐队中,Jimmy也与Billy在一个乐队中。

为了实现这一点,我们可以使用Python来构建一个简单的函数,该函数将摄取每个乐队成员列表并返回所有可能的成对组合。

然后,我们可以将其应用于每个列表,并将结果组合在一起,创建一个包含Zwan和Smashing Pumpkins的所有乐队成员之间关系的元组列表。

输出将看起来像这样:

[('Billy Corgan', 'James Iha'), ('Billy Corgan', 'Jimmy Chamberlin'), ('Billy Corgan', 'Katie Cole'), ('Billy Corgan', "D'arcy Wretzky"), ('Billy Corgan', 'Melissa Auf der Maur'), ('Billy Corgan', 'Ginger Pooley'), ('Billy Corgan', 'Mike Byrne'), ('Billy Corgan', 'Nicole Fiorentino'), ('James Iha', 'Jimmy Chamberlin'), ('James Iha', 'Katie Cole'), ('James Iha', "D'arcy Wretzky"), ('James Iha', 'Melissa Auf der Maur'), ('James Iha', 'Ginger Pooley'), ('James Iha', 'Mike Byrne'), ('James Iha', 'Nicole Fiorentino'), ('Jimmy Chamberlin', 'Katie Cole'), ('Jimmy Chamberlin', "D'arcy Wretzky"), ('Jimmy Chamberlin', 'Melissa Auf der Maur'), ('Jimmy Chamberlin', 'Ginger Pooley'), ('Jimmy Chamberlin', 'Mike Byrne'), ('Jimmy Chamberlin', 'Nicole Fiorentino'), ('Katie Cole', "D'arcy Wretzky"), ('Katie Cole', 'Melissa Auf der Maur'), ('Katie Cole', 'Ginger Pooley'), ('Katie Cole', 'Mike Byrne'), ('Katie Cole', 'Nicole Fiorentino'), ("D'arcy Wretzky", 'Melissa Auf der Maur'), ("D'arcy Wretzky", 'Ginger Pooley'), ("D'arcy Wretzky", 'Mike Byrne'), ("D'arcy Wretzky", 'Nicole Fiorentino'), ('Melissa Auf der Maur', 'Ginger Pooley'), ('Melissa Auf der Maur', 'Mike Byrne'), ('Melissa Auf der Maur', 'Nicole Fiorentino'), ('Ginger Pooley', 'Mike Byrne'), ('Ginger Pooley', 'Nicole Fiorentino'), ('Mike Byrne', 'Nicole Fiorentino'), ('Billy Corgan', 'Jimmy Chamberlin'), ('Billy Corgan', 'Paz Lenchantin'), ('Billy Corgan', 'David Pajo'), ('Billy Corgan', 'Matt Sweeney'), ('Jimmy Chamberlin', 'Paz Lenchantin'), ('Jimmy Chamberlin', 'David Pajo'), ('Jimmy Chamberlin', 'Matt Sweeney'), ('Paz Lenchantin', 'David Pajo'), ('Paz Lenchantin', 'Matt Sweeney'), ('David Pajo', 'Matt Sweeney')]

接下来,我们可以遍历元组列表,使用 Network X 生成图形。

生成的图形如下:

让我们讨论从这张图中可以获得的两个关键观察结果。

  1. Smashing Pumpkins乐队成员出现的右上角比Zwan成员出现的左下角更加复杂,因为Zwan成员更少。
  2. Billy Corgan和Jimmy Chamberlin出现在中心位置,因为他们都在两个乐队中出现。

接下来,让我们考虑这些观察结果如何反映在度中心性和介数中心性上。

使用 NetworkX 计算度中心性和介数中心性

在第 1 部分中,我们计算了Billy Corgan和Smashing Pumpkins的创始成员的度中心性和介数中心性。为了完成这个任务,我们调用了 NetworkX 中的两个方法,并编写了一个简单的脚本来执行它们。这一次,由于我们已经组装了图形,我们只需要将图形输入以计算中心性度量。

这将生成以下输出:

让我们讨论如何解释这些结果。

这张表格告诉我们所有乐队成员的度中心性情况?

1. Billy Corgan的度中心性得分为1.000,表明他在Smashing Pumpkins和Zwan中拥有最多的连接或合作关系。他与两个乐队的每个成员直接相连。

2. Jimmy Chamberlin的度中心性得分也为1.000,表明他与两个乐队的每个成员都有直接联系。

3. James Iha、Katie Cole、D’arcy Wretzky、Melissa Auf der Maur、Ginger Pooley、Mike Byrne、Nicole Fiorentino、Paz Lenchantin、David Pajo和Matt Sweeney的度中心性得分都相同,为0.727273,表明他们在乐队中具有类似的连接或合作水平。

Jimmy Chamberlin, circa 2014 — swimfinfan from Chicago, CC BY-SA 2.0 < https://creativecommons.org/licenses/by-sa/2.0 >, via Wikimedia Commons

这张表格告诉我们所有乐队成员的介数中心性情况?

1. Billy Corgan和Jimmy Chamberlin的介数中心性得分也是最高的,为0.190909,表明他们可能是其他乐队成员在沟通或合作方面的重要中介或桥梁。

2. 除了Billy Corgan和Jimmy Chamberlin以外,没有乐队成员的介数中心性得分为非零,表明他们在桥接其他成员之间的连接方面不是核心。

运用领域知识加强推测

虽然中心性指标提供了我们可以得出推断的数据点,但这些推断仅基于表格中提供的信息。

要对Billy Corgan的影响范围作出更具体的结论,您需要了解九十年代的另类音乐和音乐家,以提供关于这些乐队成员之间动态的完整假设。

因此,如果您是九十年代音乐爱好者,请在评论中告诉我您对这些结果的看法。请务必关注第三部分,我们将扩展网络,以便探索社交网络分析中的亲近中心性、聚类和社区。

如果您想获得本教程的完全注释的 Python 脚本,请访问我的GitHub!

👩🏻‍💻 Christine Egan | 小猪AI | github | linkedin