如何使用Python代码实现直接营销活动的层次聚类

使用Python代码实现直接营销活动层次聚类

了解层次聚类的内外部工作原理以及它在银行业营销活动分析中的应用。

Frederick Warren在Unsplash上的照片

动机

想象一下,你是一家领先金融机构的数据科学家,你的任务是协助团队将现有客户分类为不同的个人资料:平均高净值个人白金,以便进行贷款审批。

但问题在于:

这些客户没有这样的历史标签,那么你如何创建这些类别呢?

这就是聚类的用武之地,它是一种无监督的机器学习技术,用于将未标记的数据分组为相似的类别。

有多种聚类技术可用,但本教程将更多地关注层次聚类方法。

它首先概述了层次聚类的概念,然后逐步介绍了如何使用流行的Scipy库在Python中实现。

什么是层次聚类?

层次聚类是一种将数据分组成称为树状图的聚类的技术,表示底层聚类之间的层次关系。

层次聚类算法依赖于距离度量来形成聚类,通常包括以下几个主要步骤:

层次聚类的四个主要步骤(图片由作者提供)
  • 计算距离矩阵,其中包含每对数据点之间的距离,使用特定的距离度量,如欧氏距离、曼哈顿距离或余弦相似度
  • 合并距离最近的两个聚类
  • 根据新的聚类更新距离矩阵
  • 重复步骤1、2和3,直到所有…