高斯混合模型(GMM)的3个应用场景

3 applications of Gaussian Mixture Model (GMM)

使用GMM算法进行特征工程、无监督分类和异常检测

高斯混合模型(GMM)是一种简单而强大的无监督分类算法,它在K-means算法的基础上构建,以预测每个实例的分类概率。GMM的这个特性使其在许多应用中具有多样性。在本文中,我将讨论如何在特征工程、无监督分类和异常检测中使用GMM。

什么是高斯混合模型(GMM)?

模型描述

当数据集的单个或多个变量的高斯分布试图以概率的方式表示整个总体时,GMM假设数据集中存在子群体,并且每个子群体都遵循自己的正态分布。在无监督的情况下,GMM试图学习数据中的子群体及其对每个数据点的概率表示[1]。GMM的这个特性使我们能够使用该模型找到概率低于任何子群体的点,并将这些点归类为异常值。

GMM通过利用组件来表示这些子群体,将多变量高斯分布扩展到适应子群体情况,并修改多变量概率分布函数以适应组件。作为一个温和的提醒,多变量高斯分布的概率密度函数如下所示:

在GMM中,每个实例的概率被修改为所有组件的概率之和,组件权重被参数化为𝜙。GMM要求所有组件权重之和为1,以便将每个组件视为整体的比例。GMM还结合了每个组件的特征均值和方差。模型如下所示:

GMM模型公式

请注意多变量分布和GMM之间的相似之处。实质上,GMM算法找到了为每个组件表示的权重,这些权重被表示为多变量高斯分布。在他的文章中,Oscar Contreras Carrasco对GMM进行了很好的推导[2]。