了解直方图和核密度估计
美丽与时尚领域专家来解读直方图和核密度估计
直觀地探索直方圖和核密度估計
直方圖是一種用於可視化數值數據頻率的圖形。它常用於數據科學和統計學領域,用於對數據集的分布進行原始估計。核密度估計(KDE)是一種使用從該分布中隨機抽取的隨機樣本來估計隨機變量具有未知分布的概率密度函數(PDF)的方法。因此,它允許我們基於從該分布中抽樣的有限數據集推斷出一個人群的概率密度。KDE在信號處理和數據科學中經常被用作估計概率密度的重要工具。本文探討了直方圖和KDE背後的數學和直覺,以及它們的優點和局限性。文章還演示了如何從頭開始在Python中實現KDE。本文中的所有圖片均由作者創建。
概率密度函數
設X是一個連續隨機變量。X取值落在區間[a, b]內的概率可以寫成:
- 我们如何在人工智能中推进物体识别?这篇人工智能论文介绍了GLEE:一个用于增强图像和视频分析的通用物体级基础模型
- EPFL 和苹果研究人员开源 4M :一种用于训练跨数十种模态和任务的多模式基础模型的人工智能框架
- 机器学习算法与生成对抗网络(GAN)
其中f(x)是X的概率密度函數(PDF)。X的累積分布函數(CDF)定義為:
因此,X的累積分布函數在x處的值是X取值小於或等於x的概率。利用方程式1,我們可以寫成:
利用微積分的基本定理,可以得到
這意味著X的PDF可以通過對其CDF對x求導來確定。直方圖是估計數據集PDF最簡單的方法,正如我們在下一節中所示,它使用方程式1進行此目的。
直方圖
在清單1中,我們創建了一個雙峰分佈,作為兩個正態分佈的混合,並從該分佈中隨機抽取了1000個樣本。這裡我們混合了兩個正態分佈:
因此,兩個正態分佈的均值分別為0和4,方差分別為1和0.8。混合係數為0.7和0.3,因此這些分布的混合PDF是:
清單1將該PDF和樣本繪製在圖1中。