輪廓 (聚類)

在機器學習與數據挖掘領域，輪廓指的是一種反映數據聚類結果一致性的方法，可以用於評估聚類後簇與簇之間的離散程度。^[1]輪廓的取值範圍為[-1, +1]，如果某一樣本的輪廓接近1，則說明樣本聚類結果合理；如果接近-1，則說明其更應該分類到其他的簇；如果輪廓近似為0，則說明該樣本在兩個簇的邊界上。所有樣本輪廓的均值稱為聚類結果的輪廓係數（Silhouette Coefficiency），是該聚類是否合理、有效的度量。

定義

該圖顯示了Orange數據挖掘套件渲染的動物園數據集中的三種動物的輪廓。在圖底部的輪廓值反映了該數據集中海豚和鼠海豚是離群值（outlier）

假設某一數據集使用如k-means等聚類方法分成了 $k$ 個簇：

對於某一屬於簇 $C_{i}$ 樣本 $i$ ，記為 $i\in C_{i}$ ，設 $d(i,j)$ 為樣本 $i$ 與 $j$ 之間的距離，求算樣本 $i$ 與其他樣本之間的平均距離的公式如下（由於不計算樣本與自身的距離 $d(i,i)$ ，故計算平均值時樣本總數為 $|C_{i}|-1$ ）：

a(i)={\frac {1}{|C_{i}|-1}}\sum _{j\in C_{i},i\neq j}d(i,j)

上述公式結果記為 $a(i)$ ，它反映了樣本 $i$ 當前聚類結果的優劣（值越小，聚類結果越好）。

然後，我們定義樣本與某簇 $C_{k}$ 的平均相異性為與樣本 $i$ 距離簇的平均值 $i$ 到簇 $C_{k}$ 內所有樣本的距離均值（ $C_{k}\neq C_{i}$ ），則對於樣本 $i\in C_{i}$ ，有 $i$ 最小平均距離 $b(i)$ 對應的簇 $C_{k}$ ，我們稱其為 $i$ 的「相鄰簇」：

b(i)=\min _{k\neq i}{\frac {1}{|C_{k}|}}\sum _{j\in C_{k}}d(i,j)

結合上述內容，我們定義 $i$ 的輪廓值為：

s(i)={\frac {b(i)-a(i)}{\max\{a(i),b(i)\}}}

等效為：

s(i)={\begin{cases}1-a(i)/b(i),&{\mbox{if }}a(i)<b(i)\\0,&{\mbox{if }}a(i)=b(i)\\b(i)/a(i)-1,&{\mbox{if }}a(i)>b(i)\\\end{cases}}

對於上述定義，顯然 $-1\leq s(i)\leq 1.$

為了防止簇數量暴增，對於僅有一個樣本的簇（ $|C_{i}|=1$ ），定義其 $s(i)=0$ 。 $a(i)$ 反映了 $i$ 與其所屬簇的距離，較小的 $a(i)$ 值說明其與所屬簇的關係緊密；而較大的 $b(i)$ 反映了 $i$ 與其他簇關係疏遠；故為提高 $s(i)$ （或稱為優化聚類結果），我們需要使 $a(i)\ll b(i)$ ^[2]。