支援向量機的基本原理


支援向量機(Support Vector Machines, SVMs)是機器學習中的一個基本工具,以其在分類任務中的效果著稱。它們可以處理線性和非線性數據,因此在包括回歸和新奇檢測在內的各種應用中都很通用。SVMs 對於小到中型數據集特別有效,通常在準確性方面優於其他分類器。

線性 SVM 分類

在其核心,SVM 的目標是找到最佳的超平面來分隔不同類別的數據點。在二維空間中,這個超平面就是一條直線。“支援向量” 是距離超平面最近的數據點,而這些點與超平面之間的距離被最大化以達到最佳分隔。這種方法稱為硬邊界分類,它假設數據是線性可分的——即兩個類別可以被一條直線完全分開。然而,現實世界的數據通常包含噪聲或重疊,使得嚴格的分隔變得具有挑戰性。

軟邊界分類

為了應對硬邊界分類的局限性,SVM 使用了一個名為軟邊界分類的概念。這種方法允許某些數據點位於超平面的”錯誤”一側或在一定的容差範圍內,從而提供了一個更靈活和穩健的模型。軟邊界分類不僅更好地處理線性不可分的數據,而且對於偏離正常值的異常點也不那麼敏感。

非線性 SVM 分類

雖然線性 SVM 分類器對於線性可分的數據效果良好,但它們在處理複雜的非線性數據集時表現不佳。為了解決這個問題,SVM 可以擴展以處理非線性分類,通過將原始數據映射到更高維度的空間,在這裡可以實現線性分隔。這就是核心函數概念的由來。

多項式核心和核心技巧

一個處理非線性數據的簡單方法是向數據集中添加多項式特徵。然而,隨著多項式度數的增加,這種方法可能變得計算上昂貴且不切實際,因為它會導致特徵數量的爆炸性增長。

核心技巧提供了一個優雅的解決方案。它允許 SVM 在高維空間中運行,而無需顯式地計算數據在該空間中的坐標。相反,核心函數直接計算高維空間中數據點之間的點積,從而避免了實際轉換數據的計算負擔。這一技巧使得 SVM 能夠在非常高維空間中有效地學習複雜的邊界。

SVM 的關鍵概念

  1. 支援向量:支援向量是距離超平面最近的數據點。它們至關重要,因為它們決定了超平面的位置和方向。SVM 演算法使用這些點來找到不同類別之間的最佳分隔邊界。如果去掉這些點,超平面的位置就會改變,而去掉其他任何點則不會。

  2. 縮放輸入的必要性:SVM 對輸入數據的比例非常敏感。範圍較大的特徵可以在超平面的計算中占主導地位,導致結果的偏差。因此,在訓練 SVM 模型之前,將所有特徵縮放到相似的範圍非常重要,通常使用標準化或正規化等技術。這確保所有特徵在模型的決策過程中有平等的貢獻。

支援向量機仍然是機器學習的基石,特別是在對小到中型數據集的準確性和性能要求極高的任務中。通過理解 SVM 的原理,包括支援向量、軟邊界的重要性和核心技巧,從業者可以利用這個強大的工具解決各種分類問題。