Bài giảng từ ISLP (James, Witten, Hastie, Tibshirani, 2023) — §3.5, tr. 114–122
Trong các phần trước, chúng ta đã làm quen với hồi quy tuyến tính — một phương pháp tham số (parametric). Nhưng còn một cách tiếp cận hoàn toàn khác: K-Nearest Neighbors (KNN) — một phương pháp phi tham số (non-parametric). Hai cách tiếp cận này đại diện cho hai triết lý mô hình hóa đối lập nhau trong thống kê học.
在前幾節我們學習了線性迴歸——一種參數方法。但還有一種完全不同的方法:K-近鄰(KNN)——一種非參數方法。這兩種方法代表了統計學習中兩種對立的建模哲學。
Phương pháp tham số (Parametric):
Phương pháp phi tham số (Non-parametric):
參數方法:
非參數方法:
Với một điểm dự báo x₀, KNN tìm K điểm huấn luyện gần nhất (theo khoảng cách Euclidean) và lấy trung bình giá trị Y của chúng:
對於一個預測點 x₀,KNN 找出 K 個最近的訓練點(按歐氏距離),並取它們 Y 值的平均:
Trong đó 𝒩₀ là tập K điểm huấn luyện gần x₀ nhất.
Điểm mấu chốt: KNN không có «giai đoạn huấn luyện» thực sự — nó chỉ ghi nhớ toàn bộ tập dữ liệu. Mọi tính toán đều diễn ra tại thời điểm dự báo. Vì vậy KNN còn được gọi là phương pháp lazy learning.
其中 𝒩₀ 是最接近 x₀ 的 K 個訓練點的集合。
關鍵點:KNN 沒有真正的「訓練階段」——它只是記住整個數據集。所有計算都在預測時進行。因此 KNN 也被稱為 懶惰學習 方法。
Khi mối quan hệ thực sự giữa X và Y gần tuyến tính:
Bài học: Khi dữ liệu có cấu trúc đơn giản, mô hình đơn giản hơn thường chiến thắng. Thêm độ phức tạp không cần thiết chỉ làm tăng phương sai.
當 X 和 Y 之間的真實關係接近線性時:
啟示:當數據結構簡單時,簡單的模型通常勝出。不必要的複雜度只會增加方差。
Khi mối quan hệ thực sự phi tuyến mạnh:
Bài học: Khi dữ liệu phức tạp, mô hình linh hoạt hơn có lợi thế. Nhưng vẫn cần chọn K phù hợp để tránh overfit.
當真實關係高度非線性時:
啟示:當數據複雜時,更靈活的模型有優勢。但仍需選擇合適的 K 以避免過擬合。
Đây là khái niệm quan trọng nhất của toàn bộ chương:
| Mô hình | Thiên lệch (Bias) | Phương sai (Variance) | Tính diễn giải |
|---|---|---|---|
| Hồi quy tuyến tính | Cao nếu dữ liệu phi tuyến | Thấp | Rất cao |
| KNN (K lớn) | Cao (làm mịn quá mức) | Thấp | Trung bình |
| KNN (K nhỏ) | Thấp | Cao (overfit) | Thấp |
Nguyên tắc vàng: Không có mô hình nào luôn tốt nhất. Lựa chọn phụ thuộc vào:
這是整章最重要的概念:
| 模型 | 偏差 | 方差 | 可解釋性 |
|---|---|---|---|
| 線性迴歸 | 若數據非線性則高 | 低 | 非常高 |
| KNN(K 大) | 高(過度平滑) | 低 | 中等 |
| KNN(K 小) | 低 | 高(過擬合) | 低 |
黃金原則:沒有永遠最好的模型。選擇取決於:
KNN hoạt động tốt khi số biến dự báo p nhỏ (1–4). Nhưng khi p tăng lên, KNN gặp vấn đề nghiêm trọng:
當預測變數數量 p 較少(1–4)時,KNN 表現良好。但當 p 增加時,KNN 遭遇嚴重問題: