Chương 2: Học thống kê — 2.1 Học thống kê là gì?

ISLP §2.1 · pp. 25–37 · ★★☆☆☆ · Dự đoán & Suy luận · Tham số hóa & Phi tham số hóa

I. Động lực: Tập dữ liệu Advertising

Tiếng Việt

Khách hàng muốn biết mối liên hệ giữa chi phí quảng cáo và doanh số. Tập dữ liệu Advertising chứa ngân sách của ba loại hình truyền thông và doanh số tương ứng từ 200 thị trường.

📚 Nền tảng lý thuyết: Phân tích hồi quy bắt nguồn từ khái niệm "hồi quy về trung bình" của Galton (1886), sau đó được Pearson & Lee (1903) hình thức hóa. ISLP sử dụng khung thiết kế ngẫu nhiên: các quan sát (xᵢ, yᵢ) là i.i.d. từ phân bố hợp P(X,Y).

中文

客戶想知道廣告支出與銷售量的關聯。Advertising 資料集包含 200 個市場的三種廣告預算及對應銷售量。理論基礎：迴歸分析始於 Galton (1886)「回歸均值」，後由 Pearson & Lee (1903) 形式化。ISLP 採用隨機設計框架：觀測值 (xᵢ, yᵢ) 來自聯合分布 P(X,Y) 的 i.i.d. 樣本。

Tiếng Việt

Bảng biến:

中文

變數表：

Tiếng Việt

TV — Ngân sách quảng cáo truyền hình (nghìn USD) → Biến đầu vào
radio — Ngân sách quảng cáo phát thanh (nghìn USD) → Biến đầu vào
newspaper — Ngân sách quảng cáo báo chí (nghìn USD) → Biến đầu vào
sales — Doanh số (nghìn đơn vị) → Biến phản hồi Y

中文

TV — 電視廣告預算（千美元）、radio — 廣播、newspaper — 報紙 → 預測子
sales — 銷售量（千單位）→ 反應變數 Y

Tiếng Việt

🎯 Ứng dụng thực tế: Marketing Mix Modeling (MMM) — Doanh nghiệp đầu tư hàng triệu USD cho quảng cáo nhưng khó quy kết đóng góp biên của từng kênh. MMM dựa trên khung Y = f(TV, radio, newspaper) + ε để ước tính ROI từng kênh. Công cụ Robyn của Meta, giải pháp của Nielsen đều dựa trên mô hình này.

中文

🎯 行銷組合模型 (MMM)：企業年投數百萬廣告預算但難以歸因各渠道邊際貢獻。基於 Y = f(TV, radio, newspaper) + ε 框架估計各媒體 ROI。Meta 的 Robyn、Nielsen 方案皆以此為基礎。

Tiếng Việt

Đọc dữ liệu và vẽ Hình 2.1 (Colab tương thích):

中文

讀取資料並繪製 Figure 2.1（Colab 相容）：

Tiếng Việt

Quan sát: TV và radio có tương quan dương rõ rệt với doanh số; newspaper có tương quan yếu hơn nhiều.

中文

觀察：TV 和 radio 與 sales 有明顯正相關；newspaper 相關性較弱。

II. Khung lý thuyết: Y = f(X) + ε

Tiếng Việt

Công thức nền tảng của toàn bộ statistical learning:

Y = f(X) + ε, E[ε] = 0, ε ⟂ X

X = (X₁, …, Xₚ): Biến đầu vào (dự đoán, đặc trưng), X ∈ ℝᵖ
Y: Biến đầu ra (phản hồi) — số (hồi quy) hoặc phân loại (phân lớp)
f: Hàm thực chưa biết, f(X) = E[Y | X] — kỳ vọng có điều kiện
ε: Nhiễu ngẫu nhiên, E[ε] = 0, Var(ε) = σ²

📚 Nguồn lý thuyết: Phát biểu toán học chặt chẽ truy nguyên từ Stone (1977) "Consistent Nonparametric Regression". Tính chất f(X) = E[Y|X] là hàm tối ưu dưới squared loss được chứng minh trong Lehmann & Casella (1998) Theory of Point Estimation §1.6.

中文

統計學習的核心公式：Y = f(X) + ε，E[ε]=0，ε ⟂ X。X 是輸入變數（預測子），Y 是輸出（回歸或分類），f 是未知的真實函數且 f(X)=E[Y|X]，ε 是隨機誤差。理論來源：Stone (1977) 非參數回歸一致性，Lehmann & Casella (1998) 證明 f(X)=E[Y|X] 是平方損失下的最優函數。

III. Tại sao phải ước lượng f? Dự đoán vs Suy luận

Tiếng Việt

1. Dự đoán (Prediction): Ŷ = f̂(X). Khi chỉ quan tâm đến độ chính xác, f̂ có thể là hộp đen. Sai số dự đoán phân rã thành:

E[(Y − f̂(x₀))²] = [f(x₀)−f̂(x₀)]² + Var(ε)

Thành phần đầu là sai số có thể giảm (cải thiện mô hình → giảm). Var(ε) là sai số không thể giảm — giới hạn dưới của mọi mô hình.

中文

預測：Ŷ = f̂(X)，只在乎準確度時 f̂ 可以是黑盒子。預測誤差 = 可約誤差 + 不可約誤差 Var(ε)。可約誤差可以透過更好的模型降低；不可約誤差是資料本身噪音，任何模型都無法突破。

Tiếng Việt

2. Suy luận (Inference): Mục tiêu là hiểu mối quan hệ giữa X và Y. Các câu hỏi điển hình:

Biến dự đoán nào thực sự liên quan đến Y?
Mối quan hệ là tuyến tính hay phức tạp hơn?
Hướng và độ lớn của tác động?

🎯 Ứng dụng: Thử nghiệm lâm sàng — suy luận cơ chế nhân quả liều–phản ứng, ưu tiên ước lượng khoảng hơn dự đoán điểm.

中文

推論：目標是理解 X 與 Y 的關係——哪些變數有關？關係是線性還是更複雜？方向與強度？典型應用：臨床試驗中推論劑量反應的因果機制，重視區間估計而非點預測。

Tiếng Việt

So sánh Dự đoán vs Suy luận:

Dự đoán thuần túy: Mô hình linh hoạt (hộp đen OK), theo đuổi độ chính xác tối đa. Ví dụ: Netflix recommendation, high-frequency trading.
Suy luận thuần túy: Mô hình đơn giản, dễ giải thích. Ví dụ: thử nghiệm lâm sàng, chính sách y tế công cộng.
Kết hợp cả hai: Mô hình cân bằng. Ví dụ: credit scoring, định phí bảo hiểm.

中文

預測 vs 推論對比：純預測追求最高準確度，模型可以是黑盒子（Netflix 推薦、高頻交易）；純推論重視可解釋性與因果（臨床試驗、公共衛生）；兩者兼顧需取捨（信用評分、保險費率）。

IV. Làm thế nào để ước lượng f? Tham số hóa vs Phi tham số hóa

Tiếng Việt

1. Phương pháp tham số hóa (Parametric): Hai bước — (a) Giả định dạng hàm, ví dụ tuyến tính: f(X) = β₀ + β₁X₁ + … + βₚXₚ; (b) Dùng dữ liệu huấn luyện để ước lượng tham số (OLS).

Ưu: đơn giản, ít tham số, hội tụ nhanh O(n⁻¹/²), diễn giải được. Nhược: nếu dạng hàm sai → kết quả sai.

中文

參數化方法：先假設函數形式（如線性 f=β₀+β₁X₁+…），再用資料估計參數。優點：簡單、收斂快、可解釋；缺點：若假設的函數形式錯誤則結果不可靠。

Tiếng Việt

2. Phương pháp phi tham số hóa (Non-parametric): Không giả định dạng hàm cụ thể — để dữ liệu "tự nói". Ví dụ: KNN, thin-plate spline, decision tree.

Ưu: linh hoạt, khớp được nhiều dạng hàm. Nhược: cần nhiều dữ liệu, dễ overfit, khó diễn giải, bị ảnh hưởng bởi lời nguyền chiều (curse of dimensionality).

中文

非參數化方法：不假設特定函數形式，讓資料自己說話（KNN、薄板樣條、決策樹）。優點：極度靈活、可擬合任意形狀；缺點：需大量資料、易過擬合、受維度詛咒限制。

Tiếng Việt

So sánh:

Tham số hóa: hội tụ O(n⁻¹/²), ít bị ảnh hưởng bởi số chiều, cần ít dữ liệu, nhưng nhạy với sai định dạng mô hình.
Phi tham số hóa: hội tụ O(n⁻²ᵐ/⁽²ᵐ⁺ᵖ⁾), bị lời nguyền chiều ảnh hưởng nặng (p tăng → hội tụ chậm), cần nhiều dữ liệu.

中文

參數化收斂 O(n⁻¹/²)，維度影響小，小樣本可用但怕模型誤設。非參數化收斂 O(n⁻²ᵐ/⁽²ᵐ⁺ᵖ⁾)，維度詛咒嚴重，需大量資料但可擬合任意形狀。

V. Đánh đổi giữa tính linh hoạt và khả năng diễn giải

Tiếng Việt

Đây là một trong những nguyên lý quan trọng nhất của statistical learning:

Tính diễn giải cao ⟵ Least Squares → Lasso → GAM → Trees → Bagging → Boosting → Deep Learning ⟶ Tính linh hoạt cao

Mô hình đơn giản (Least Squares, Lasso): dễ giải thích nhưng có thể thiếu chính xác nếu quan hệ thực phức tạp.
Mô hình phức tạp (Boosting, Deep Learning): dự đoán rất chính xác nhưng gần như không thể giải thích từng quyết định.
Lựa chọn phụ thuộc vào mục tiêu: suy luận → đơn giản; dự đoán → phức tạp.

中文

統計學習最重要的權衡之一：簡單模型（最小平方、Lasso）可解釋性高但可能欠擬合；複雜模型（Boosting、深度學習）預測準但幾乎無法解釋。選擇取決於目標：推論選簡單、預測選複雜、兩者兼顧取中間。

Tiếng Việt

🎯 Ví dụ thực tế: Zillow 的 Zestimate 從參數化的 hedonic regression 演進到非參數化的 GBM + KNN，預測更準但解釋性大幅下降。信用評分卡則堅持 Logistic Regression 因為法規要求可解釋性。

中文

實例：Zillow 房價估計從參數化的 hedonic regression 進化到 GBM+地理 KNN，準度提升但可解釋性下降。信用評分卡堅持用 Logistic Regression，因法規要求每個決策可解釋。

VI. Tổng kết

Tiếng Việt

Statistical learning = ước lượng f trong Y = f(X) + ε. Mọi thứ khác đều là hệ quả của bài toán này.
Dự đoán ≠ Suy luận. Dự đoán theo đuổi f̂ chính xác; suy luận theo đuổi f̂ dễ hiểu. Cùng một dữ liệu, mục tiêu khác nhau → mô hình khác nhau.
Tham số hóa vs Phi tham số hóa là sự đánh đổi giữa đơn giản (nhanh, ít dữ liệu) và linh hoạt (chính xác hơn nếu đủ dữ liệu).
Linh hoạt ⇄ Diễn giải là đánh đổi không thể tránh khỏi. Không có mô hình nào vừa cực kỳ chính xác vừa cực kỳ dễ hiểu.

中文

統計學習的核心就是估計 Y=f(X)+ε 中的 f，一切方法都是為了解這個問題。
預測追求準確的 f̂，推論追求可理解的 f̂。相同資料、不同目標→不同模型。
參數化 vs 非參數化是簡單（快、省資料）與靈活（夠多資料就更準）的取捨。
靈活度與可解釋性永遠是 trade-off，沒有模型能同時極準又極易懂。

🤖 AI Thức

Chương 2: Học thống kê — 2.1 Học thống kê là gì?

An Introduction to Statistical Learning (ISLP)

I. Động lực: Tập dữ liệu Advertising

II. Khung lý thuyết: Y = f(X) + ε

III. Tại sao phải ước lượng f? Dự đoán vs Suy luận

IV. Làm thế nào để ước lượng f? Tham số hóa vs Phi tham số hóa

V. Đánh đổi giữa tính linh hoạt và khả năng diễn giải

VI. Tổng kết