3.2 Hồi quy tuyến tính đa biến — Khóa học Thống kê học ISLP

Bài giảng từ ISLP (James, Witten, Hastie, Tibshirani, 2023)

Nội dung bài giảng

3.2 Hồi quy tuyến tính đa biến 📖 ISLP §3.2 📄 tr. 81–90 ★★★☆☆ ⏱️ Khoảng 45 phút Hồi quy đa biến Bình phương nhỏ nhất Kiểm định F Lựa chọn biến số R² Khoảng dự báo Tập dữ liệu Advertising ← 3.1 Hồi quy tuyến tính đơn giản 📑 Trang chủ khóa học 3.3 Các cân nhắc khác của mô hình hồi quy → **Từ hồi quy đơn giản đến hồi quy đa biến: Tại sao cần nhiều biến số dự báo?** Trong §3.1, chúng ta đã sử dụng biến số "Ngân sách quảng cáo trên TV" để dự báo doanh số, và thu được kết quả khá tốt. Nhưng thế giới thực tế phức tạp hơn nhiều – doanh số có thể bị ảnh hưởng đồng thời bởi nhiều kênh quảng cáo như TV, radio, báo chí, v.v. Nếu chúng ta fitting một mô hình hồi quy tuyến tính đơn giản riêng biệt cho mỗi biến số dự báo, hai vấn đề nghiêm trọng sẽ nảy sinh: ⚠️ **Bẫy của việc fitting riêng biệt:** 1. **Không thể đưa ra dự báo thống nhất** – Ba mô hình đưa ra ba giá trị dự báo khác nhau, nên tin vào cái nào? 2. **Bỏ qua mối tương quan giữa các biến số** – Nếu các ngân sách quảng cáo tương quan với nhau (ví dụ: thị trường chi tiêu cao cho quảng cáo radio cũng có xu hướng chi tiêu cao cho báo chí), thì các hệ số hồi quy đơn giản sẽ gây hiểu lầm nghiêm trọng. Giải pháp là **Mô hình Hồi quy Tuyến tính Đa biến (Multiple Linear Regression)** – đưa tất cả các biến số dự báo vào cùng một mô hình, mỗi biến số có hệ số riêng. \[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p + \epsilon \tag{3.19} \] *Mô hình Hồi quy Tuyến tính Đa biến (với \(p\) biến số dự báo)* Trong đó, \(\beta_j\) đại diện cho **ảnh hưởng trung bình** của việc tăng \(X_j\) một đơn vị lên \(Y\), **với giả định các biến số dự báo khác không đổi**. Áp dụng cho dữ liệu quảng cáo: \[ \text{sales} = \beta_0 + \beta_1 \times \text{TV} + \beta_2 \times \text{radio} + \beta_3 \times \text{newspaper} + \epsilon \tag{3.20} \] James, Witten, Hastie, Tibshirani (2023) *An Introduction to Statistical Learning with Python*, §3.2, tr. 81–90. **Khái niệm cốt lõi:** Hồi quy tuyến tính đa biến là sự tổng quát hóa của hồi quy tuyến tính đơn giản sang bối cảnh nhiều biến số dự báo. Mỗi hệ số \(\beta_j\) được giải thích là "hiệu ứng biên trung bình của \(X_j\) lên \(Y\) khi các biến số khác cố định". **3.2.1 Ước lượng hệ số hồi规: Sự tổng quát hóa của Phương pháp Bình phương nhỏ nhất** Tương tự hồi quy tuyến tính đơn giản, chúng ta sử dụng **Phương pháp Bình phương nhỏ nhất (Least Squares)** để ước lượng \(\beta_0, \beta_1, \ldots, \beta_p\) – chọn các giá trị tham số làm cho Tổng bình phương phần dư (RSS) nhỏ nhất: \[ \text{RSS} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_{i1} - \hat{\beta}_2 x_{i2} - \cdots - \hat{\beta}_p x_{ip})^2 \tag{3.22} \] Khác với hồi quy tuyến tính đơn giản có lời giải đóng (closed-form), việc ước lượng hệ số hồi quy đa biến cần sử dụng **đại số ma trận** để biểu diễn, dạng phức tạp hơn, nhưng bất kỳ phần mềm thống kê nào cũng có thể tính toán dễ dàng. Về mặt hình học, khi \(p=2\), lời giải bình phương nhỏ nhất tương ứng với một **mặt phẳng** trong không gian 3 chiều (thay vì là đường thẳng trong hồi quy đơn giản), mặt phẳng này tối thiểu hóa tổng bình phương khoảng cách từ các quan sát đến mặt phẳng. **Kết quả thực nghiệm từ dữ liệu Quảng cáo** Sử dụng ba biến TV, radio, newspaper để dự báo sales, ta thu được các ước lượng hệ số sau (Bảng 3.4): | Biến số | Hệ số | Sai số chuẩn | Thống kê t | p-value | |----------------|-------|--------------|-----------|-----------| | Intercept | 2.939 | 0.3119 | 9.42 | < 0.0001 | | TV | 0.046 | 0.0014 | 32.81 | < 0.0001 | | radio | 0.189 | 0.0086 | 21.89 | < 0.0001 | | newspaper | -0.001| 0.0059 | -0.18 | 0.8599 | 🔍 **Phát hiện then chốt: Nghịch lý của quảng cáo báo chí** Trong hồi quy tuyến tính đơn giản, p-value của newspaper cực nhỏ (có ý nghĩa thống kê), nhưng trong hồi quy đa biến, p = 0.86 (không có ý nghĩa thống kê). **Tại sao?** Quan sát ma trận tương quan (Bảng 3.5): Hệ số tương quan giữa radio và newspaper là 0.35 – ở những thị trường chi tiêu cao cho quảng cáo radio, chi tiêu cho báo chí cũng có xu hướng cao. Vì radio thực sự ảnh hưởng đến doanh số còn newspaper thì không, trong hồi quy đơn giản, newspaper đã "mượn" sức mạnh giải thích của radio, đóng vai trò là **biến thay thế (surrogate)**. | | TV | radio | newspaper | sales | |----------|---------|---------|-----------|---------| | TV | 1.0000 | 0.0548 | 0.0567 | 0.7822 | | radio | | 1.0000 | 0.3541 | 0.5762 | | newspaper| | | 1.0000 | 0.2283 | | sales | | | | 1.0000 |
3.2 多元線性迴歸 📖 ISLP §3.2 📄 pp. 81–90 ★★★☆☆ ⏱️ 約 45 分鐘 多元迴歸 最小平方法 F 檢定 變數選擇 R² 預測區間 Advertising 資料集 ← 3.1 簡單線性迴歸 📑 課程首頁 3.3 迴歸模型的其他考量 → 從簡單迴歸到多元迴歸:為什麼需要多個預測變數? 在 §3.1 中,我們用「電視廣告預算」一個變數來預測銷售額,得到了不錯的結果。但現實世界遠比這複雜——銷售額可能同時受到電視、收音機、報紙等多個廣告管道的影響。如果我們分別對每個預測變數擬合一個簡單線性迴歸,會產生兩個嚴重問題: ⚠️ 分別擬合的陷阱: 1. 無法做單一預測 ——三個模型給出三個不同的預測值,該信哪一個? 2. 忽略變數間的相關性 ——如果各廣告預算之間彼此相關(例如:在收音機廣告花費高的市場,報紙廣告花費也偏高),則簡單迴歸係數將產生嚴重誤導。 解決方案是 多元線性迴歸模型(Multiple Linear Regression) ——將所有預測變數放入同一個模型,每個變數擁有自己的斜率係數。 \[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p + \epsilon \tag{3.19} \] 多元線性迴歸模型(\(p\) 個預測變數) 其中 \(\beta_j\) 代表 在其他預測變數保持不變的情況下 ,\(X_j\) 每增加一單位對 \(Y\) 的平均影響。以廣告資料為例: \[ \text{sales} = \beta_0 + \beta_1 \times \text{TV} + \beta_2 \times \text{radio} + \beta_3 \times \text{newspaper} + \epsilon \tag{3.20} \] James, Witten, Hastie, Tibshirani (2023) An Introduction to Statistical Learning with Python , §3.2, pp. 81–90. 核心概念:多元線性迴歸將簡單線性迴歸推廣到多個預測變數的情境,每個係數 \(\beta_j\) 解釋為「其他變數固定時,\(X_j\) 對 \(Y\) 的平均邊際效果」。 3.2.1 估計迴歸係數:最小平方法的推廣 與簡單線性迴歸類似,我們使用 最小平方法(Least Squares) 來估計 \(\beta_0, \beta_1, \ldots, \beta_p\)——選擇能使殘差平方和(RSS)最小化的參數值: \[ \text{RSS} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_{i1} - \hat{\beta}_2 x_{i2} - \cdots - \hat{\beta}_p x_{ip})^2 \tag{3.22} \] 不同於簡單線性迴歸有封閉解(closed-form),多元迴歸的係數估計需要用 矩陣代數 來表示,形式較為複雜,但任何統計軟體都能輕鬆計算。在幾何上,當 \(p=2\) 時,最小平方解對應到三維空間中的一個 平面 (而非簡單迴歸的直線),該平面最小化了所有觀測點到平面的垂直距離平方和。 廣告資料的實證結果 使用 TV、radio、newspaper 三個變數預測 sales,得到以下係數估計(表 3.4): 變數 係數 標準誤 t 統計量 p 值 Intercept 2.939 0.3119 9.42 < 0.0001 TV 0.046 0.0014 32.81 < 0.0001 radio 0.189 0.0086 21.89 < 0.0001 newspaper −0.001 0.0059 −0.18 0.8599 🔍 關鍵發現:報紙廣告的悖論 在簡單線性迴歸中,newspaper 的 p 值極小(顯著),但在多元迴歸中 p = 0.86(不顯著)。 為什麼? 觀察相關矩陣(表 3.5):radio 和 newspaper 的相關係數為 0.35——在收音機廣告投入高的市場,報紙廣告投入也傾向較高。由於 radio 確實影響銷售而 newspaper 不影響,在簡單迴歸中 newspaper「借用」了 radio 的解釋力,成為 替代變數(surrogate) 。 TV radio newspaper sales TV 1.0000 0.0548 0.0567 0.7822 radio 1.0000 0.3541 0.5762 newspaper 1.00