Chương 2: Học thống kê — 2.1 Học thống kê là gì?

Bài giảng từ ISLP (James, Witten, Hastie, Tibshirani, 2023)

Nội dung bài giảng

Chương 2: Học thống kê — 2.1 Học thống kê là gì? ISLP §2.1 tr. 25–37 ★★☆☆☆ Mở đầu Học có giám sát Học không giám sát Dự đoán so suy luận Tham số hóa so phi tham số hóa Giáo trình: James, Witten, Hastie, Tibshirani (2023), An Introduction to Statistical Learning with Applications in Python, Springer. I. Động lực: Tập dữ liệu Advertising Giả sử chúng ta là một công ty tư vấn thống kê được thuê — khách hàng muốn biết mối liên hệ giữa chi phí quảng cáo và doanh số bán sản phẩm. Tập dữ liệu Advertising chứa dữ liệu về ngân sách của ba loại hình truyền thông quảng cáo và doanh số tương ứng từ 200 thị trường. 📚 Nền tảng lý thuyết: Phân tích hồi quy bắt nguồn từ khái niệm "hồi quy về trung bình" của Galton (1886), sau đó được Pearson & Lee (1903) hình thức hóa. Khung hồi quy học thống kê hiện đại được xây dựng dựa trên hai giả định: thiết kế cố định (fixed design) và thiết kế ngẫu nhiên (random design). ISLP sử dụng khung thiết kế ngẫu nhiên: các quan sát (xᵢ, yᵢ) là các mẫu độc lập và phân phối đồng dạng (i.i.d.) lấy từ phân bố hợp P(X,Y). ```python # === Đọc dữ liệu tương thích Google Drive + Colab === import pandas as pd import numpy as np import matplotlib matplotlib.use('Agg') import matplotlib.pyplot as plt # Cách 1: Đường dẫn Google Colab try: from google.colab import drive drive.mount('/content/drive') DATA_PATH = '/content/drive/MyDrive/ISLP_data/' except ImportError: DATA_PATH = '/tmp/' # Fallback cho môi trường cục bộ ad = pd.read_csv(f'{DATA_PATH}Advertising.csv', index_col=0) print(f"Kích thước: {ad.shape}") print(ad.head()) print(ad.describe()) ``` | Biến | Ý nghĩa | Loại | |-----------|---------------------------------|---------------| | TV | Ngân sách quảng cáo truyền hình (nghìn USD) | Biến đầu vào | | radio | Ngân sách quảng cáo phát thanh (nghìn USD) | Biến đầu vào | | newspaper | Ngân sách quảng cáo báo chí (nghìn USD) | Biến đầu vào | | sales | Doanh số (nghìn đơn vị) | Biến phản hồi Y | 🎯 Tình huống áp dụng: Mô hình Marketing Mix Modeling (MMM) Doanh nghiệp đầu tư hàng triệu USD mỗi năm cho quảng cáo nhưng khó quyên đóng góp biên của từng kênh. MMM chính là dựa trên khung Y = f(TV, radio, newspaper) + ε để ước tính tỷ suất lợi nhuận biên (ROI) của mỗi loại hình truyền thông đối với doanh số. Các công cụ mã nguồn mở như Robyn của Meta hay các giải pháp của Nielsen đều dựa trên mô hình này. ```python # Hình 2.1: Ba loại truyền thông so với doanh số from sklearn.linear_model import LinearRegression fig, axes = plt.subplots(1, 3, figsize=(15, 5)) for ax, var in zip(axes, ['TV', 'radio', 'newspaper']): ax.scatter(ad[var], ad['sales'], alpha=0.5, edgecolor='k', facecolor='red') X = ad[[var]].values y = ad['sales'].values model = LinearRegression().fit(X, y) x_line = np.linspace(X.min(), X.max(), 100).reshape(-1, 1) ax.plot(x_line, model.predict(x_line), 'b-', linewidth=2) ax.set_xlabel(var) ax.set_ylabel('Sales') print(f"Doanh số ~ {var}:截距={model.intercept_:.2f}, hệ số={model.coef_[0]:.4f}") fig.suptitle('Hình 2.1: Tập dữ liệu Advertising', fontsize=14) plt.tight_layout() plt.show() ``` Quan sát: TV và radio có tương quan dương rõ rệt với doanh số, newspaper có tương quan yếu hơn. II. Khung lý thuyết của học thống kê: Y = f(X) + ε 📚 Nguồn lý thuyết: Phát biểu toán học chặt chẽ của khung này có thể truy nguyên từ Stone (1977)...
第 2 章:統計學習 — 2.1 什麼是統計學習? ISLP §2.1 pp. 25–37 ★★☆☆☆ 入門 監督學習 非監督學習 預測 vs 推論 參數化 vs 非參數化 課本:James, Witten, Hastie, Tibshirani (2023), An Introduction to Statistical Learning with Applications in Python , Springer. 一、動機:Advertising 資料集 想像我們是一間被聘請的統計顧問公司——客戶想知道廣告支出與產品銷售量之間的關聯。 Advertising 資料集包含 200 個市場中,三種廣告媒體的預算及對應銷售量。 📚 理論基礎 :迴歸分析起源於 Galton (1886) 的「回歸均值」概念,後由 Pearson & Lee (1903) 形式化。現代統計學習迴歸框架建立在 固定設計 (fixed design) 與 隨機設計 (random design) 兩種假設下。ISLP 採用隨機設計框架:觀測值 (xᵢ, yᵢ) 來自聯合分布 P(X,Y) 的 i.i.d. 樣本。 # === Google Drive + Colab 相容資料讀取 === import pandas as pd import numpy as np import matplotlib matplotlib.use('Agg') import matplotlib.pyplot as plt # 方式 1:Google Colab 路徑 try: from google.colab import drive drive.mount('/content/drive') DATA_PATH = '/content/drive/MyDrive/ISLP_data/' except ImportError: DATA_PATH = '/tmp/' # 本機 fallback ad = pd.read_csv(f'{DATA_PATH}Advertising.csv', index_col=0) print(f"維度: {ad.shape}") print(ad.head()) print(ad.describe()) 變數 意義 型別 TV 電視廣告預算(千美元) 預測子 radio 廣播廣告預算(千美元) 預測子 newspaper 報紙廣告預算(千美元) 預測子 sales 銷售量(千單位) 反應變數 Y 🎯 應用場景:行銷組合模型 (Marketing Mix Modeling, MMM) 企業每年投入數百萬廣告預算,但難以歸因各渠道的邊際貢獻。MMM 正是基於 Y = f(TV, radio, newspaper) + ε 框架,估計各媒體對銷售的邊際回報率 (ROI)。Nielsen、Meta 的 Robyn 開源工具皆基於此模型。 # Figure 2.1:三種媒體 vs 銷售量 from sklearn.linear_model import LinearRegression fig, axes = plt.subplots(1, 3, figsize=(15, 5)) for ax, var in zip(axes, ['TV', 'radio', 'newspaper']): ax.scatter(ad[var], ad['sales'], alpha=0.5, edgecolor='k', facecolor='red') X = ad[[var]].values; y = ad['sales'].values model = LinearRegression().fit(X, y) x_line = np.linspace(X.min(), X.max(), 100).reshape(-1, 1) ax.plot(x_line, model.predict(x_line), 'b-', linewidth=2) ax.set_xlabel(var); ax.set_ylabel('Sales') print(f"Sales ~ {var}: 截距={model.intercept_:.2f}, 斜率={model.coef_[0]:.4f}") fig.suptitle('Figure 2.1: Advertising Data', fontsize=14) plt.tight_layout(); plt.show() 觀察:TV 和 radio 與 sales 有明顯正相關,newspaper 相關性較弱。 二、統計學習的理論框架:Y = f(X) + ε 📚 理論來源 :此框架的嚴格數學表述可追溯至 Stone (19