3.4 Kế hoạch Tiếp thị 📖 ISLP §3.4 📄 pp. 109–111 ⭐⭐ Ứng dụng Cơ bản ⏱️ Khoảng 15 phút Hồi quy tuyến性 Phân tích Tiếp thị Chẩn đoán Mô hình Kiểm định Giả thuyết Khoảng Dự đoán Tương tác ← 3.3 Các Cân nhắc Khác 👕 Trang chủ Khóa học 3.5 Hồi quy Tuyến tính so với KNN → 📚 Nền tảng Lý thuyết James, G., Witten, D., Hastie, T., & Tibshirani, R. (2023). An Introduction to Statistical Learning with Applications in Python. Springer. §3.4, pp. 109–111.
Ở đầu chương này (§3.0), chúng tôi đã đưa ra bảy câu hỏi chính về bảng dữ liệu Advertising. Sau khi học qua §3.1 (hồi quy tuyến tính đơn giản), §3.2 (hồi quy tuyến tính đa biến) và §3.3 (các cân nhắc khác của mô hình hồi quy), giờ đây chúng ta có thể trả lời đầy đủ bảy câu hỏi đó. Phần này là một nghiên cứu điển hình tích hợp, minh họa cách áp dụng các công cụ học thống kê vào các quyết định kinh doanh thực tế.
🎯 Cốt lõi của phần này: Lấy ví dụ về bảng dữ liệu Advertising, minh họa cách sử dụng hồi quy tuyến tính đa biến để trả lời câu hỏi phân tích kinh doanh đầy đủ "Mối quan hệ giữa doanh số bán hàng và ngân sách quảng cáo". Đây là cầu nối từ lý thuyết thống kê đến quyết định thực tế.
Giải đáp đầy đủ Bảy câu hỏi Tiếp thị
Câu hỏi 1: Liệu có tồn tại mối quan hệ giữa doanh số bán hàng và ngân sách quảng cáo không?
Để trả lời câu hỏi này, chúng ta cần xây dựng một mô hình hồi quy đa biến, hồi quy doanh số bán hàng (sales) trên ba ngân sách phương tiện quảng cáo (TV, radio, newspaper):
\[ \text{sales} = \beta_0 + \beta_1 \times \text{TV} + \beta_2 \times \text{radio} + \beta_3 \times \text{newspaper} + \epsilon \]
Công thức 3.20 — Mô hình Hồi quy Đa biến Advertising
Chúng ta sử dụng F-statistic để kiểm định giả thuyết không \(H_0: \beta_{\text{TV}} = \beta_{\text{radio}} = \beta_{\text{newspaper}} = 0\). Trong §3.2.2, chúng ta biết F-statistic có thể xác định liệu có nên bác bỏ giả thuyết không này hay không. F-statistic từ dữ liệu Advertising có p-value rất nhỏ, cung cấp bằng chứng rõ ràng về sự tồn tại của mối quan hệ giữa doanh số bán hàng và ngân sách quảng cáo.
📊 Bảng 3.6 Dữ liệu quan trọng: p-value của F-statistic cực kỳ thấp (< 0.0001), bác bỏ mạnh mẽ giả thuyết không "tất cả các hệ số góc bằng 0". Điều này có nghĩa là ít nhất một phương tiện quảng cáo có mối quan hệ đáng kể với doanh số bán hàng.
Câu hỏi 2: Mối quan hệ mạnh đến mức nào?
Chúng ta sử dụng hai chỉ số để đo lường độ chính xác của mô hình:
Sai số chuẩn phần dư (RSE): ước tính độ chuẩn deviation của đường hồi quy tổng thể. Đối với dữ liệu Advertising, RSE = 1.69 đơn vị, trong khi giá trị trung bình của doanh số bán hàng là 14.022, phần trăm lỗi khoảng 12%.
\[ \text{Phần trăm Lỗi} = \frac{\text{RSE}}{\bar{y}} = \frac{1.69}{14.022} \approx 12\% \]
Hệ số xác định \(R^2\): ghi nhận lượng biến thiên của biến phản hồi được giải thích bởi các biến dự báo. Các biến dự báo giải thích gần 90% biến thiên của doanh số bán hàng.
\[ R^2 \approx 0.897 \quad \Rightarrow \quad \text{Advertising giải thích khoảng 90\% biến thiên của doanh số bán hàng} \]
Câu hỏi 3: Phương tiện nào liên quan đến doanh số bán hàng?
Kiểm tra p-value tương ứng với t-statistic của từng biến dự báo (§3.1.2). Dựa trên kết quả hồi quy đa biến từ Bảng 3.4:
Biến dự báo p-value Ý nghĩa thống kê TV < 0.0001 ✅ Rất đáng kể radio < 0.0001 ✅ Rất đáng kể newspaper 0.860 ❌ Không đáng kể
Chỉ có TV và radio liên quan đến doanh số bán hàng. p-value của newspaper không đáng kể, cho thấy khi kiểm soát TV và radio, newspaper không có sức mạnh giải thích thêm cho doanh số bán hàng.
Câu hỏi 4: Mối liên hệ của từng phương tiện với doanh số bán hàng lớn đến mức nào?
Sử dụng sai số chuẩn của \(\hat{\beta}_j\) trong §3.1.2, chúng ta có thể xây dựng khoảng tin cậy 95% cho \(\beta_j\). Dựa trên kết quả từ Bảng 3.4:
Biến dự báo Khoảng tin cậy 95% Giải thích TV (0.043, 0.049) Nhỏ và cách xa 0 → Tác động dương đáng kể radio (0.172, 0.206) Nhỏ và cách xa 0 → Tác động dương đáng kể newspaper (−0.013, 0.011) Chứa 0 → Không đáng kể về mặt thống kê
Khoảng tin cậy của TV và radio nhỏ và cách xa 0, cung cấp bằng chứng mạnh mẽ về mối liên hệ giữa các phương tiện này và doanh số bán hàng. Khoảng tin cậy của newspaper chứa 0, cho thấy trong sự hiện diện của TV và radio, newspaper không...
3.4 The Marketing Plan 📖 ISLP §3.4 📄 pp. 109–111 ⭐⭐ 基礎應用 ⏱️ 約 15 分鐘 線性迴歸 行銷分析 模型診斷 假設檢定 預測區間 交互作用 ← 3.3 Other Considerations 📑 課程首頁 3.5 Linear Regression vs KNN → 📚 理論基礎 James, G., Witten, D., Hastie, T., & Tibshirani, R. (2023). An Introduction to Statistical Learning with Applications in Python . Springer. §3.4, pp. 109–111. 在本章開頭(§3.0),我們提出了關於 Advertising 資料集 的七個關鍵問題。經過 §3.1(簡單線性迴歸)、§3.2(多元線性迴歸)和 §3.3(回歸模型的其他考量)的學習後,我們現在可以完整回答這七個問題。本節是一個 整合性的案例研究 ,展示如何將統計學習工具應用於真實的商業決策。 🎯 本節核心: 以 Advertising 資料集為例,示範如何用多元線性迴歸回答「銷售額與廣告預算之間的關係」這一完整的商業分析問題。這是從統計理論到實際決策的橋樑。 七個行銷問題的完整解答 問題 1:銷售額與廣告預算之間是否存在關係? 要回答這個問題,我們需要建立一個多元迴歸模型,將銷售額(sales)對三個廣告媒介預算(TV、radio、newspaper)進行回歸: \[ \text{sales} = \beta_0 + \beta_1 \times \text{TV} + \beta_2 \times \text{radio} + \beta_3 \times \text{newspaper} + \epsilon \] 公式 3.20 — Advertising 多元迴歸模型 我們使用 F 統計量 來檢定虛無假設 \(H_0: \beta_{\text{TV}} = \beta_{\text{radio}} = \beta_{\text{newspaper}} = 0\)。在 §3.2.2 中,我們知道 F 統計量可以判斷是否應拒絕此虛無假設。Advertising 資料的 F 統計量對應的 p 值非常小 ,提供了銷售額與廣告預算之間存在關係的明確證據。 📊 表 3.6 關鍵數據: F 統計量的 p 值極低(< 0.0001),強烈拒絕「所有斜率為零」的虛無假設。這意味著至少有一個廣告媒介與銷售額之間存在顯著關係。 問題 2:關係有多強? 我們使用兩個指標來衡量模型的準確度: 殘差標準誤(RSE): 估計總體迴歸線的標準差。對 Advertising 資料而言,RSE = 1.69 單位,而銷售額的平均值為 14.022,百分比誤差約為 12% 。 \[ \text{Percentage Error} = \frac{\text{RSE}}{\bar{y}} = \frac{1.69}{14.022} \approx 12\% \] 決定係數 \(R^2\): 記錄預測變數解釋了多少反應變數的變異性。預測變數解釋了銷售額近 90% 的變異。 \[ R^2 \approx 0.897 \quad \Rightarrow \quad \text{廣告預解釋了約 90\% 的銷售額變異} \] 問題 3:哪些媒介與銷售額有關? 檢查每個預測變數的 t 統計量對應的 p 值 (§3.1.2)。根據 Table 3.4 的多元迴歸結果: 預測變數 p 值 顯著性 TV < 0.0001 ✅ 高度顯著 radio < 0.0001 ✅ 高度顯著 newspaper 0.860 ❌ 不顯著 只有 TV 和 radio 與銷售額相關。newspaper 的 p 值不顯著,表示在控制 TV 和 radio 後,newspaper 對銷售額沒有額外的解釋力。 問題 4:每個媒介與銷售額的關聯有多大? 利用 §3.1.2 中 \(\hat{\beta}_j\) 的標準誤,我們可以構建 \(\beta_j\) 的 95% 信賴區間 。根據 Table 3.4 的結果: 預測變數 95% 信賴區間 解讀 TV (0.043, 0.049) 窄且遠離零 → 顯著正向影響 radio (0.172, 0.206) 窄且遠離零 → 顯著正向影響 newspaper (−0.013, 0.011) 包含零 → 統計上不顯著 TV 和 radio 的信賴區間窄且遠離零,提供了這些媒介與銷售額相關的強力證據。newspaper 的信賴區間包含零,表示在 TV 和 radio 存在的情況下,news