Sử dụng hệ thống đa tác tử để tăng cường mô hình suy luận yếu

arXiv: 2605.14163 · 2026-05-13 · MIT / Tel Aviv University
Varun Sunkaraneni, Pierfrancesco Beneventano, Riccardo Neumarker, Tomaso Poggio, Tomer Galanti

Câu trả lời đúng của weak model vốn đã nằm trong proposal pool, vấn đề là làm sao chọn ra.
「弱模型的正確答案本來就在 proposal pool 裡,問題是怎麼挑出來。」

Dữ liệu chính

Giải pháp SWE-bench Verified GPT-5.4 nano đơn lẻ đạt 67.0%. Cùng mô hình ×8加上critic-comparator đạt 76.4%. Gemini 3 Pro / Claude Opus 4.5 đơn lẻ ~76%. Giới hạn trên Oracle best-of-8 là 79.0%. Mô hình yếu ×8加上bộ kiểm tra ≈ mô hình mạnh đơn lẻ. Chênh lệch 2.6% đến từ điểm mù coverage——những bài toán mà tất cả mô hình yếu đều không giải được, thì dù có thay selector mạnh hơn cũng vô ích.
方案 SWE-bench Verified GPT-5.4 nano 單獨 67.0% 同模型 ×8 + critic-comparator 76.4% Gemini 3 Pro / Claude Opus 4.5 單獨 ~76% Oracle best-of-8 上限 79.0% 弱模型 ×8 + 驗證器 ≈ 強模型單獨。2.6% 差距來自 coverage 盲區——所有弱模型都不會解的題,換更強的 selector 也沒用。

Cơ chế

Thành phần Vai trò Giới hạn Đề xuất (Tạo) Tạo các proposal lặp lại, phóng đại coverage Không thể tự tạo tín hiệu xác minh từ bên ngoài Critic (Xác minh) Lọc, dựa trên các tín hiệu có thể tự động xác minh như execution/test/proof Cần tín hiệu verification từ bên ngoài So sánh (Comparator) Xếp hạng và chọn proposal tốt nhất Lỗi lựa chọn cục bộ (local selection error) sẽ tích lũy thành lỗi trên quỹ đạo (trajectory) Nút thắt cốt lõi: coverage của proposal (tính đa dạng của proposal), chứ không phải độ chính xác của selector. Tất cả các thất bại còn lại đều là do các điểm mù về coverage.
元件 作用 限制 Proposal(生成) 重複採樣放大 coverage 無法自己產生 critic Critic(驗證) 外部 verification signal 篩選 依賴 execution / test / proof 等可自動化驗證的信號 Comparator(比較) 排名挑選最佳 proposal local selection error 會複合成 trajectory 誤差 核心瓶頸: proposal coverage(提案多樣性) ,而非 selector 精度。殘餘失敗全是 coverage 盲區。

Ứng dụng

① Kiểm tra mã nhiều mô hình (đã triển khai) - Kiểm tra đồng thời 4 mô hình, kiến trúc đánh dấu ≥2 điểm đồng thuận hoàn toàn phù hợp với kết luận nghiên cứu. Bước tiếp theo: Mở rộng đa dạng hóa nhóm mô hình (kiến trúc/dữ liệu huấn luyện khác nhau), thay vì điều chỉnh tham số consensus. ② Chiến lược phân công nhiệm vụ cho Sub-agent - Các nhiệm vụ chính xử lý song song bởi ≥3 mô hình yếu khác nhau, lấy kết quả consensus. Không cần gọi mô hình mạnh nhất mỗi lần, có thể giảm 60-80% chi phí API. ③ Pipeline xác thực nội dung tự động - Nội dung tạo ra → chấm điểm chéo bởi nhiều mô hình → kiểm tra tự động (hiệu quả liên kết, đối chiếu sự kiện với nguồn chính thức) → chỉ nội dung vượt qua mới được đăng. Áp dụng cho cập nhật giá phòng khám, kiểm tra chất lượng nội dung giáo dục sức khỏe. ④ Giám sát tỷ lệ phủ sóng nhóm mô hình yếu - Phân tích định kỳ độ chồng chéo các trường hợp thất bại của từng mô hình. Nếu tỷ lệ thất bại đồng thời của nhiều mô hình > 20%, chứng tỏ vùng phủ sóng còn quá nhiều điểm mù, cần引入引入 các mô hình đa dạng. ⚠️ Hạn chế quan trọng: Tín hiệu xác thực bên ngoài (execution, type check, test) là bắt buộc. Các nhiệm vụ thuần văn bản (viết, dịch) rất khó tự động hóa việc xác thực, hiệu quả cải thiện coverage hạn chế.
① 多模型程式碼審查(已實作) 4 模型同步審查、≥2 共識標記的架構完全對齊論文結論。下一步:擴充模型池多樣性(不同架構/訓練資料),而非調 consensus 參數。 ② 子代理任務分配策略 關鍵任務用 ≥3 個不同弱模型並行處理,取 consensus。不需每次都調用最強模型,可降 60-80% API 成本。 ③ 自動化內容驗證 Pipeline 生成內容 → 多模型交叉評分 → 自動化測試(連結有效性、事實對齊官方來源)→ 僅通過的內容上線。適用於診所價格更新、衛教內容 QA。 ④ 弱模型池覆蓋率監控 定期分析各模型失敗案例重疊度。若多模型同時失敗率 > 20%,代表 coverage 盲區過大,需引入異質模型。 ⚠️ 關鍵限制:外部驗證信號(execution、type check、test)是必須品。純文字任務(寫作、翻譯)難以自動化驗證,coverage 增益有限。

我們的筆記

Bài báo này trực tiếp xác nhận kiến trúc đánh giá đa mô hình của chúng tôi. Kết quả cốt lõi — câu trả lời chính xác đã nằm trong pool các mô hình yếu, nút thắt là selection — cho thấy hướng đầu tư của chúng tôi vào tính đa dạng mô hình và cơ chế đồng thuận là chính xác. Bước tiếp theo: tăng tính dị vực mô hình, thay vì tối ưu selector. ← Quay lại trang ghi chú bài báo · Trung tâm học tập DKY
這篇論文直接驗證我們的多模型審查架構。核心發現——正解已在弱模型 pool 中,瓶頸是 selection——代表我們在模型多樣性和共識機制上的投資方向正確。下一步:增加模型異質性,而非優化 selector。 ← 回論文筆記首頁 · DKY 學習中心