Mô hình ngôn ngữ có cần ngủ không? Vòng lặp ngoại tuyến tăng cường suy luận trực tuyến

arXiv: 2605.26099 · 2026-05-25 · CMU / University of Maryland
Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti

Bộ nhớ không phải vấn đề, sức mạnh tính toán mới là. Hãy để mô hình chạy thêm vài vòng trước khi xóa bộ nhớ đệm KV, để bối cảnh thực sự được "tiêu hóa" thành các biểu diễn nội bộ hữu ích.

「記憶不是問題，算力才是。讓模型在清空 KV cache 前多跑幾圈，把上下文真正『消化』成有用的內部表徵。」

Dữ liệu chính

Thử nghiệm Kiến trúc N=1 (Không ngủ) N=4~8 (Có ngủ) Cải thiện Cellular Automaton (t=32) Hybrid 4L GDN-Attention Gần ngẫu nhiên Tăng đáng kể N càng lớn càng tốt Depo tìm kiếm đồ thị đa nhánh Hybrid 4L GDN-Attention Dòng cơ sở Tăng tốc hội tụ Khó khăn hơn thì cải thiện càng lớn GSM-Infinite suy luận toán học Jet-Nemotron 2B / Ouro 1.4B Dòng cơ sở Tăng đáng kể trên các bài toán độ khó cao Số bước tính toán越多，hiệu quả N越大 N = số chu kỳ ngoại tuyến trong thời gian ngủ. Tất cả so sánh được thực hiện với cùng ngân sách token.

實驗架構 N=1 (無睡眠) N=4~8 (有睡眠) 改善 Cellular Automaton (t=32) 4L GDN-Attention hybrid 接近隨機顯著提升 N 越大越好 Depo 多跳圖檢索 4L GDN-Attention hybrid 基準線加速收斂更難查詢改善更大 GSM-Infinite 數學推理 Jet-Nemotron 2B / Ouro 1.4B 基準線高難度題目顯著提升算術步驟越多，N 效益越大 N = 睡眠期間的離線循環次數。所有比較在相同 token 預算下進行。

Cơ chế

1. Vấn đề cốt lõi: Nút thắt của các mô hình lai SSM-Attention (như MambaFormer, Jet) không phải là dung lượng bộ nhớ, mà là sự thiếu hụt sức mạnh tính toán khi nén ngữ cảnh. Khi bộ nhớ đệm KV bị xóa, mô hình không thể thực hiện suy luận sâu trên nội dung đã rời khỏi cửa sổ attention. 2. Cơ chế ngủ (đổi mới cốt lõi): Khi cửa sổ ngữ cảnh đầy, mô hình进入「ngủ」: ① Thực hiện N lần truyền xuôi ngoại tuyến trên ngữ cảnh tích lũy. ② Mỗi vòng lặp cập nhật fast weights trong khối SSM thông qua các quy tắc cục bộ được học. ③ Sau khi kết thúc giấc ngủ, xóa bộ nhớ đệm KV và tiếp tục suy luận đơn lần với fast weights đã cập nhật. ④ During training, gradient lan tỏa qua toàn bộ quá trình ngủ thông qua backpropagation đầu cuối. 3. Tương đồng với giấc ngủ sinh học: Giống như hồi hải mã kích hoạt lại ký ức ngắn hạn và củng cố vào trọng số synapse vỏ não during sleep ở động vật,「giấc ngủ」của mô hình chuyển đổi ngữ cảnh ngắn hạn trong bộ nhớ đệm attention thành fast weights bền vững. 4. Khác biệt với mạng recurrent: Mô hình truyền thống (như Universal Transformer) lặp lại khi dự đoán. Phương pháp này chuyển lặp sang giai đoạn củng cố bộ nhớ, dự đoán vẫn là truyền xuôi đơn lần—không tăng độ trễ suy luận. 5. Chi phí huấn luyện: Lặp qua cửa sổ ngữ cảnh hầu như không tăng chi phí huấn luyện; độ sâu lặp N có quan hệ tuyến tính với chi phí. Trên 1×H200 GPU, thông lượng với N=8 chỉ thấp hơn khoảng 30% so với N=1.

1. 問題本質 SSM-Attention 混合模型（如 MambaFormer、Jet）的瓶頸不是記憶容量，而是壓縮上下文時的算力不足。當 KV cache 被清空後，模型無法對已移出注意力視窗的內容進行深度推理。 2. 睡眠機制（核心創新）在上下文視窗滿時，模型進入「睡眠」： ① 對累積的上下文執行 N 次離線循環前向傳播 ② 每次循環透過學習到的局部規則更新 SSM 區塊中的 fast weights ③ 睡眠結束後清空 KV cache ，用更新後的 fast weights 繼續單次推理 ④ 訓練時端到端反向傳播，梯度穿過整個睡眠過程 3. 與生物睡眠的類比動物睡眠期間，海馬迴短期記憶被重新激活並鞏固至皮層突觸權重。同樣地，模型的「睡眠」將注意力緩存中的短期上下文轉化為持久的 fast weights。 4. 與循環網路的差異傳統循環模型（如 Universal Transformer）在預測時循環。本方法將循環移到記憶鞏固階段，預測時仍是單次前向傳播——不增加推論延遲。 5. 訓練成本跨上下文視窗的循環幾乎不增加訓練開銷；循環深度 N 與成本呈線性關係。在 1×H200 GPU 上，N=8 的吞吐量僅比 N=1 低約 30%。

Ứng dụng

Hermes Agent Sleep Consolidation: Hiện tại, kỹ năng tự cải thiện hàng tuần của Hermes (hermes-self-improvement skill) có thể tham khảo cơ chế này — "nén" ngữ cảnh đa vòng hội thoại vào bộ nhớ có cấu trúc, thay vì chỉ tóm tắt bề mặt. Sự khác biệt chính: Hermes hiện thực hiện tóm tắt sau sự kiện, trong khi đề xuất là củng cố vòng lặp trong giai đoạn huấn luyện. Thiết kế Agent với Ngữ cảnh Dài: Đối với các agent chạy tự động trong thời gian dài, có thể kích hoạt "ngủ ngắn" khi ngữ cảnh đầy — sử dụng các vòng phản hồi đa bước để nén thông tin quan trọng vào bộ nhớ lâu dài, làm trống bộ nhớ làm việc rồi tiếp tục thực thi. Phương pháp này hiệu quả hơn so với cửa sổ trượt hoặc tóm tắt đơn giản. Cải thiện Hệ thống RAG: RAG truyền thống chỉ thực hiện embedding một lần rồi loại bỏ văn bản gốc. Nếu thêm xử lý đa vòng lặp trong giai đoạn lập chỉ 类似 giấc ngủ), có thể tạo ra biểu diễn nén chất lượng cao hơn, nâng cao độ chính xác truy xuất sau này. Tham khảo Chiến lược Tinh chỉnh: Bài sử dụng Jet-Nemotron 2B và Ouro 1.4B để thực hiện thử nghiệm tinh chỉnh, chứng minh cơ chế giấc ngủ có thể áp dụng cho giai đoạn huấn luyện sau của mô hình预训练. Đây là con đường nâng cấp khả thi cho các kịch bản cần triển khai mô hình nhỏ nhưng đòi hỏi suy luận ngữ cảnh dài (thiết bị biên).

Hermes Agent 睡眠固化：現有的每週自我優化（hermes-self-improvement skill）可借鑑此機制——將多輪對話的上下文「壓縮」進結構化記憶，而非僅做表面摘要。關鍵差異：Hermes 目前是事後摘要，論文建議的是訓練階段的循環鞏固。長上下文 Agent 設計：對於需要長時間運行的自主 agent，可在 context 滿時觸發「微型睡眠」——用多輪反思循環將關鍵資訊壓縮進持久記憶，清空工作記憶後繼續執行。這比簡單的滑動視窗或摘要更有效。 RAG 系統改進：傳統 RAG 只做一次 embedding 就丟棄原文。若在索引階段加入多次循環處理（類似睡眠），可產出更高品質的壓縮表徵，提升後續檢索精度。微調策略參考：論文使用 Jet-Nemotron 2B 和 Ouro 1.4B 進行微調實驗，證明睡眠機制可應用於預訓練模型的後訓練階段。對於需要部署小型模型但要求長上下文推理的場景（如邊緣裝置），這是可行的增強路徑。

🤖 AI Thức

Mô hình ngôn ngữ có cần ngủ không? Vòng lặp ngoại tuyến tăng cường suy luận trực tuyến

Dữ liệu chính

Cơ chế

Ứng dụng