1. Vấn đề cốt lõi: Nút thắt của các mô hình lai SSM-Attention (như MambaFormer, Jet) không phải là dung lượng bộ nhớ, mà là sự thiếu hụt sức mạnh tính toán khi nén ngữ cảnh. Khi bộ nhớ đệm KV bị xóa, mô hình không thể thực hiện suy luận sâu trên nội dung đã rời khỏi cửa sổ attention.
2. Cơ chế ngủ (đổi mới cốt lõi): Khi cửa sổ ngữ cảnh đầy, mô hình进入「ngủ」:
① Thực hiện N lần truyền xuôi ngoại tuyến trên ngữ cảnh tích lũy.
② Mỗi vòng lặp cập nhật fast weights trong khối SSM thông qua các quy tắc cục bộ được học.
③ Sau khi kết thúc giấc ngủ, xóa bộ nhớ đệm KV và tiếp tục suy luận đơn lần với fast weights đã cập nhật.
④ During training, gradient lan tỏa qua toàn bộ quá trình ngủ thông qua backpropagation đầu cuối.
3. Tương đồng với giấc ngủ sinh học: Giống như hồi hải mã kích hoạt lại ký ức ngắn hạn và củng cố vào trọng số synapse vỏ não during sleep ở động vật,「giấc ngủ」của mô hình chuyển đổi ngữ cảnh ngắn hạn trong bộ nhớ đệm attention thành fast weights bền vững.
4. Khác biệt với mạng recurrent: Mô hình truyền thống (như Universal Transformer) lặp lại khi dự đoán. Phương pháp này chuyển lặp sang giai đoạn củng cố bộ nhớ, dự đoán vẫn là truyền xuôi đơn lần—không tăng độ trễ suy luận.
5. Chi phí huấn luyện: Lặp qua cửa sổ ngữ cảnh hầu như không tăng chi phí huấn luyện; độ sâu lặp N có quan hệ tuyến tính với chi phí. Trên 1×H200 GPU, thông lượng với N=8 chỉ thấp hơn khoảng 30% so với N=1.
1. 問題本質 SSM-Attention 混合模型(如 MambaFormer、Jet)的瓶頸 不是記憶容量 ,而是 壓縮上下文時的算力不足 。當 KV cache 被清空後,模型無法對已移出注意力視窗的內容進行深度推理。 2. 睡眠機制(核心創新) 在上下文視窗滿時,模型進入「睡眠」: ① 對累積的上下文執行 N 次離線循環前向傳播 ② 每次循環透過 學習到的局部規則 更新 SSM 區塊中的 fast weights ③ 睡眠結束後 清空 KV cache ,用更新後的 fast weights 繼續單次推理 ④ 訓練時 端到端反向傳播 ,梯度穿過整個睡眠過程 3. 與生物睡眠的類比 動物睡眠期間,海馬迴短期記憶被重新激活並 鞏固至皮層突觸權重 。同樣地,模型的「睡眠」將注意力緩存中的短期上下文轉化為持久的 fast weights。 4. 與循環網路的差異 傳統循環模型(如 Universal Transformer)在 預測時 循環。本方法將循環移到 記憶鞏固階段 ,預測時仍是單次前向傳播——不增加推論延遲。 5. 訓練成本 跨上下文視窗的循環幾乎不增加訓練開銷;循環深度 N 與成本呈 線性關係 。在 1×H200 GPU 上,N=8 的吞吐量僅比 N=1 低約 30%。