arXiv:2605.31268 · JetBrains · 2026-06-01 · Phân tích Mô hình Mở
| Chỉ số / 指標 | Mellum2 | So sánh / 對比 |
|---|---|---|
| Tổng tham số / 總參數 | 12B (MoE: 64 chuyên gia, 8 kích hoạt) | Cùng hạng Qwen3.5-9B, Gemma 3 12B |
| Tham số kích hoạt / token / 每 token 激活參數 | 2.5B | ≈ chi phí mô hình dense 2.5B / 等同 2.5B 密集模型成本 |
| Tốc độ suy luận / 推理速度 | >2× nhanh hơn so với mô hình cùng cỡ | Tiết kiệm latency ~50% / 延遲減半 |
| Ngữ cảnh / 上下文 | 128K token (YaRN) | Đủ cho hầu hết tác vụ code |
| Giấy phép / 授權 | Apache 2.0 | Tự do thương mại, fine-tune / 自由商用、微調 |
| Dữ liệu huấn luyện / 訓練資料 | 10.6 nghìn tỷ token (3 giai đoạn) | Web đa dạng → Code + Toán / 多樣網路→代碼+數學 |
| LiveCodeBench v6 (Thinking) | 78.4% | Qwen3.5-9B: 71.8% |
| Hậu huấn luyện / 後訓練 | SFT + RLVR | 2 biến thể: Instruct + Thinking / 兩變體 |
Câu hỏi lớn: Tại sao mọi hãng AI lớn đều đang chạy đua xây mô hình ngày càng to (1T+ tham số), nhưng JetBrains lại chọn đi ngược dòng: xây mô hình 12B «nhỏ» và gọi đó là chiến lược?
Câu trả lời nằm ở ba từ: «hệ thống phối hợp».
Mellum2 được thiết kế từ đầu không phải để thay thế Claude hay GPT, mà để trở thành «bánh răng» quan trọng trong một hệ thống AI lớn hơn. Hãy tưởng tượng một pipeline agent hiện đại:
Trong pipeline này, 80% bước xử lý có thể do Mellum2 đảm nhiệm — với chi phí và độ trễ chỉ bằng một phần nhỏ so với mô hình lớn. Đây không phải suy đoán: JetBrains đã dùng Mellum2 trong chính sản phẩm JetBrains AI Assistant của họ cho các tác vụ routing, tóm tắt và sub-agent trước khi công bố mã nguồn.
大問題:為什麼所有 AI 巨頭都在競賽建造越來越大的模型(1T+ 參數),但 JetBrains 卻反其道而行:建造 12B「小」模型並稱之為策略?
答案在三個字:「協調系統」。
Mellum2 從一開始就不是為了取代 Claude 或 GPT,而是成為更大 AI 系統中的關鍵「齒輪」。想像一個現代 agent 管線:
在此管線中,80% 的處理步驟可由 Mellum2 承擔——以僅為大模型一小部分的成本和延遲。這不是猜測:JetBrains 在開源前已在其自家產品 JetBrains AI Assistant 中使用 Mellum2 處理 routing、摘要和子 agent 任務。
Mellum2 không chỉ là một mô hình MoE thông thường. Ba quyết định kiến trúc khiến nó khác biệt:
Kết quả: một mô hình có thể chạy trên một GPU tiêu dùng (RTX 4090 24GB) với tốc độ đủ dùng cho production — điều mà các mô hình 70B+ không thể làm được.
Mellum2 不僅是普通的 MoE 模型。三個架構決策讓它與眾不同:
結果:一個可以在單張消費級 GPU(RTX 4090 24GB)上以生產級速度運行的模型——這是 70B+ 模型無法做到的。
Tôi cho rằng điểm thú vị nhất về Mellum2 không nằm ở benchmark — mà nằm ở khái niệm «focal model» mà JetBrains đưa ra.
Hãy nhìn vào thực tế: mọi người đang dần nhận ra rằng một mô hình khổng lồ duy nhất không phải là giải pháp tối ưu cho mọi thứ. Claude Code dùng Claude làm «não chính», nhưng cần hàng tá tiểu mô hình cho các bước trung gian. Copilot Workspace dùng GPT-5.2, nhưng routing và code completion lại gọi các mô hình nhỏ hơn. Gemini dùng mô hình chính cho reasoning, nhưng RAG và embedding dùng các model chuyên biệt.
Xu hướng này không mới — nhưng trước Mellum2, chưa ai đặt tên cho nó. JetBrains gọi đây là kiến trúc «focal model»: những mô hình nhỏ, nhanh, chuyên biệt cho các tác vụ tần suất cao trong hệ thống AI.
Tôi thấy ba hệ quả quan trọng:
我認為 Mellum2 最有趣的地方不在於跑分——而在於 JetBrains 提出的「焦點模型」(focal model) 概念。
看看現實:人們逐漸意識到一個超大模型並非萬能解方。Claude Code 用 Claude 作「主腦」,但需要數十個小模型處理中間步驟。Copilot Workspace 用 GPT-5.2,但 routing 和 code completion 呼叫小模型。Gemini 用主模型做推理,但 RAG 和 embedding 用專門模型。
這個趨勢不新鮮——但在 Mellum2 之前,沒有人給它命名。JetBrains 稱之為「焦點模型」架構:在 AI 系統中處理高頻任務的小型、快速、專業化模型。
我看到三個重要效應:
| Mô hình / 模型 | Tham số / 參數 | Kích hoạt / 激活 | Giấy phép / 授權 | Thế mạnh / 優勢 |
|---|---|---|---|---|
| Mellum2 | 12B | 2.5B | Apache 2.0 | Tốc độ ×2, focal model design, training from scratch |
| Qwen3.5-9B | 9B | 9B (dense) | Apache 2.0 | Cân bằng tốt, cộng đồng lớn |
| Gemma 3 12B | 12B | 12B (dense) | Gemma TOU | Đa ngôn ngữ 140+, multimodal |
| Phi-4 14B | 14B | 14B (dense) | MIT | MMLU ~72%, chi phí cực thấp |
| Mistral 7B | 7B | 7B (dense) | Apache 2.0 | Kinh điển, ổn định, nhiều fine-tune |
Nhận xét: Mellum2 là mô hình MoE duy nhất trong phân khúc 7–14B. Các đối thủ đều là dense — điều này có nghĩa Mellum2 có lợi thế cấu trúc về tốc độ suy luận mà các mô hình dense không thể bắt kịp nếu không chuyển sang MoE.
評價:Mellum2 是 7–14B 區間唯一的 MoE 模型。所有競爭對手都是密集模型——這意味著 Mellum2 在推理速度上有結構性優勢,密集模型若不轉向 MoE 則無法追趕。