Harness Engineering 2026: Ngành Kỹ thuật Quan trọng Nhất cho AI Agent

Mở đầu: Tháng 2/2026, một nhóm nhỏ tại OpenAI đã tạo ra 1 triệu dòng code production, 0 dòng viết tay — tất cả do AI agent tạo ra. Con người chỉ thiết kế "hệ thống khiến agent trở nên đáng tin cậy". Hệ thống đó giờ được gọi là Harness Engineering. Hugging Face gọi đây là "ngành học quan trọng nhất năm 2026".

開場：2026 年 2 月，OpenAI 一個小團隊產出 100 萬行生產級程式碼，零行手寫——全部由 AI agent 生成。人類只設計「讓 agent 可靠的那套系統」。這套系統現在被稱為 Harness Engineering（駕馭工程）。Hugging Face 稱之為「2026 年最重要的學科」。

Agent = Model + Harness

Định nghĩa: Harness là tất cả những thứ bên ngoài mô hình: ràng buộc, vòng phản hồi, tài liệu, quyền hạn, công cụ. Mô hình là CPU, Context Window là RAM, Harness là Hệ điều hành — quản lý những gì CPU thấy và khi nào nó thấy. LangChain thử nghiệm: cùng một mô hình, harness cũ đạt 52.8%, harness mới đạt 66.5% (+13.7%). Vercel cắt bỏ 80% công cụ của agent và hiệu suất tăng lên.

定義：Harness 是模型以外的所有東西：約束、回饋迴路、文件、權限、工具。模型是 CPU、Context Window 是 RAM、Harness 是作業系統——管理著 CPU 看到什麼、何時看到。LangChain 實測：同一模型，舊 harness 52.8%，新 harness 66.5%（+13.7%）。Vercel 砍掉 agent 80% 的工具後表現反而更好。

5 Sản phẩm Cốt lõi / 五大核心產物

1. AGENT.md / CLAUDE.md: File markdown rải trong codebase, agent đọc vào đầu mỗi session. Chứa context dự án, quy ước code, kiến trúc, tiến độ hiện tại. Không có nó, agent mỗi lần bắt đầu đều mù tịt.

1. AGENT.md / CLAUDE.md：散落在 codebase 的 markdown 檔，agent 每次 session 一開始就讀取。內容含專案 context、程式碼慣例、架構決策、進行事項。沒有它，agent 每次都是盲開機。

2. JSON Feature List: Dùng JSON ghi lại mỗi feature, cách xác minh, trạng thái Pass/Fail. Anthropic phát hiện agent ít vô tình ghi đè JSON hơn Markdown. Agent đọc → chọn feature fail ưu tiên cao nhất → implement → đánh dấu pass.

2. JSON Feature List：用 JSON 格式記錄每項 feature、驗證方式、Pass/Fail 狀態。Anthropic 發現 agent 不小心覆寫 JSON 的機率比 Markdown 低。Agent 讀取→挑最高優先級失敗項→實作→標記通過。

3. Session Khởi tạo Định kỳ: Anthropic dùng quy trình 7 bước giống hệt nhau mỗi lần: xác nhận thư mục → đọc git log → lấy feature ưu tiên cao nhất → khởi động dev server → chạy E2E cơ bản → implement 1 feature → commit. Agent không mất 20 phút đầu để hiểu tình trạng.

3. Session 初始化常規：Anthropic 的 7 步開機程序每次都一樣：確認目錄→讀取 git log→抓最高優先級 feature→啟動 dev server→跑基本 E2E→實作一個 feature→commit。Agent 不浪費前 20 分鐘搞清狀態。

4. Sprint Contracts（Hợp đồng Sprint）: Trước khi viết code, 2 agent đàm phán: Generator đề xuất, Evaluator phê duyệt. Cả hai đồng ý mới bắt đầu. Bản chất là design review nhưng cả hai bên đều là AI.

4. Sprint Contracts（衝刺契約）：寫碼前，兩個 agent 先談判：Generator 提案、Evaluator 審查。雙方同意才開始實作。本質是設計審查，但兩造都是 AI。

5. Structured Task Templates: Trước khi viết code, harness phân tích codebase thực tế, tạo "bản đồ tác động" với đường dẫn file thật, symbol có thật, pattern đang dùng. Có context thực tế trước khi thực thi → chất lượng đầu ra tăng đáng kể.

5. 結構化任務樣板：寫碼前，harness 先分析真實 codebase，產出「接地衝擊地圖」：真實檔案路徑、真實 symbol 名稱、既有 pattern。先有接地 context 再執行→輸出品質顯著提升。

3 Trường phái / 三大學派

5 Nguyên tắc Phổ quát / 五條普世原則

Trường phái / 學派	Triết lý / 哲學	Bằng chứng / 證據
OpenAI — Môi trường là trên hết	Thiết kế môi trường để agent tạo ra "đầu ra có thể kiểm tra". Phụ thuộc chặt chẽ (Types→Config→Repo→Service→Runtime→UI).	Sora Android: 4 kỹ sư, 28 ngày, Play Store #1, 99.9% crash-free.
Anthropic — Tách "làm" và "xét duyệt"	3 agent chuyên trách: Planner → Generator → Evaluator. Agent tự đánh giá sẽ tự khen tác phẩm của mình.	A/B test: agent đơn $9→app hỏng; harness $200→phần mềm hoạt động + UI đẹp.
ThoughtWorks — Khung 2×2	Phân loại mọi điều khiển harness theo 2 trục: Feedforward/Feedback × Computational/Inferential.	Rút ra từ 50+ đội thất bại. Cả Feedforward và Feedback đều cần thiết.

1. Context thắng Instruction: Đưa agent vào trạng thái codebase thực tế luôn thắng chỉ dẫn trừu tượng. File path thật → code phù hợp. Mô tả mơ hồ → ảo giác.

1. Context 勝過 Instruction：把 agent 接地在真實 codebase 狀態，永遠勝過抽象指令。真實路徑→適配程式碼，含糊描述→幻覺。

2. Lập kế hoạch và Thực thi phải tách biệt: Mọi trường phái đều phát hiện: để agent lập kế hoạch và thực thi trong cùng một lượt → đầu ra không đáng tin cậy.

2. 規劃與執行必須分離：每個陣營都獨立發現：讓 agent 在同一輪中規劃和執行，輸出不可靠。

3. Vòng phản hồi không thể thương lượng: OpenAI dùng test tự động + CI; Anthropic dùng LLM khác; ThoughtWorks dùng cả hai. Không có feedback, harness chỉ là prompt thêm vài bước.

3. Feedback 迴路不可妥協：OpenAI 用自動化測試+CI；Anthropic 用另一個 LLM；ThoughtWorks 兩者疊用。沒有 feedback 的 harness 只是 prompt 加一些步驟。

4. Mỗi lần chỉ làm MỘT việc: Đọc tiến độ → chọn MỘT feature → implement → commit → lặp lại. Làm nhiều việc cùng lúc → hết context → mất mạch lạc → âm thầm bỏ yêu cầu.

4. 一次只做一件事：讀進度→挑一件→實作→commit→重複。一次做太多→context 用完→失去連貫性→安靜丟掉需求。

5. Codebase chính là tài liệu: Không ai duy trì kho kiến thức riêng cho agent. Repo là nguồn sự thật duy nhất. Codebase sạch → agent tốt hơn miễn phí; repo bẩn + AI agent = hỗn loạn quy mô lớn.

5. Codebase 本身就是文件：沒人另外維護知識庫。Repo 是唯一真相。乾淨 codebase → 免費得到更好的 agent 表現；髒 repo + AI agent = 規模化混亂。

Động lực Mới: Harness Decay / Harness 衰退

Phát hiện quan trọng: Mỗi thành phần harness ngầm chứa giả định "mô hình không làm được gì". Mô hình tiến bộ → giả định hết hạn → thành phần trở thành gánh nặng. Anthropic thực tế: Opus 4.5 cần sprint decomposition, 4.6 không cần nữa (tiết kiệm 38% chi phí), 4.7 Evaluator agent thu hẹp vai trò thêm. Nguyên tắc "Xây để Xóa": thiết kế mỗi thành phần harness để có thể bị loại bỏ. Định kỳ tắt từng thành phần, đo lường — không khác biệt thì xóa.

關鍵發現：Harness 的每個組件都隱含「模型做不到什麼」的假設。模型進步→假設過期→組件變死重。Anthropic 實證：Opus 4.5 需 sprint 拆解，4.6 不需要（省 38% 成本），4.7 Evaluator 角色再縮。「為刪除而建」原則：設計每個 harness 組件時就設計成可被移除。定期關掉組件、量測——沒差就刪。

Phân tích của DKY / DKY 觀點

Quan điểm của chúng tôi: Harness Engineering không phải là một "công cụ mới" — nó là sự thừa nhận rằng chúng ta đã đi sai hướng trong 18 tháng qua. Cả ngành công nghiệp đã mải mê chạy đua mô hình (Claude này, GPT kia, Grok nọ) trong khi quên mất rằng sự khác biệt thực sự nằm ở cách chúng ta sử dụng mô hình, không phải mô hình nào. LangChain +13.7% với cùng một mô hình là bằng chứng không thể chối cãi. Đối với Hermes, điều này có nghĩa là: việc cải thiện AGENT.md, session initialization, và sub-agent delegation contracts có thể mang lại lợi ích lớn hơn việc đổi sang mô hình mới nhất. Harness Decay cũng là một bài học sâu sắc: các quy tắc chúng ta viết hôm nay sẽ trở thành rào cản ngày mai. Phải xây dựng văn hóa "thường xuyên xóa bỏ quy tắc cũ".

我們的觀點：Harness Engineering 不是一個「新工具」——它是對過去 18 個月整個產業走錯方向的承認。所有人忙著追逐模型（這個 Claude、那個 GPT、Grok 什麼的），卻忘了真正的差異在於怎麼用模型，而非用哪個模型。LangChain 同一模型 +13.7% 就是鐵證。對 Hermes 而言，這意味著：改進 AGENT.md、session 初始化、子 agent 委派契約，可能比換最新模型帶來更大的效益。Harness Decay 也是深刻的教訓：今天寫的規則明天就變成障礙。必須建立「定期刪除舊規則」的文化。