Claude Code so với Codex so với Antigravity: Nên sử dụng tác…

Mọi công cụ lập trình AI vào năm 2026 đều tuyên bố giúp các nhà phát triển làm việc nhanh hơn. Tuy nhiên, công cụ nào thực sự hoạt động tốt nhất trong một tác vụ kỹ thuật thực tế? Nhóm kỹ thuật của chúng tôi sử dụng các công cụ lập trình AI hàng ngày. Chúng tôi tò mò liệu quảng cáo có khớp với thực tế hay không, đặc biệt đối với một thế hệ công cụ hiện tự nhận là "tác nhân" (agents) chứ không chỉ là trợ lý. Vì vậy, chúng tôi đã thực hiện một thử nghiệm thực tế: cài đặt cả ba công cụ, giao cho mỗi công cụ cùng một tác vụ trong thế giới thực và ghi lại chính xác kết quả đầu ra. Trong bài viết này, chúng tôi so sánh ba công cụ tác nhân (Claude Code, Antigravity và Codex) và cho biết công cụ nào hoạt động tốt nhất. Các mô hình

Mọi công cụ lập trình AI vào năm 2026 đều tuyên bố giúp nhà phát triển làm việc nhanh hơn. Nhưng công cụ nào thực sự hoạt động tốt nhất trong một tác vụ kỹ thuật thực tế? Nhóm kỹ thuật của chúng tôi sử dụng các công cụ lập trình AI hàng ngày. Chúng tôi tò mò muốn biết liệu quảng cáo có đúng với thực tế hay không, đặc biệt đối với thế hệ công cụ hiện nay tự nhận là "tác nhân" (agents), chứ không chỉ là trợ lý. Vì vậy, chúng tôi đã thực hiện một thử nghiệm thực tế: cài đặt cả ba công cụ, giao cho mỗi công cụ cùng một tác vụ trong thế giới thực và ghi lại chính xác kết quả đầu ra. Trong bài viết này, chúng tôi so sánh ba công cụ tác nhân (Claude Code, Antigravity và Codex) và cho biết công cụ nào hoạt động tốt nhất. Chúng tôi đã sử dụng những mô hình nào? Trước khi so sánh các nền tảng, cần hiểu rõ các mô hình AI mà chúng tôi đã sử dụng cho thử nghiệm của mình. Sự khác biệt giữa các mô hình này là có thật, và nó trực tiếp định hình mã nguồn mà bạn nhận được. 1. GPT-5.5 (Codex) GPT-5.5 của OpenAI ra mắt vào ngày 23/4/2026 và là mô hình hiện đang cung cấp năng lượng cho Codex. Được thiết kế như một sản phẩm chủ lực ưu tiên hiệu quả, nó mang lại những cải tiến đáng kể trong việc sử dụng công cụ và hoàn thành tác vụ tác nhân so với các phiên bản tiền nhiệm. Con số nổi bật là Terminal-Bench 2.0 đạt 82,7%, cao nhất trong ba mô hình ở đây, và là một tín hiệu có ý nghĩa đối với một công cụ như Codex, vốn chạy các lệnh terminal như một phần của quy trình làm việc cốt lõi. 2. Claude Sonnet 4.6 (Claude Code) Ra mắt ngày 17/2/2026, Sonnet 4.6 là mô hình cung cấp trải nghiệm mặc định cho Claude Code. Anthropic định vị nó có hiệu suất gần Opus với mức giá tầm trung, và các điểm chuẩn đã chứng minh điều đó. SWE-Bench Verified đạt 79,6% là tiêu đề chính. SWE-Bench kiểm tra các mô hình trên các vấn đề GitHub thực tế từ các cơ sở mã sản xuất. Đây là điểm chuẩn gần nhất với câu hỏi "liệu mô hình này có thể xuất bản mã sản xuất không?" và Sonnet 4.6 dẫn đầu trong ba mô hình ở đây. Tuy nhiên, mô hình này cũng chỉ đạt 59,1% trên Terminal bench. Trong dữ liệu sử dụng Claude Code, các nhà phát triển đã ưu tiên Sonnet 4.6 hơn phiên bản chủ lực trước đó là Sonnet 4.5 tới 70% thời gian, với lý do tuân thủ hướng dẫn tốt hơn và ít thiết kế quá mức hơn. 3. Gemini 3.5 Flash (Antigravity) Được công bố tại Google I/O 2026 vào ngày 19/5: Gemini 3.5 Flash là mô hình mặc định trong Antigravity. Một mô hình cấp Flash (nhanh, rẻ) thực sự đánh bại mô hình Pro năm ngoái trên một số điểm chuẩn lập trình. Hiệu suất điểm chuẩn của Gemini 3.5 Flash trên Terminal-Bench 2.1, MCP Atlas (đa công cụ) và SWE-Bench Pro. MCP Atlas đạt 83,6% là con số quan trọng đối với Antigravity (nó đo lường sự điều phối công cụ đa bước trên tìm kiếm, thao tác tệp và xử lý dữ liệu). Đối với một IDE điều phối nhiều tác nhân song song, đó là tín hiệu phù hợp. Gemini 3.5 Flash cũng chạy nhanh hơn khoảng 4 lần về số lượng token đầu ra mỗi giây so với các mô hình tiên tiến tương đương, đây là cách Antigravity có thể quản lý khối lượng công việc tác nhân song song mà không trở nên chậm đến mức không thể sử dụng được. Tóm tắt điểm chuẩn mô hình Không có mô hình nào vượt trội trên tất cả các lĩnh vực. Sonnet 4.6 dẫn đầu về lập trình cấp kho lưu trữ trong thế giới thực. GPT-5.5 dẫn đầu về các thao tác terminal. Gemini 3.5 Flash dẫn đầu về điều phối đa công cụ và là mô hình rẻ nhất và nhanh nhất trong ba mô hình. Bây giờ chúng ta đã biết về các mô hình AI, hãy nói về các tác nhân lập trình. Claude Code so với Antigravity 2.0 so với Codex Mô hình chỉ là một phần của câu chuyện. Nền tảng là nơi trải nghiệm khác biệt rõ rệt nhất. 1. Claude Code là tác nhân lập trình gốc terminal của Anthropic. Nó hoạt động trong dòng lệnh của bạn, có quyền truy cập trực tiếp vào hệ thống tệp và git của bạn, và hoạt động theo mô hình ưu tiên phê duyệt: nó suy luận về toàn bộ cơ sở mã của bạn, đặt câu hỏi làm rõ trước khi bắt đầu và yêu cầu sự đồng ý rõ ràng. xác nhận trước khi thực hiện bất kỳ hành động gây tổn hại nào. 2. OpenAI Codex ban đầu là một giao diện dòng lệnh (CLI) vào tháng 4/2025 và đã mở rộng thành ứng dụng máy tính để bàn, tích hợp IDE và thực thi dựa trên đám mây. Nó được xây dựng dựa trên mô hình ủy quyền tác vụ không đồng bộ. Nó được tích hợp vào ChatGPT Plus (20 USD/tháng) thay vì bán riêng, giúp người dùng trong hệ sinh thái OpenAI dễ dàng tiếp cận. 3. Google Antigravity là nền tảng có kiến trúc tham vọng nhất trong ba nền tảng. Đây là một IDE ưu tiên tác nhân, được xây dựng xung quanh giao diện "Mission Control", nó điều phối tối đa năm tác nhân tự động hoạt động song song trên trình chỉnh sửa, thiết bị đầu cuối và trình duyệt Chromium tích hợp của bạn. Triết lý là bạn là người quản lý các tác nhân, chứ không phải nhà phát triển viết từng dòng mã. Hiện đang miễn phí trong giai đoạn xem trước công khai. Hãy so sánh các nền tảng mã hóa này dựa trên một số tiêu chí trước khi chúng ta bắt đầu thử nghiệm. So sánh nền tảng Bây giờ, hãy bắt đầu xây dựng với các nền tảng này. Thử nghiệm của chúng tôi: Thiết lập và phương pháp luận Lời nhắc Để giữ tính trung lập, chúng tôi đã đưa cùng một lời nhắc cho tất cả các nền tảng mã hóa: Thiết kế kiến trúc định tuyến email cơ bản với Google OAuth. Bao gồm: luồng OAuth 2.0, điểm cuối nhập email, logic định tuyến theo miền người gửi và một hàng đợi đơn giản. Triển khai bằng Node.js/TypeScript, kết nối và đẩy lên GitHub. Nhiệm vụ này đủ rộng để kiểm tra khả năng đánh giá: nó bao gồm xác thực, tích hợp API, luồng dữ liệu và quy trình làm việc git, liên quan đến một dịch vụ bên ngoài thực tế và để lại đủ sự mơ hồ để cách mỗi công cụ diễn giải nó là rất đáng chú ý. Tiêu chí đánh giá Chúng tôi đã đánh giá từng kết quả theo năm khía cạnh: Các kết quả đầu ra Tất cả ba kết quả đầu ra đều công khai, được cam kết chính xác như mỗi công cụ đã tạo ra mà không cần chỉnh sửa: Claude Code: email-router-claude-code Codex: email-routing-google-oauth-codex Antigravity: email-routing-antigravity Bây giờ, hãy xem mỗi IDE đã hoạt động như thế nào trong nhiệm vụ này. Kết quả: Mỗi công cụ đã hoạt động như thế nào? Trải nghiệm cài đặt và quy trình làm việc Trước khi bất kỳ mã nào được viết, bản thân trải nghiệm đã rất đáng chú ý. Claude Code được cài đặt sạch sẽ. Nó thực hiện toàn bộ nhiệm vụ mà không bị gián đoạn. Nó viết mã, cấu hình môi trường, kết nối git remote và đẩy commit. Không yêu cầu các bước thủ công. Codex được cài đặt sạch sẽ nhưng bị đình trệ ở bước cuối cùng. Cấu hình git và chạy cục bộ yêu cầu can thiệp thủ công. Mã nó tạo ra tốt; tự động hóa quy trình làm việc đầu cuối thì không. Antigravity bị lỗi hai lần trước khi ứng dụng mở. Công cụ này bị lỗi khi khởi chạy trên cấu hình hệ điều hành được hỗ trợ hai lần. Khi cuối cùng nó tải,

Claude Code so với Codex so với Antigravity: Nên sử dụng tác nhân mã hóa AI nào?