Trong bối cảnh xu hướng phát triển các tác nhân AI đang diễn ra mạnh mẽ , với việc cả Anthropic và OpenAI đều tung ra các công cụ đa tác nhân trong tuần này, Anthropic đã sẵn sàng giới thiệu một số thử nghiệm lập trình AI táo bạo hơn của mình. Nhưng như thường lệ với những tuyên bố về thành tựu liên quan đến AI, bạn sẽ thấy một số lưu ý quan trọng phía trước.
Hôm thứ Năm, nhà nghiên cứu Nicholas Carlini của Anthropic đã đăng một bài viết trên blog mô tả cách ông thả 16 phiên bản của mô hình AI Claude Opus 4.6 của công ty vào một cơ sở mã chung với sự giám sát tối thiểu, giao nhiệm vụ cho chúng xây dựng một trình biên dịch C từ đầu.
Trong hơn hai tuần và gần 2.000 phiên Claude Code với chi phí khoảng 20.000 đô la phí API, các tác nhân mô hình AI được cho là đã tạo ra một trình biên dịch dựa trên Rust gồm 100.000 dòng, có khả năng xây dựng nhân Linux 6.9 có thể khởi động trên các kiến trúc x86, ARM và RISC-V.
Carlini, một nhà khoa học nghiên cứu thuộc nhóm Bảo vệ của Anthropic, người trước đây đã có bảy năm làm việc tại Google Brain và DeepMind, đã sử dụng một tính năng mới được ra mắt cùng với Claude Opus 4.6 có tên là “ nhóm tác nhân ”. Trên thực tế, mỗi phiên bản Claude chạy bên trong một container Docker riêng, sao chép một kho lưu trữ Git được chia sẻ, nhận nhiệm vụ bằng cách ghi các tệp khóa, sau đó đẩy mã đã hoàn thành trở lại kho lưu trữ gốc. Không có tác nhân điều phối nào điều khiển lưu lượng truy cập. Mỗi phiên bản độc lập xác định vấn đề nào có vẻ rõ ràng nhất cần giải quyết tiếp theo và bắt đầu giải quyết nó. Khi xảy ra xung đột hợp nhất, các phiên bản mô hình AI sẽ tự giải quyết chúng.
Trình biên dịch này, được Anthropic phát hành trên GitHub , có thể biên dịch một loạt các dự án mã nguồn mở lớn, bao gồm PostgreSQL, SQLite, Redis, FFmpeg và QEMU. Nó đạt tỷ lệ vượt qua 99% trong bộ kiểm thử khắc nghiệt GCC và, trong cái mà Carlini gọi là “bài kiểm tra cuối cùng dành cho nhà phát triển”, đã biên dịch và chạy Doom .
Điều đáng chú ý là trình biên dịch C là một nhiệm vụ gần như lý tưởng cho việc lập trình mô hình AI bán tự động: Đặc tả đã có từ nhiều thập kỷ trước và được định nghĩa rõ ràng, các bộ kiểm thử toàn diện đã tồn tại, và có một trình biên dịch tham chiếu tốt đã được biết đến để kiểm tra. Hầu hết các dự án phần mềm thực tế không có được những lợi thế này. Phần khó khăn nhất trong hầu hết quá trình phát triển không phải là viết mã vượt qua các bài kiểm thử; mà là tìm ra những bài kiểm thử nào cần thực hiện ngay từ đầu.
