Trình biên dịch này cũng có những hạn chế rõ ràng mà Carlini đã thẳng thắn thừa nhận. Nó thiếu phần phụ trợ x86 16-bit cần thiết để khởi động Linux từ chế độ thực, vì vậy nó phải gọi đến GCC cho bước đó. Trình hợp dịch và trình liên kết của chính nó vẫn còn nhiều lỗi. Ngay cả khi bật tất cả các tối ưu hóa, nó vẫn tạo ra mã kém hiệu quả hơn so với GCC chạy với tất cả các tối ưu hóa bị tắt. Và chất lượng mã Rust, mặc dù hoạt động được, nhưng không thể đạt đến chất lượng mà một lập trình viên Rust chuyên nghiệp sẽ tạo ra. “Trình biên dịch cuối cùng gần như đã đạt đến giới hạn khả năng của Opus,” Carlini viết. “Tôi đã cố gắng (rất nhiều!) để khắc phục một số hạn chế nêu trên nhưng không hoàn toàn thành công. Các tính năng mới và các bản sửa lỗi thường xuyên làm hỏng chức năng hiện có.”
Những hạn chế đó thực ra có thể cung cấp nhiều thông tin hơn cả những thành công. Carlini báo cáo rằng vào giai đoạn cuối của dự án, việc sửa lỗi và thêm tính năng "thường xuyên làm hỏng các chức năng hiện có", một mô hình quen thuộc với bất kỳ ai đã từng chứng kiến một codebase phát triển vượt quá điểm mà bất kỳ người đóng góp nào cũng hiểu rõ về nó.
Và hạn chế đó thậm chí còn phổ biến hơn khi xử lý các tác nhân lập trình AI, vốn mất đi tính nhất quán theo thời gian. Mô hình đã gặp phải giới hạn này ở khoảng 100.000 dòng mã, điều này cho thấy một giới hạn thực tế đối với việc lập trình tự động của tác nhân, ít nhất là với các mô hình hiện tại.
Công sức của con người đằng sau quá trình tự động hóa.
Anthropic mô tả trình biên dịch này là một "phiên bản được phát triển trong môi trường sạch" vì các tác nhân không có quyền truy cập Internet trong quá trình phát triển. Nhưng cách diễn đạt đó có phần gây hiểu lầm. Mô hình cơ bản được huấn luyện trên một lượng lớn mã nguồn công khai, gần như chắc chắn bao gồm GCC, Clang và nhiều trình biên dịch C nhỏ hơn khác. Trong phát triển phần mềm truyền thống, "môi trường sạch" đặc biệt có nghĩa là những người triển khai chưa bao giờ nhìn thấy mã nguồn gốc. Theo tiêu chuẩn đó, đây không phải là một môi trường như vậy.
Trên Hacker News, sự phân biệt này đã gây ra cuộc tranh luận gay gắt, phản ánh sự đón nhận trái chiều đối với tin tức này trong giới lập trình viên. "Đó giống như một nỗ lực dùng vũ lực để giải mã những kiến thức được lưu trữ một cách mơ hồ trong mạng lưới," một người bình luận viết .
Con số 20.000 đô la cũng cần được xem xét trong bối cảnh cụ thể. Con số đó chỉ bao gồm chi phí mã thông báo API và không bao gồm hàng tỷ đô la đã chi cho việc huấn luyện mô hình, công sức của con người mà Carlini đã đầu tư vào việc xây dựng nền tảng, và hàng thập kỷ làm việc của các kỹ sư biên dịch, những người đã tạo ra các bộ kiểm thử và các triển khai tham chiếu giúp dự án khả thi.
