OpenAI bị “bắt quả tang” khi vẽ biểu đồ vibe
Trong buổi livestream giới thiệu GPT-5 vào thứ Năm, OpenAI đã trình chiếu vài biểu đồ khiến mô hình trông khá ấn tượng — nhưng nếu nhìn kỹ, một số biểu đồ có phần sai lệch.
Trong một biểu đồ, trớ trêu thay, minh họa khả năng GPT-5 trong “đánh giá lừa dối giữa các mô hình”, thang đo rất lộn xộn. Ví dụ, với “coding deception” (lừa dối khi lập trình), biểu đồ trình chiếu trên sân khấu cho thấy GPT-5 với “thinking” có tỷ lệ lừa dối 50.0%, nhưng so với o3 của OpenAI 47.4% lại có thanh biểu đồ lớn hơn. Tuy nhiên, OpenAI dường như đã có số liệu chính xác cho biểu đồ này trong bài blog GPT-5, nơi tỷ lệ lừa dối của GPT-5 được ghi là 16.5%.
Với biểu đồ này, OpenAI đã cho thấy một số điểm của GPT-5 thấp hơn o3 nhưng lại hiển thị thanh lớn hơn. Trong cùng biểu đồ, o3 và GPT-4o có số liệu khác nhau nhưng thanh lại bằng nhau. CEO Sam Altman đã bình luận về lỗi này, gọi nó là “mega chart screwup”, nhưng lưu ý rằng phiên bản đúng có trong bài blog của công ty.
Một nhân viên marketing của OpenAI cũng đã xin lỗi: “Chúng tôi đã sửa biểu đồ trong blog, xin lỗi vì lỗi biểu đồ không cố ý này.”
Vào thứ Sáu, khi một người dùng Reddit hỏi về các biểu đồ, Altman trả lời rằng: “Các số liệu ở đây là chính xác nhưng chúng tôi đã làm sai thanh biểu đồ trong livestream qua đêm; ở một slide khác chúng tôi cũng làm sai số liệu.” Ông cũng nhấn mạnh bài blog và system card là chính xác và nói: “Mọi người làm việc muộn và rất mệt mỏi, và lỗi con người đã xảy ra. Rất nhiều thứ được chuẩn bị cho livestream vào những giờ cuối cùng.”
Dù vậy, đây vẫn là một hình ảnh không mấy đẹp cho công ty trong ngày ra mắt lớn, đặc biệt khi họ đang quảng bá “tiến bộ đáng kể trong việc giảm hallucinations” với mô hình mới.