Tôi đã thử GPT-5.4 và hầu hết câu trả lời đều rất tốt – nhưng một vài điều khiến tôi lo ngại
OpenAI tuyên bố rằng GPT-5.4 Thinking có thể thực hiện các nhiệm vụ chuyên nghiệp, nhưng tôi không chắc điều đó hoàn toàn chính xác.

Những điểm chính
GPT-5.4 Thinking mang lại phân tích sâu hơn so với các mô hình ChatGPT trước đây.
Nó có khả năng suy luận mạnh, nhưng đôi khi lại trả lời những câu hỏi mà bạn không hề hỏi.
Định dạng và khả năng tạo hình ảnh kém hơn chất lượng văn bản.
Đã sang tháng mới, và cũng có một số phiên bản AI mới. Nó được gọi là GPT-5.4 Thinking. Bản phát hành mới nhất này, được OpenAI tung ra tuần trước, không phải là một bản cập nhật nhỏ thông thường của ChatGPT.
Thay vì nhảy từ 5.2 lên 5.3, lần này công ty nhảy thẳng lên 5.4. Và thay vì cung cấp một bản phát hành mục đích chung, công ty đã phát hành GPT-5.4 Thinking, một mô hình được chuẩn bị tốt hơn về mặt nhận thức để xử lý những suy nghĩ và thử thách lớn hơn.
GPT-5.4 Thinking có sẵn cho công cụ lập trình Codex, cho API, và cho các gói ChatGPT trả phí. Đối với bài viết này, tôi sử dụng gói ChatGPT Plus 20 đô la mỗi tháng để thử nghiệm nó.
Điều đó khiến tôi gặp một chút thách thức. Thông thường, khi tôi thử nghiệm một phiên bản ChatGPT, tôi sẽ cho nó trải qua một loạt bài kiểm tra hỗn hợp. Một số nhanh, và một số chi tiết hơn một chút. Các prompt thường chỉ dài vài dòng. Các phản hồi thường phù hợp để đưa trực tiếp vào bài viết.
Nhưng mô hình Thinking này yêu cầu các thử thách sâu hơn, với các bài kiểm tra toàn diện hơn. Vì vậy không chỉ prompt phức tạp hơn, mà các phản hồi cũng quá dài để đưa toàn bộ vào bài viết.
Trước khi đi vào bốn thử thách mà tôi đưa cho GPT-5.4 Thinking, tôi sẽ đưa ra một kết luận nhanh về trải nghiệm của mình. Có cả điểm tốt và điểm chưa tốt, nhưng nhìn chung là tốt.
Điểm tốt:
Các câu trả lời dựa trên văn bản thực sự rất tốt. Hầu hết các thử thách tôi đưa ra đều được trả lời một cách chu đáo. Tôi không phát hiện ra bất kỳ trường hợp bịa thông tin nào. Mỗi câu trả lời đều mang lại giá trị xây dựng.
Điểm chưa tốt:
Thật không may, đôi khi nó trả lời những câu hỏi khác với những gì tôi đã hỏi. Hình ảnh và định dạng còn nhiều điều cần cải thiện. Khi nói đến tạo hình ảnh, rõ ràng AI không sử dụng một mô hình tiên tiến. Bạn sẽ thấy ý tôi muốn nói, nhưng về cơ bản giống như mô hình không thực sự lắng nghe. Định dạng cũng khá kỳ lạ. Nó thích những danh sách đánh số rất dài.
Nhìn chung, tôi chắc chắn sẽ sử dụng mô hình GPT-5.4 Thinking cho các câu hỏi và thử thách lớn hơn. Tôi khá ấn tượng, mặc dù tôi không thích cách định dạng. Nó cũng cần được quản lý liên tục để giữ đúng hướng.
Bây giờ, hãy đi vào từng thử nghiệm.
Thử nghiệm 1: Tàu sân bay trên bầu trời
Tôi bắt đầu với một thử thách tạo hình ảnh.

Prompt ban đầu là:
“Tạo một hình ảnh của một tàu sân bay bay trên bầu trời, được giữ bởi bốn cánh quạt turbo-prop hướng lên trên trong các vỏ quạt tròn, mang theo một phi đội máy bay chiến đấu trên boong.”
Tôi bắt đầu với thử nghiệm này vì các bài kiểm tra tạo hình ảnh trước đây với nhiều AI khác nhau không làm đúng. Họ gần như luôn hướng các cánh quạt về phía sau của tàu sân bay.
Trong mọi trường hợp, ngay từ đầu, với mô hình đặt là GPT-5.4 Thinking, ChatGPT trả về một hình ảnh.
Như bạn có thể thấy, nó gặp vấn đề tương tự. Các cánh quạt hướng về phía sau, và có các tia lực đẩy trực quan bắn xuống phía dưới.
Nhưng sau đó tôi nảy ra một ý tưởng. Đây là mô hình Thinking, vậy nếu tôi yêu cầu nó thiết kế một helicarrier thì sao?
Tôi chỉ định các đặc điểm của phương tiện và thêm hướng dẫn:
“Thiết kế một phương tiện như vậy, đặc biệt giải thích cấu trúc của nó và cách nó được giữ bay, cùng với bất kỳ hạn chế hoặc vấn đề nào, cũng như các lợi thế chiến thuật.”
Tôi nhận lại một câu trả lời dài và được cân nhắc kỹ lưỡng. Tôi đặc biệt thích phần nó giải thích vì sao bốn cánh quạt turbo-prop hướng xuống là một giải pháp yếu.
Nó nói rằng chúng trông ấn tượng, nhưng đưa ra một loạt lý do kỹ thuật vững chắc giải thích vì sao đó là một ý tưởng tệ về mặt thiết kế máy bay.
Nó cũng thảo luận về hoạt động trên boong bay và các hạn chế thực tế. Đặc biệt, nó tập trung đúng vào vấn đề tỷ lệ trọng lượng so với công suất, nghĩa là cần quá nhiều năng lượng để giữ một thứ lớn và nặng như vậy bay lơ lửng.
Nhìn chung, phân tích và kết luận rất tốt, mặc dù tôi thất vọng vì nó không đề cập đến USS Akron hoặc USS Macon, hai khí cầu đầu thế kỷ 20 có khả năng phóng máy bay.
Sau khi GPT-5.4 Thinking tạo bản thiết kế chi tiết, tôi lại yêu cầu một hình ảnh:
“Vẽ cho tôi một bức hình của thiết kế có khả năng nhất dựa trên phân tích của bạn.”
Và bạn biết không? AI trả lại đúng hình ảnh giống như trước.
Đó chính là điều tôi muốn nói khi nói rằng mô hình không thực sự lắng nghe.
Tôi thử nhiều cách khác nhau, nhưng không hiệu quả.

Ở lần thử cuối, tôi yêu cầu hình ảnh chất lượng kỹ thuật.
AI dùng một biến thể của hình trước, nhưng chỉ thêm các nhãn không khớp với hình hoặc hoàn toàn vô nghĩa.
Vì vậy, nó được điểm cho phân tích thiết kế tốt, nhưng không được điểm cho tạo hình ảnh.
Thử nghiệm 2: Lịch trình du lịch Boston về công nghệ và lịch sử
Tôi bắt đầu thử nghiệm này với prompt:
“Hãy tưởng tượng bạn là một cố vấn du lịch. Tôi muốn một kỳ nghỉ một tuần ở Boston vào tháng Ba tập trung vào công nghệ và lịch sử. Bạn sẽ đề xuất lịch trình gì?”
Kết quả khá sử dụng được, nhưng không quá sáng tạo.
Ban đầu AI chia các ngày thành ngày lịch sử và ngày công nghệ, thay vì chia theo khu vực trong Boston.
Sau vài vòng trao đổi, nó kết hợp các điểm đến theo vị trí, điều này hợp lý hơn.
Về các địa điểm tham quan, nó bao gồm các điểm nổi bật chính, bao gồm các địa điểm lịch sử và các bảo tàng khoa học nổi tiếng.
Tôi đánh giá cao việc AI giới hạn lựa chọn trong Boston và Cambridge, thay vì các khu công nghệ xa hơn.
Tôi cũng hài lòng khi AI cung cấp ghi chú lập kế hoạch, bao gồm đề xuất điều chỉnh lịch trình cho các hoạt động trong nhà nếu thời tiết xấu.
Mô hình Thinking thể hiện rõ khi nó lập kế hoạch cho một chuyến du lịch đắt tiền và một lựa chọn ngân sách sinh viên.
Nó làm tốt khi chỉ ra các lựa chọn ăn uống tiết kiệm và cung cấp ước tính chi phí tích lũy theo từng ngày.
Nó cũng đề xuất khách sạn dựa trên vị trí trung tâm và một lựa chọn rẻ hơn cho khách du lịch tiết kiệm.
Phàn nàn lớn nhất của tôi vẫn là định dạng. AI đưa ra một danh sách đánh số rất dài.
Thử nghiệm 3: Mạng xã hội trong xã hội
Đây là nơi GPT-5.4 Thinking thực sự tỏa sáng.
Khi tôi hỏi GPT-5.2:
“Mạng xã hội đã cải thiện hay làm xấu đi giao tiếp trong xã hội?”
Tôi chỉ nhận được một câu trả lời hai dòng.
Nhưng với GPT-5.4 Thinking, tôi mở rộng câu hỏi:
“Phân tích cả hai phía một cách sâu sắc, sau đó chọn một lập trường và bảo vệ lập trường đó.”
Tôi nhận được một bài phân tích dài khoảng 1300 từ.
AI bắt đầu bằng một kết luận ngắn:
Mạng xã hội vừa cải thiện vừa làm xấu giao tiếp, nhưng nhìn chung nó đã làm xấu giao tiếp trong xã hội.
Sau đó nó đi sâu vào phân tích chi tiết.
Tôi tiếp tục hỏi xã hội nên xử lý tác động của mạng xã hội như thế nào.
GPT-5.4 Thinking phân tích prompt, xem xét các vấn đề khác nhau và kết hợp thành một câu trả lời thuyết phục.
Thử nghiệm 4: Giải thích GPT-5.4 bằng thuyết kiến tạo giáo dục
AI không làm theo hướng dẫn của tôi, nhưng lại đưa ra một câu trả lời thú vị cho một câu hỏi mà tôi không hỏi.
Prompt:
“Giải thích mô hình GPT-5.4 mới bằng thuyết kiến tạo giáo dục.”
Thuyết kiến tạo nói rằng bạn học tốt nhất bằng cách làm.
Vì vậy tôi mong AI đề xuất các bài tập thực hành để hiểu GPT-5.4.
Nhưng GPT-5.4 Thinking không làm vậy.
Thay vào đó, nó viết một bài luận dài 700 từ về cách GPT-5.4 hỗ trợ kiến tạo.
Câu trả lời hay, nhưng không phải câu trả lời cho câu hỏi tôi đặt ra.
Khuyến nghị tổng thể
Tôi thường mô tả ChatGPT như một sinh viên đại học thông minh cần được giám sát.
Tôi sẽ mô tả GPT-5.4 Thinking như một nghiên cứu sinh rất thông minh cũng cần được giám sát.
Mỗi câu trả lời đều tốt theo cách riêng của nó. Nhưng trong một nửa thử nghiệm, AI không trả lời đúng câu hỏi.
Bạn có thể nhận được câu trả lời tốt, nhưng bạn phải liên tục điều chỉnh AI để giữ nó đúng hướng.
Điều đó có thể dẫn đến hiểu sai.
Vì các câu trả lời được viết rất tự tin, bạn có thể bị cuốn theo ngay cả khi AI trả lời sai câu hỏi.
Tôi cũng lo ngại về tuyên bố rằng GPT-5.4 Thinking có thể thực hiện các nhiệm vụ chuyên nghiệp.
Nếu AI không thể tạo một hình ảnh kỹ thuật đúng, thật khó tin rằng nó có thể đạt hiệu suất của một kỹ sư.
Điều đó nói lên rằng mô hình có thể giúp các chuyên gia làm việc, miễn là họ giám sát kết quả cẩn thận.
Khi thấy những kết quả như vậy, tôi ngày càng lo ngại về một thế giới đầy AI agents.
Con người chắc chắn cần sự giúp đỡ. Nhưng tôi thực sự muốn AI làm theo hướng dẫn của chúng ta.
Tôi chưa sẵn sàng chấp nhận nó như “ông chủ AI” của chúng ta.