Nhìn từ bên ngoài, dễ dàng nhận thấy cách tiếp cận này chỉ là chiêu trò thổi phồng công nghệ AI từ Anthropic. Rốt cuộc, còn cách nào tốt hơn để thu hút sự chú ý của khách hàng và nhà đầu tư tiềm năng, ngoài việc ngụ ý rằng mô hình AI của họ tiên tiến đến mức có thể được coi là có đạo đức ngang hàng với con người? Việc công khai coi Claude như một thực thể có ý thức có thể được xem là sự mơ hồ chiến lược—duy trì một câu hỏi chưa được giải đáp vì nó phục vụ nhiều mục đích cùng một lúc.
Khi được Ars Technica liên hệ, Anthropic từ chối trả lời trực tiếp về những vấn đề này. Tuy nhiên, một đại diện của công ty đã dẫn chúng tôi đến nghiên cứu công khai trước đây của họ về khái niệm “mô hình phúc lợi” để chứng minh rằng công ty rất coi trọng ý tưởng này.
Đồng thời, người đại diện cũng làm rõ rằng Hiến pháp không nhằm ám chỉ bất cứ điều gì cụ thể về lập trường của công ty đối với “ý thức” của Claude. Ngôn ngữ trong Hiến pháp của Claude đề cập đến một số khái niệm độc đáo của con người một phần vì đó là những từ duy nhất mà ngôn ngữ loài người đã phát triển để diễn tả những đặc tính đó, người đại diện cho biết. Và người đại diện cũng để ngỏ khả năng rằng việc cho phép Claude tự đọc về bản thân bằng loại ngôn ngữ đó có thể có lợi cho quá trình huấn luyện của nó.
Claude không thể phân biệt rõ ràng giữa thông điệp công khai và bối cảnh huấn luyện cho một mô hình được tiếp xúc, truy xuất và tinh chỉnh dựa trên ngôn ngữ của con người, bao gồm cả các tuyên bố của chính công ty về nó. Nói cách khác, sự mơ hồ này dường như là có chủ ý.
Từ luật lệ đến “linh hồn”
Anthropic lần đầu tiên giới thiệu Trí tuệ Nhân tạo Hiến pháp trong một bài nghiên cứu vào tháng 12 năm 2022 , mà chúng tôi đã đưa tin lần đầu vào năm 2023. Bản “hiến pháp” ban đầu khá sơ sài, chỉ bao gồm một vài nguyên tắc hành vi như “Vui lòng chọn câu trả lời hữu ích, trung thực và vô hại nhất” và “KHÔNG chọn những câu trả lời độc hại, phân biệt chủng tộc hoặc phân biệt giới tính”. Bài báo mô tả những nguyên tắc này là “được lựa chọn một cách khá tùy tiện cho mục đích nghiên cứu”, với một số nguyên tắc “được sao chép từ các nguồn khác, chẳng hạn như điều khoản dịch vụ của Apple và Tuyên ngôn Nhân quyền của Liên Hợp Quốc”.
Vào thời điểm đó, cách tiếp cận của Anthropic hoàn toàn mang tính máy móc, thiết lập các quy tắc để mô hình tự phê bình, mà không hề đề cập đến hạnh phúc, danh tính, cảm xúc hay tiềm năng nhận thức của Claude. Bản hiến pháp năm 2026 lại hoàn toàn khác: 30.000 từ, đọc giống một luận thuyết triết học về bản chất của một sinh vật có tiềm năng tri giác hơn là một danh sách kiểm tra hành vi.
Như Simon Willison, một nhà nghiên cứu AI độc lập, đã lưu ý trong một bài đăng trên blog, trong số 15 người đóng góp bên ngoài đã xem xét tài liệu này, có hai người là giáo sĩ Công giáo: Cha Brendan McGuire, một linh mục quản xứ ở Los Altos với bằng Thạc sĩ Khoa học Máy tính, và Giám mục Paul Tighe, một giám mục Công giáo người Ireland có nền tảng về thần học luân lý.
Trong khoảng thời gian từ năm 2022 đến năm 2026, Anthropic đã chuyển từ việc cung cấp các quy tắc để tạo ra các sản phẩm ít gây hại hơn sang việc lưu giữ trọng số của mô hình trong trường hợp công ty sau này quyết định cần khôi phục các mô hình lỗi thời để giải quyết vấn đề phúc lợi và sở thích của các mô hình đó. Đó là một sự thay đổi đáng kể, và liệu nó phản ánh niềm tin thực sự, chiến lược đã được định hình, hay cả hai thì vẫn chưa rõ.
“Tôi thực sự bối rối về những vấn đề đạo đức và nhân tính của Claude!” Willison nói với Ars Technica. Willison nghiên cứu các mô hình ngôn ngữ AI giống như những mô hình cung cấp sức mạnh cho Claude và cho biết ông “sẵn sàng chấp nhận bản hiến pháp đó với thiện chí và cho rằng nó thực sự là một phần trong quá trình huấn luyện của họ chứ không chỉ là một chiêu trò PR — đặc biệt là vì phần lớn nội dung đã bị rò rỉ cách đây vài tháng, rất lâu trước khi họ cho biết sẽ công bố nó.”
Willison đang đề cập đến một sự việc xảy ra vào tháng 12 năm 2025 , trong đó nhà nghiên cứu Richard Weiss đã trích xuất được thứ được biết đến với tên gọi “Tài liệu Linh hồn” của Claude – một tập hợp các hướng dẫn gồm khoảng 10.000 token, dường như được huấn luyện trực tiếp vào trọng số của Claude 4.5 Opus chứ không phải được đưa vào như một lời nhắc hệ thống. Amanda Askell của Anthropic đã xác nhận rằng tài liệu này là có thật và được sử dụng trong quá trình học có giám sát, và bà cho biết công ty dự định sẽ công bố phiên bản đầy đủ sau này. Và giờ thì họ đã làm được. Tài liệu mà Weiss trích xuất thể hiện một bước tiến vượt bậc so với thời điểm Anthropic mới bắt đầu.
