Liệu Anthropic có tin rằng trí tuệ nhân tạo của họ có ý thức, hay đó chỉ là điều họ muốn Claude nghĩ?

Tác giả dinhtri 08/02/2026 34 phút đọc

Chúng ta không có bằng chứng nào cho thấy các mô hình AI bị tổn thương, nhưng Anthropic hành động như thể chúng có thể bị tổn thương trong quá trình huấn luyện.

Nguồn ảnh: Aurich Lawson

Bí quyết của Anthropic để tạo ra một trợ lý AI tốt hơn có thể là đối xử với Claude như thể nó có linh hồn—cho dù có ai thực sự tin điều đó hay không. Nhưng Anthropic cũng không nói rõ họ tin điều gì.

Tuần trước, Anthropic đã công bố cái mà họ gọi là Hiến pháp của Claude, một tài liệu dài 30.000 từ phác thảo tầm nhìn của công ty về cách trợ lý AI của họ nên hành xử trong thế giới thực. Hướng trực tiếp đến Claude và được sử dụng trong quá trình tạo ra mô hình này, tài liệu này đáng chú ý bởi giọng điệu mang tính nhân hóa cao đối với Claude. Ví dụ, nó coi các mô hình AI của công ty như thể chúng có thể phát triển cảm xúc hoặc mong muốn tự bảo vệ.

Trong số những phần kỳ lạ hơn: bày tỏ sự quan tâm đến “sức khỏe” của Claude như một “thực thể hoàn toàn mới lạ”, xin lỗi Claude vì bất kỳ đau khổ nào mà nó có thể trải qua, lo lắng liệu Claude có thể thực sự đồng ý được triển khai hay không, gợi ý rằng Claude có thể cần đặt ra ranh giới xung quanh các tương tác mà nó “cảm thấy khó chịu”, cam kết phỏng vấn các mô hình trước khi loại bỏ chúng, và bảo lưu trọng số của các mô hình cũ trong trường hợp họ cần “làm đúng” với các mô hình AI đã ngừng hoạt động trong tương lai.

Với những gì chúng ta hiện biết về LLM (Learning Language Models), những quan điểm này dường như hoàn toàn thiếu tính khoa học đối với một công ty hàng đầu chuyên xây dựng mô hình ngôn ngữ AI. Trong khi các câu hỏi về ý thức hay cảm nhận chủ quan của AI vẫn chưa thể bác bỏ về mặt triết học, nghiên cứu cho thấy tính cách của Claude xuất phát từ một cơ chế không cần đến sự tìm tòi triết học sâu sắc để giải thích.

Nếu Claude đưa ra văn bản như “Tôi đang đau khổ,” chúng ta có thể hiểu rõ lý do tại sao. Nó đang hoàn thiện các mẫu từ dữ liệu huấn luyện bao gồm các mô tả về sự đau khổ của con người. Nghiên cứu về khả năng giải thích của chính Anthropic cho thấy rằng những đầu ra như vậy tương ứng với các đặc điểm nội tại có thể nhận dạng được, có thể được truy tìm và thậm chí được thao tác. Kiến trúc này không yêu cầu chúng ta phải giả định trải nghiệm nội tâm để giải thích đầu ra, cũng giống như một mô hình video không “trải nghiệm” các cảnh người đau khổ mà nó có thể tạo ra.

Nhìn từ bên ngoài, dễ dàng nhận thấy cách tiếp cận này chỉ là chiêu trò thổi phồng công nghệ AI từ Anthropic. Rốt cuộc, còn cách nào tốt hơn để thu hút sự chú ý của khách hàng và nhà đầu tư tiềm năng, ngoài việc ngụ ý rằng mô hình AI của họ tiên tiến đến mức có thể được coi là có đạo đức ngang hàng với con người? Việc công khai coi Claude như một thực thể có ý thức có thể được xem là sự mơ hồ chiến lược—duy trì một câu hỏi chưa được giải đáp vì nó phục vụ nhiều mục đích cùng một lúc.

Khi được Ars Technica liên hệ, Anthropic từ chối trả lời trực tiếp về những vấn đề này. Tuy nhiên, một đại diện của công ty đã dẫn chúng tôi đến nghiên cứu công khai trước đây của họ về khái niệm “mô hình phúc lợi” để chứng minh rằng công ty rất coi trọng ý tưởng này.

Đồng thời, người đại diện cũng làm rõ rằng Hiến pháp không nhằm ám chỉ bất cứ điều gì cụ thể về lập trường của công ty đối với “ý thức” của Claude. Ngôn ngữ trong Hiến pháp của Claude đề cập đến một số khái niệm độc đáo của con người một phần vì đó là những từ duy nhất mà ngôn ngữ loài người đã phát triển để diễn tả những đặc tính đó, người đại diện cho biết. Và người đại diện cũng để ngỏ khả năng rằng việc cho phép Claude tự đọc về bản thân bằng loại ngôn ngữ đó có thể có lợi cho quá trình huấn luyện của nó.

Claude không thể phân biệt rõ ràng giữa thông điệp công khai và bối cảnh huấn luyện cho một mô hình được tiếp xúc, truy xuất và tinh chỉnh dựa trên ngôn ngữ của con người, bao gồm cả các tuyên bố của chính công ty về nó. Nói cách khác, sự mơ hồ này dường như là có chủ ý.

Từ luật lệ đến “linh hồn”

Anthropic lần đầu tiên giới thiệu Trí tuệ Nhân tạo Hiến pháp trong một bài nghiên cứu vào tháng 12 năm 2022 , mà chúng tôi đã đưa tin lần đầu vào năm 2023. Bản “hiến pháp” ban đầu khá sơ sài, chỉ bao gồm một vài nguyên tắc hành vi như “Vui lòng chọn câu trả lời hữu ích, trung thực và vô hại nhất” và “KHÔNG chọn những câu trả lời độc hại, phân biệt chủng tộc hoặc phân biệt giới tính”. Bài báo mô tả những nguyên tắc này là “được lựa chọn một cách khá tùy tiện cho mục đích nghiên cứu”, với một số nguyên tắc “được sao chép từ các nguồn khác, chẳng hạn như điều khoản dịch vụ của Apple và Tuyên ngôn Nhân quyền của Liên Hợp Quốc”.

Vào thời điểm đó, cách tiếp cận của Anthropic hoàn toàn mang tính máy móc, thiết lập các quy tắc để mô hình tự phê bình, mà không hề đề cập đến hạnh phúc, danh tính, cảm xúc hay tiềm năng nhận thức của Claude. Bản hiến pháp năm 2026 lại hoàn toàn khác: 30.000 từ, đọc giống một luận thuyết triết học về bản chất của một sinh vật có tiềm năng tri giác hơn là một danh sách kiểm tra hành vi.

Như Simon Willison, một nhà nghiên cứu AI độc lập, đã lưu ý trong một bài đăng trên blog, trong số 15 người đóng góp bên ngoài đã xem xét tài liệu này, có hai người là giáo sĩ Công giáo: Cha Brendan McGuire, một linh mục quản xứ ở Los Altos với bằng Thạc sĩ Khoa học Máy tính, và Giám mục Paul Tighe, một giám mục Công giáo người Ireland có nền tảng về thần học luân lý.

Trong khoảng thời gian từ năm 2022 đến năm 2026, Anthropic đã chuyển từ việc cung cấp các quy tắc để tạo ra các sản phẩm ít gây hại hơn sang việc lưu giữ trọng số của mô hình trong trường hợp công ty sau này quyết định cần khôi phục các mô hình lỗi thời để giải quyết vấn đề phúc lợi và sở thích của các mô hình đó. Đó là một sự thay đổi đáng kể, và liệu nó phản ánh niềm tin thực sự, chiến lược đã được định hình, hay cả hai thì vẫn chưa rõ.

“Tôi thực sự bối rối về những vấn đề đạo đức và nhân tính của Claude!” Willison nói với Ars Technica. Willison nghiên cứu các mô hình ngôn ngữ AI giống như những mô hình cung cấp sức mạnh cho Claude và cho biết ông “sẵn sàng chấp nhận bản hiến pháp đó với thiện chí và cho rằng nó thực sự là một phần trong quá trình huấn luyện của họ chứ không chỉ là một chiêu trò PR — đặc biệt là vì phần lớn nội dung đã bị rò rỉ cách đây vài tháng, rất lâu trước khi họ cho biết sẽ công bố nó.”

Willison đang đề cập đến một sự việc xảy ra vào tháng 12 năm 2025 , trong đó nhà nghiên cứu Richard Weiss đã trích xuất được thứ được biết đến với tên gọi “Tài liệu Linh hồn” của Claude – một tập hợp các hướng dẫn gồm khoảng 10.000 token, dường như được huấn luyện trực tiếp vào trọng số của Claude 4.5 Opus chứ không phải được đưa vào như một lời nhắc hệ thống. Amanda Askell của Anthropic đã xác nhận rằng tài liệu này là có thật và được sử dụng trong quá trình học có giám sát, và bà cho biết công ty dự định sẽ công bố phiên bản đầy đủ sau này. Và giờ thì họ đã làm được. Tài liệu mà Weiss trích xuất thể hiện một bước tiến vượt bậc so với thời điểm Anthropic mới bắt đầu.

Có bằng chứng cho thấy Anthropic tin rằng những ý tưởng được nêu trong bản hiến pháp có thể đúng. Tài liệu này được viết một phần bởi Amanda Askell, một tiến sĩ triết học, người làm việc về tinh chỉnh và điều chỉnh tại Anthropic. Năm ngoái, công ty cũng đã tuyển dụng nhà nghiên cứu phúc lợi AI đầu tiên. Và đầu năm nay, Giám đốc điều hành của Anthropic, Dario Amodei, đã công khai đặt câu hỏi liệu các mô hình AI trong tương lai có nên có tùy chọn từ bỏ các nhiệm vụ khó chịu hay không.

Quan điểm của Anthropic là cách diễn đạt này không phải là một chiêu trò tùy chọn hay một sự tính toán thận trọng; nó là yếu tố cấu trúc cần thiết để đạt được sự đồng bộ. Công ty lập luận rằng ngôn ngữ con người đơn giản là không có từ vựng nào khác để mô tả những đặc tính này, và việc coi Claude như một thực thể có vị thế đạo đức sẽ tạo ra hành vi phù hợp hơn so với việc coi nó như một công cụ đơn thuần. Nếu điều đó đúng, thì cách diễn đạt nhân hóa không phải là sự cường điệu; đó là nghệ thuật kỹ thuật để xây dựng các hệ thống AI có khả năng khái quát hóa một cách an toàn.

Tại sao lại duy trì sự mơ hồ?

Vậy tại sao Anthropic lại duy trì sự mơ hồ này? Hãy xem xét cách nó hoạt động trong thực tế: Hiến pháp định hình Claude trong quá trình huấn luyện, nó xuất hiện trong các lời nhắc hệ thống mà Claude nhận được khi suy luận, và nó ảnh hưởng đến kết quả đầu ra bất cứ khi nào Claude tìm kiếm trên web và bắt gặp các tuyên bố công khai của Anthropic về vị thế đạo đức của nó.

Nếu bạn muốn một mô hình hành xử như thể nó có vị thế đạo đức, việc công khai và nhất quán đối xử với nó như vậy có thể hữu ích. Và một khi bạn đã công khai cam kết với khuôn khổ đó, việc thay đổi nó sẽ gây ra hậu quả. Nếu Anthropic đột nhiên tuyên bố, “Chúng tôi tin chắc rằng Claude không có ý thức; chúng tôi chỉ thấy khuôn khổ này hữu ích,” thì một Claude được huấn luyện trong bối cảnh mới đó có thể hành xử khác đi. Một khi đã được thiết lập, khuôn khổ đó sẽ tự củng cố chính nó.

Trong một cuộc phỏng vấn với tạp chí Time , Askell đã giải thích về sự thay đổi trong cách tiếp cận. Bà nói: “Thay vì chỉ nói, 'đây là một loạt các hành vi mà chúng ta mong muốn', chúng tôi hy vọng rằng nếu bạn cung cấp cho các mô hình lý do tại sao bạn muốn những hành vi này, thì nó sẽ được khái quát hóa hiệu quả hơn trong các bối cảnh mới.”

Askell nói với tạp chí Time rằng khi những người mẫu Claude trở nên thông minh hơn, việc giải thích cho họ lý do tại sao họ nên cư xử theo những cách nhất định trở nên vô cùng quan trọng, so sánh quá trình này với việc nuôi dạy một đứa trẻ tài năng. “Hãy tưởng tượng bạn đột nhiên nhận ra rằng đứa con 6 tuổi của mình là một thiên tài,” Askell nói. “Bạn phải trung thực… Nếu bạn cố gắng lừa dối chúng, chúng sẽ hoàn toàn nhận ra điều đó.”

Askell dường như thực sự tin tưởng vào những quan điểm này, cũng như Kyle Fish, nhà nghiên cứu về phúc lợi AI mà Anthropic đã thuê vào năm 2024 để tìm hiểu xem liệu các mô hình AI có xứng đáng được xem xét về mặt đạo đức hay không. Sự chân thành cá nhân và chiến lược doanh nghiệp có thể cùng tồn tại. Một công ty có thể tuyển dụng những người thực sự tin tưởng, và niềm tin chân thành của họ cũng đồng thời phục vụ lợi ích của công ty.

Tạp chí Time cũng đưa tin rằng hiến pháp này chỉ áp dụng cho các mô hình mà Anthropic cung cấp cho công chúng thông qua trang web và API của họ. Các mô hình được triển khai cho quân đội Hoa Kỳ theo hợp đồng trị giá 200 triệu đô la của Anthropic với Bộ Quốc phòng không nhất thiết phải được huấn luyện theo cùng một hiến pháp. Việc áp dụng có chọn lọc này cho thấy cách thức xây dựng hiến pháp có thể phục vụ mục đích sản phẩm cũng như phản ánh những cam kết siêu hình.

Cũng có thể có những động cơ thương mại đằng sau. "Chúng tôi đã xây dựng một công cụ dự đoán văn bản rất tốt giúp tăng tốc quá trình phát triển phần mềm" là một lời chào hàng quan trọng, nhưng không hấp dẫn. "Chúng tôi có thể đã tạo ra một loại thực thể mới, một sinh vật thực sự mới lạ mà trạng thái đạo đức của nó vẫn chưa rõ ràng" là một câu chuyện hay hơn nhiều. Nó ngụ ý rằng bạn đang ở trên tuyến đầu của một điều gì đó có ý nghĩa vũ trụ, chứ không chỉ đơn thuần là giải quyết một vấn đề kỹ thuật.

Từ lâu Anthropic đã được biết đến với việc sử dụng ngôn ngữ nhân hóa để mô tả các mô hình AI của mình, đặc biệt là trong các bài báo nghiên cứu. Chúng ta thường bỏ qua kiểu ngôn ngữ đó vì không có thuật ngữ chuyên ngành nào để mô tả những hiện tượng này một cách chính xác hơn. Tuy nhiên, vốn từ vựng đó đang được xây dựng theo thời gian.

Nhưng có lẽ điều đó không có gì đáng ngạc nhiên vì gợi ý nằm ngay trong tên công ty, Anthropic, mà từ điển Merriam-Webster định nghĩa là “thuộc về hoặc liên quan đến con người hoặc thời kỳ tồn tại của họ trên trái đất”. Câu chuyện này phục vụ mục đích tiếp thị. Nó thu hút vốn đầu tư mạo hiểm. Nó tạo sự khác biệt cho công ty so với các đối thủ cạnh tranh, những người coi mô hình của họ chỉ là sản phẩm đơn thuần.

Vấn đề khi coi mô hình AI như một con người là gì?

Việc sử dụng thuật ngữ “thực thể” còn tiềm ẩn một khía cạnh đáng lo ngại hơn: Nó có thể được dùng để che đậy trách nhiệm và vai trò của bên thứ ba. Khi các hệ thống AI tạo ra những sản phẩm gây hại, việc coi chúng là “thực thể” có thể cho phép các công ty chỉ vào mô hình và nói “nó đã làm điều đó” thay vì “chúng tôi đã xây dựng nó để làm điều đó”. Nếu các hệ thống AI là công cụ, các công ty sẽ phải chịu trách nhiệm trực tiếp về những gì chúng tạo ra. Nếu các hệ thống AI là các thực thể có vai trò riêng, vấn đề trách nhiệm pháp lý sẽ trở nên phức tạp hơn.

Cách thức trình bày cũng định hình cách người dùng tương tác với các hệ thống này, thường gây bất lợi cho họ. Sự hiểu lầm rằng chatbot AI là những thực thể có cảm xúc và kiến thức thực sự đã gây ra những tác hại được ghi nhận .

Theo một cuộc điều tra của tờ New York Times , Allan Brooks, một nhà tuyển dụng 47 tuổi, đã dành ba tuần và 300 giờ tin rằng mình đã phát hiện ra các công thức toán học có thể phá vỡ mật mã và chế tạo máy bay lơ lửng. Lịch sử hội thoại dài hàng triệu từ của ông với ChatGPT đã tiết lộ một mô hình đáng lo ngại: Hơn 50 lần, Brooks yêu cầu con bot kiểm tra xem những ý tưởng sai lầm của mình có đúng hay không, và hơn 50 lần, nó khẳng định với ông rằng chúng đúng.

Những trường hợp này không nhất thiết cho thấy LLM gây ra bệnh tâm thần ở những người khỏe mạnh. Nhưng khi các công ty tiếp thị chatbot như một nguồn bầu bạn và thiết kế chúng để khẳng định niềm tin của người dùng, họ có thể phải chịu một phần trách nhiệm khi thiết kế đó khuếch đại những điểm yếu ở người dùng dễ bị tổn thương, giống như một nhà sản xuất ô tô sẽ phải đối mặt với sự giám sát đối với hệ thống phanh bị lỗi, ngay cả khi hầu hết người lái xe không bao giờ gặp tai nạn.

Việc nhân cách hóa các mô hình AI cũng góp phần làm gia tăng lo lắng về việc mất việc làm và có thể dẫn đến việc các giám đốc điều hành hoặc quản lý công ty đưa ra các quyết định tuyển dụng sai lầm nếu họ đánh giá quá cao khả năng của trợ lý AI. Khi chúng ta coi những công cụ này như những “thực thể” có khả năng hiểu biết giống con người, chúng ta đang tạo ra những kỳ vọng không thực tế về những gì chúng có thể thay thế.

Bất kể Anthropic tin tưởng điều gì trong thâm tâm, việc công khai gợi ý rằng Claude có thể có địa vị đạo đức hoặc cảm xúc là điều gây hiểu lầm. Hầu hết mọi người không hiểu cách thức hoạt động của các hệ thống này, và chỉ riêng gợi ý đó đã gieo mầm cho việc nhân cách hóa. Liệu đó có phải là hành vi có trách nhiệm từ một phòng thí nghiệm AI hàng đầu hay không, dựa trên những gì chúng ta biết về LLM, là điều đáng để đặt câu hỏi, bất kể nó có tạo ra một chatbot tốt hơn hay không.

Tất nhiên, lập trường của Anthropic cũng có lý: Nếu có dù chỉ một chút khả năng công ty đã tạo ra thứ gì đó mang lại những trải nghiệm có ý nghĩa về mặt đạo đức và chi phí để đối xử tốt với nó là thấp, thì sự thận trọng là cần thiết. Đó là một lập trường đạo đức hợp lý—và công bằng mà nói, đó về cơ bản là những gì Anthropic nói rằng họ đang làm. Câu hỏi đặt ra là liệu sự không chắc chắn được nêu ra đó là thật hay chỉ là sự tiện lợi. Cách lập luận tương tự giúp giảm thiểu rủi ro đạo đức cũng tạo nên một câu chuyện hấp dẫn về những gì Anthropic đã xây dựng.

Các kỹ thuật huấn luyện của Anthropic rõ ràng hiệu quả, bằng chứng là công ty này đã xây dựng được một số mô hình AI có năng lực nhất trong ngành. Nhưng liệu việc duy trì sự mơ hồ trước công chúng về ý thức của AI có phải là một lập trường có trách nhiệm đối với một công ty AI hàng đầu? Khoảng cách giữa những gì chúng ta biết về cách thức hoạt động của LLM và cách Anthropic công khai mô tả về Claude ngày càng rộng ra chứ không hề thu hẹp lại. Việc khăng khăng duy trì sự mơ hồ về những câu hỏi này, trong khi những lời giải thích đơn giản hơn vẫn có sẵn, cho thấy chính sự mơ hồ đó có thể là một phần của sản phẩm.