Microsoft xóa bài đăng trên blog hướng dẫn người dùng huấn luyện trí tuệ nhân tạo bằng sách Harry Potter lậu.

Tác giả dangkhoa 23/02/2026 26 phút đọc

Microsoft xóa bài đăng trên blog hướng dẫn người dùng huấn luyện trí tuệ nhân tạo bằng sách Harry Potter lậu.

Bộ dữ liệu Harry Potter hiện đã bị xóa được đánh dấu là thuộc phạm vi công cộng một cách "nhầm lẫn".

Microsoft đã tạo ra một hình ảnh Harry Potter bằng trí tuệ nhân tạo với logo của Microsoft trong một bài đăng trên blog hiện đã bị xóa. Nguồn: từ bài đăng trên blog đã bị xóa của Microsoft.

Sau phản ứng dữ dội trên diễn đàn Hacker News , Microsoft đã xóa một bài đăng trên blog mà các nhà phê bình cho rằng khuyến khích các nhà phát triển sao chép trái phép sách Harry Potter để huấn luyện các mô hình AI, từ đó tạo ra những sản phẩm AI kém chất lượng.

Bài đăng trên blog, được lưu trữ tại đây , được viết vào tháng 11 năm 2024 bởi Pooja Kamath, một quản lý sản phẩm cấp cao. Theo hồ sơ LinkedIn của cô, Kamath đã làm việc tại Microsoft hơn một thập kỷ và vẫn đang công tác tại công ty. Năm 2024, Microsoft đã mời cô quảng bá một tính năng mới mà bài đăng trên blog cho biết giúp dễ dàng hơn trong việc “thêm các tính năng AI tạo sinh vào ứng dụng của riêng bạn chỉ với một vài dòng mã bằng cách sử dụng

Theo blog này, không có cách nào tốt hơn để giới thiệu "những ví dụ hấp dẫn và dễ hiểu" về tính năng mới của Microsoft, vốn sẽ "gây được tiếng vang với đông đảo người dùng", ngoài việc "sử dụng một bộ dữ liệu nổi tiếng" như sách Harry Potter.

Bài đăng trên blog nhận xét rằng bộ sách này là “một trong những loạt sách nổi tiếng và được yêu thích nhất trong lịch sử văn học”, và người hâm mộ có thể sử dụng các LLM mà họ đã huấn luyện theo hai cách thú vị: xây dựng hệ thống hỏi đáp cung cấp “câu trả lời giàu ngữ cảnh” và tạo ra “truyện fanfic Harry Potter mới do AI điều khiển” chắc chắn sẽ làm hài lòng các Potterhead.

Để giúp khách hàng của Microsoft hiện thực hóa tầm nhìn này, bài đăng trên blog đã liên kết đến một bộ dữ liệu Kaggle bao gồm cả bảy cuốn sách Harry Potter, mà theo xác minh của Ars, đã có sẵn trực tuyến trong nhiều năm và bị đánh dấu sai là "thuộc phạm vi công cộng". Điều khoản của Kaggle quy định rằng chủ sở hữu bản quyền có thể gửi thông báo về nội dung vi phạm, và những người vi phạm nhiều lần có nguy cơ bị đình chỉ, nhưng những người bình luận trên Hacker News suy đoán rằng bộ dữ liệu Harry Potter đã không được chú ý, chỉ có khoảng 10.000 lượt tải xuống theo thời gian, không thu hút sự chú ý của JK Rowling, người nổi tiếng là nắm giữ bản quyền Harry Potter rất chặt chẽ. Bộ dữ liệu đã nhanh chóng bị xóa vào thứ Năm sau khi Ars liên hệ với người tải lên, Shubham Maindola, một nhà khoa học dữ liệu ở Ấn Độ không có liên hệ rõ ràng nào với Microsoft.

Maindola nói với Ars rằng “bộ dữ liệu đã bị đánh dấu là thuộc phạm vi công cộng do nhầm lẫn. Không có ý định xuyên tạc tình trạng cấp phép của các tác phẩm.”

Không rõ liệu Kamath được yêu cầu liên kết đến bộ dữ liệu sách Harry Potter trong bài đăng trên blog hay đó là lựa chọn cá nhân của ông. Cathay YN Smith, giáo sư luật và đồng giám đốc Chương trình Luật Sở hữu Trí tuệ của Trường Luật Chicago-Kent, nói với Ars rằng Kamath có thể không nhận ra rằng những cuốn sách đó mới xuất bản gần đây nên chưa thuộc phạm vi công cộng.

“Một người có thể rất am hiểu về sách và công nghệ, nhưng không nhất thiết phải am hiểu về các điều khoản bản quyền và thời hạn hiệu lực của chúng,” Smith nói. “Đặc biệt là nếu người đó thấy rằng một tác phẩm nào đó đã được một công ty uy tín khác đánh dấu là thuộc phạm vi công cộng.”

Microsoft từ chối yêu cầu bình luận từ Ars. Kaggle cũng không phản hồi yêu cầu bình luận từ Ars.

Microsoft "có lẽ đã khôn ngoan" khi gỡ bỏ bài đăng trên blog.

Trên Hacker News, các bình luận viên cho rằng khó có ai quen thuộc với loạt phim nổi tiếng này tin rằng sách Harry Potter thuộc phạm vi công cộng. Họ tranh luận liệu bài đăng trên blog của Microsoft có "gây vấn đề về bản quyền" hay không, vì Microsoft không chỉ khuyến khích khách hàng tải xuống các tài liệu vi phạm bản quyền mà còn sử dụng chính những cuốn sách đó để tạo ra các mô hình AI Harry Potter dựa trên các nhân vật được yêu thích để quảng bá sản phẩm của Microsoft.

Bài đăng trên blog của Microsoft được đăng tải cách đây hơn một năm, vào thời điểm các công ty AI bắt đầu phải đối mặt với các vụ kiện liên quan đến các mô hình AI, bị cáo buộc vi phạm bản quyền bằng cách huấn luyện trên các tài liệu lậu và sao chép nguyên văn các tác phẩm.

Bài đăng trên blog khuyên người dùng nên học cách huấn luyện mô hình AI của riêng mình bằng cách tải xuống bộ dữ liệu Harry Potter và sau đó tải các tệp văn bản lên Azure Blob Storage. Bài đăng bao gồm các mô hình ví dụ dựa trên bộ dữ liệu mà Microsoft dường như đã tải lên Azure Blob Storage, chỉ bao gồm cuốn sách đầu tiên, Harry Potter và Hòn đá phù thủy .

Bằng cách huấn luyện các mô hình ngôn ngữ lớn (LLM) trên các tệp văn bản, người hâm mộ Harry Potter có thể tạo ra các hệ thống hỏi đáp có khả năng trích xuất các đoạn trích liên quan từ sách. Một ví dụ về truy vấn được đưa ra là “Đồ ăn vặt của Thế giới Phù thủy”, đã truy xuất một đoạn trích từ cuốn Harry Potter và Hòn đá Phù thủy, trong đó Harry ngạc nhiên trước những món ăn kỳ lạ như kẹo Bertie Bott's Every Flavor Beans và những con ếch sô cô la. Một câu hỏi khác như “Harry cảm thấy thế nào khi lần đầu tiên biết mình là một phù thủy?” đã tạo ra kết quả trỏ đến nhiều đoạn trích đầu tiên trong cuốn sách.

Nhưng có lẽ một trường hợp sử dụng thú vị hơn nữa, theo gợi ý của Kamath, là tạo ra các tác phẩm fan fiction để “khám phá những cuộc phiêu lưu mới” và “thậm chí tạo ra những kết thúc khác”. Mô hình đó có thể nhanh chóng rà soát tập dữ liệu để tìm các đoạn trích “tương tự về ngữ cảnh” có thể được sử dụng để tạo ra những câu chuyện mới phù hợp với các câu chuyện hiện có và kết hợp “các yếu tố từ các đoạn văn đã được tìm thấy”, bài đăng trên blog cho biết.

Ví dụ, Kamath đã huấn luyện một mô hình viết một câu chuyện về Harry Potter mà cô ấy có thể sử dụng để tiếp thị tính năng mà cô ấy đang viết trên blog. Cô ấy yêu cầu mô hình viết một câu chuyện trong đó Harry gặp một người bạn mới trên chuyến tàu Hogwarts Express, người kể cho cậu ấy nghe tất cả về tính năng Hỗ trợ Vector Gốc của Microsoft trong SQL “ở thế giới Muggle”.

Dựa trên một số đoạn trong "Hòn đá phù thủy" nơi Harry học về Quidditch và làm quen với Hermione Granger, truyện fan fiction này miêu tả một cậu bé đang thuyết phục Harry về tính năng mới "tuyệt vời" của Microsoft. Để làm điều đó, cậu ta ví tính năng này như một câu thần chú giúp bạn tìm thấy chính xác những gì mình cần trong số hàng ngàn lựa chọn, ngay lập tức, đồng thời tuyên bố nó hoàn hảo cho máy học, trí tuệ nhân tạo và hệ thống đề xuất.

Để làm mờ thêm ranh giới giữa thương hiệu Microsoft và Harry Potter, Kamath cũng tạo ra một hình ảnh cho thấy Harry cùng người bạn mới của mình, có in logo của Microsoft.

Smith nói với Ars rằng cả hai trường hợp sử dụng đều có thể gây khó chịu cho các chủ sở hữu bản quyền, tùy thuộc vào nội dung trong kết quả đầu ra của mô hình.

“Tôi nghĩ rằng việc sao chép và sáng tạo truyện fan fiction đều có thể gây ra vấn đề bản quyền, bởi vì fan fiction thường phải sử dụng các yếu tố biểu đạt, một nhân vật có bản quyền, một nhân vật đủ nổi tiếng để được bảo vệ bởi luật bản quyền, hoặc cốt truyện hay các phân cảnh,” Smith nói. “Nếu những thứ này được sao chép và tái tạo, thì sản phẩm đó có thể vi phạm bản quyền.”

Nhưng đây vẫn là một vấn đề chưa rõ ràng. Nhìn vào bài đăng trên blog, Smith nói, "Tôi sẽ lo ngại," nhưng "tôi sẽ không nói rằng đó là hành vi vi phạm bản quyền ngay lập tức."

Smith nói với Ars rằng, việc Microsoft gỡ bỏ bài đăng trên blog “có lẽ là một quyết định sáng suốt”, vì các tòa án thường chỉ cho rằng việc huấn luyện AI bằng sách có bản quyền là sử dụng hợp pháp. Tuy nhiên, các tòa án vẫn tiếp tục điều tra các vấn đề liên quan đến tài liệu huấn luyện AI bị sao chép trái phép.

Trên trang dữ liệu Kaggle đã bị xóa, Maindola trước đó đã giải thích rằng để thu thập dữ liệu, anh ấy đã "tải xuống các ebook và sau đó chuyển đổi chúng thành các tệp txt."

Microsoft có thể đã vi phạm bản quyền.

Nếu Microsoft từng phải đối mặt với những câu hỏi về việc liệu công ty có cố tình sử dụng sách lậu để huấn luyện các mô hình ví dụ hay không, thì việc viện dẫn lý do sử dụng hợp lý “có thể sẽ rất khó khăn”, Smith nói.

Các bình luận viên trên Hacker News cho rằng bài đăng trên blog có thể được coi là sử dụng hợp lý, vì hướng dẫn đào tạo này dành cho "mục đích giáo dục", và Smith nói rằng Microsoft có thể đưa ra một số "lý lẽ thuyết phục" để tự vệ.

Tuy nhiên, bà cũng cho rằng Microsoft có thể phải chịu trách nhiệm ở một mức độ nào đó vì đã góp phần vào hành vi vi phạm bản quyền sau khi để blog đó hoạt động trong suốt một năm. Trước khi bị gỡ bỏ, bộ dữ liệu Kaggle đã được tải xuống hơn 10.000 lần.

“Kết quả cuối cùng là tạo ra thứ gì đó vi phạm bản quyền bằng cách nói, 'Này, đây, hãy lấy thứ vi phạm bản quyền đó và sử dụng nó trong hệ thống của chúng tôi,'” Smith nói. “Họ có thể phải chịu trách nhiệm gián tiếp về hành vi vi phạm bản quyền, vì đã tải xuống nó, cũng như sử dụng nó để khuyến khích người khác sử dụng cho mục đích đào tạo.”

Trên Hacker News, nhiều người bình luận đã chỉ trích gay gắt bài đăng trên blog, trong đó có một người tự nhận là cựu nhân viên của Microsoft, người này cho rằng Microsoft cho phép nhân viên "viết blog mà không cần phải trải qua bất kỳ quy trình phê duyệt hoặc chỉnh sửa nào."

“Có vẻ như ai đó đã đưa ra quyết định sai lầm về nội dung cần đăng trên blog của công ty (và có thể cả về hoạt động nào được coi là hợp đạo đức) và bài đăng đã bị gỡ xuống ngay khi có người phát hiện ra”, cựu nhân viên này cho biết.

Một số người khác cho rằng lỗi hoàn toàn thuộc về người tải lên Kaggle, Maindola, người đã nói với Ars rằng bộ dữ liệu lẽ ra không bao giờ được đánh dấu là "phạm vi công cộng". Nhưng những người chỉ trích Microsoft đã phản bác, lưu ý rằng trang Kaggle đã nêu rõ rằng không có sự cho phép đặc biệt nào được cấp và nhân viên của Microsoft lẽ ra phải biết rõ hơn. "Họ không cần biết bất kỳ chi tiết nào để biết rằng những tài sản này thuộc về các công ty lớn và không thể tùy tiện sử dụng", một người bình luận nói.

Theo ghi chú trong bài viết, sách Harry Potter không phải là mục tiêu duy nhất bị nhắm đến, và bài viết dẫn đến một mẫu Azure riêng biệt chứa bộ truyện Foundation của Isaac Asimov, vốn cũng không thuộc phạm vi công cộng.

“Microsoft có thể sử dụng bất kỳ bộ dữ liệu nào cho blog của họ, thậm chí họ có thể chọn sử dụng các tiểu thuyết thuộc phạm vi công cộng,” một người bình luận khác trên Hacker News viết. “Thay vào đó, họ lại chọn sử dụng các tác phẩm có bản quyền mà JK chưa phát hành ra công chúng (trừ khi người dùng 'Shubham Maindola' là biệt danh của JK).”

Smith cho rằng Microsoft có thể tránh được phản ứng dữ dội tuần này bằng cách xem xét kỹ lưỡng hơn các bài đăng trên blog, lưu ý rằng “nếu một công ty ngại rủi ro, điều này có lẽ sẽ bị gắn cờ”. Nhưng bà cũng hiểu lý do Kamath thích Harry Potter hơn nhiều nhân vật đã bị lãng quên từ lâu thuộc phạm vi công cộng. Trên Hacker News, một số người bình luận đã bảo vệ blog của Kamath, cho rằng nó nên được coi là sử dụng hợp lý vì các tổ chức phi lợi nhuận và các tổ chức giáo dục có thể làm điều tương tự trong bối cảnh giảng dạy mà không gặp vấn đề gì.