Wikimedia muốn giúp bạn và các nhà phát triển AI dễ dàng tìm kiếm dữ liệu của mình hơn
Nhà văn người Anh quá cố Douglas Adams được biết đến nhiều nhất với cuốn tiểu thuyết năm 1979 The Hitchhiker’s Guide to the Galaxy (Cẩm nang đi xe xuyên dải Ngân Hà). Nhưng còn nhiều điều hơn thế về Adams mà bài viết Wikipedia của ông chưa thể hiện hết. Nếu bạn muốn biết rằng ông thuộc cung Song Ngư, hay rằng các thư viện trên toàn thế giới lưu trữ sách của ông dưới cùng một dãy số — 13230702 — thì bạn có thể tìm đến Wikidata, một dự án ít được chú ý trong hệ sinh thái Wikimedia.
Tại đó, hình ảnh, văn bản, từ khóa và nhiều thông tin khác liên quan đến Adams được lưu trữ không chỉ trên một trang web mà còn ở các định dạng dành cho máy móc, như JSON, giúp robot (và AI) dễ đọc.
Giờ đây, Wikidata đang được nâng cấp với một cơ sở dữ liệu thân thiện với AI hơn, giúp các mô hình ngôn ngữ lớn (LLMs) dễ dàng tiếp thu thông tin. Cơ sở dữ liệu này đến từ Dự án Wikidata Embedding, do Wikimedia Deutschland (chi nhánh Wikimedia Đức) phát triển – đơn vị giám sát Wikidata. Nhóm tại Berlin đã dành một năm qua sử dụng một mô hình ngôn ngữ lớn để biến 30 triệu mục dữ liệu trong Wikidata từ dạng cấu trúc cứng nhắc thành vector – dạng biểu diễn nắm bắt ngữ cảnh và ý nghĩa của từng mục.
Dữ liệu dạng vector này có thể được hình dung như một đồ thị gồm các điểm và đường liên kết – ví dụ, “Douglas Adams” sẽ được nối với các khái niệm như “con người” và “tác phẩm của ông”, theo chia sẻ của Lydia Pintscher, trưởng dự án Wikidata.
Dù trải nghiệm người dùng ở giao diện chính sẽ không thay đổi — tức là Wikipedia không biến thành chatbot, các trưởng dự án khẳng định — nhưng phần nền dữ liệu sẽ trở nên dễ truy cập hơn cho các nhà phát triển AI muốn xây dựng công cụ riêng dựa trên dữ liệu này.
Mục tiêu của dự án, theo Pintscher, là tạo cơ hội công bằng hơn cho các nhà phát triển AI nhỏ lẻ, vốn không có nguồn lực như các “ông lớn” công nghệ. Bà nói:
“Thực ra, với tôi, điều này là để giúp họ có thêm lợi thế — ít nhất là có một cơ hội để cạnh tranh.”
Pintscher dẫn ví dụ về Govdirectory, một dự án tận dụng dữ liệu khổng lồ do các tình nguyện viên Wikidata đóng góp, để giúp người dùng tìm địa chỉ email và tài khoản mạng xã hội của các quan chức chính phủ trên toàn cầu.
Phần lớn các chatbot AI hiện nay ưu tiên những chủ đề phổ biến trên Internet. Do đó, nhóm phát triển hy vọng rằng việc mở rộng khả năng truy cập vào dữ liệu Wikidata sẽ giúp AI phản ánh tốt hơn các chủ đề nhỏ, ít được đề cập, thay vì chỉ tập trung vào những gì “nổi bật” trên mạng. Theo Pintscher, đây có thể là cách hiệu quả hơn để đưa thông tin vào ChatGPT so với việc “tạo ra hàng đống nội dung rồi chờ lần huấn luyện tiếp theo, mà chưa chắc nó đã được tính đến.”
Trong thực tế, các vector sẽ giúp AI hiểu rõ hơn bối cảnh xung quanh thông tin, chứ không chỉ nắm được bản thân thông tin, theo Philippe Saadé, quản lý dự án AI của Wikidata.
Nhóm sử dụng một mô hình của công ty AI Jina AI để biến dữ liệu cấu trúc của Wikidata (tính đến 18/9/2024) thành vector. DataStax, công ty con của IBM, hiện đang tài trợ hạ tầng lưu trữ cơ sở dữ liệu vector này miễn phí cho dự án.
Nhóm hiện chờ phản hồi từ các nhà phát triển sử dụng cơ sở dữ liệu trước khi cập nhật thêm thông tin mới trong năm qua. Dù cơ sở dữ liệu hiện tại chưa bao gồm các mục mới hoàn toàn, Saadé cho biết những chỉnh sửa nhỏ trên Wikidata cũng không ảnh hưởng nhiều đến giá trị tổng thể của vector:
“Về cơ bản, vector mà chúng tôi tạo ra phản ánh ý nghĩa tổng quát của một mục, nên vài thay đổi nhỏ cũng không quá quan trọng.”
(Bản chỉnh sửa ngày 1/10: Bài viết trước đó ghi sai số lượng mục dữ liệu là 19 triệu — con số đúng là 30 triệu. Tên dự án cũng được sửa từ “Wikipedia Embedding Project” thành “Wikidata Embedding Project”, và phần nhắc đến Wikimedia Foundation được điều chỉnh thành Wikimedia Movement.)