Cỗ máy tìm kiếm AI trong phòng giặt thách thức Google
Tìm kiếm AI từ phòng giặt - dự án nhỏ nhưng tham vọng
Một lập trình viên tên Ryan Pearce đã tự xây dựng hai công cụ tìm kiếm mang tên Searcha Page và Seek Ninja, vận hành ngay tại phòng giặt nhà mình, với mục tiêu thách thức Google. Anh đã sử dụng linh kiện máy chủ cũ, phần mềm tự viết, và AI để cải thiện truy vấn nhằm mang lại kết quả có chất lượng cao.
Cấu hình & môi trường “máy chủ phòng giặt”
Pearce dùng hai máy chủ trang bị vi xử lý AMD EPYC 7532 32 nhân (cũ khoảng 5 năm tuổi) vì chi phí thấp và hiệu năng đủ dùng.
Ban đầu đặt máy ở phòng ngủ nhưng gây nóng quá mức, nên anh chuyển vào phòng giặt — nơi có lỗ thông thoát nhiệt và vị trí dễ quản lý hơn.
Toàn bộ hệ thống cấp điện qua dây nối kéo dài, dây mạng đi qua lỗ khoan tường, máy chủ đặt trên kệ hoặc ghế nhỏ để cách mặt đất.
Có hệ thống thông gió tạm thời để thoát nhiệt khỏi phòng giặt.
Cách AI được ứng dụng trong việc tìm kiếm
Pearce không dùng AI để trả lời tự động câu truy vấn như ChatGPT, mà ông dùng học máy để:
Mở rộng từ khóa truy vấn (keyword expansion) nhằm hiểu rõ ý định người dùng.
Phân tích ngữ cảnh để tìm kết quả phù hợp hơn.
Giảm phụ thuộc vào mô hình ngôn ngữ lớn (large language models) để tiết kiệm tài nguyên phần cứng.
Anh tiết lộ mình đã viết khoảng 150.000 dòng mã nguồn, và thực ra đã từng thử nghiệm hơn 500.000 dòng mã trước khi tối ưu đủ để chạy trên phần cứng hạn chế.
Quy mô & kế hoạch mở rộng
Hiện hai công cụ Searcha Page và Seek Ninja đã index hơn 2 tỷ mục web — chưa lớn so với Google nhưng rất đáng kể với một hệ thống cá nhân.
Pearce dự định nhân đôi dung lượng index trong khoảng 6 tháng tới.
Anh còn cân nhắc chuyển hệ thống ra khỏi nhà để đặt gần như một trung tâm dữ liệu nhỏ, nhưng vẫn ưu tiên giữ việc quản lý trực tiếp hơn dùng đám mây.
Ưu điểm & thách thức
Ưu điểm:
Giảm chi phí vận hành so với hệ thống tìm kiếm quy mô lớn.
Quy mô nhỏ giúp tái test và tinh chỉnh dễ hơn.
Học máy tập trung vào cải thiện truy vấn — cách tiếp cận “ít ồn” nhưng hiệu quả.
Thách thức:
Tốc độ cập nhật & khả năng mở rộng chưa thể so với Google.
Việc nhiệt độ, ổn định phần cứng và quản lý máy chủ tại nhà đặt ra rủi ro.
Nguồn lực, chi phí mạng và bảo trì sẽ tăng khi mở rộng hơn nữa.
