Các nhà nghiên cứu tại MIT sử dụng trò chơi kinh điển này làm nền tảng thử nghiệm cho các tác nhân AI.
Năm 2026, sự chú ý dành cho các tác nhân trí tuệ nhân tạo đang lên cao hơn bao giờ hết. Đây là những chương trình bán tự động có khả năng “suy nghĩ” và thực hiện các nhiệm vụ được xác định tương đối rõ, chẳng hạn trong chăm sóc khách hàng hay phát triển phần mềm. Phần lớn các tác nhân này vận hành dựa trên mô hình ngôn ngữ. Tuy nhiên, trong những lĩnh vực như chẩn đoán y khoa hay khám phá khoa học, chúng không chỉ cần trả lời đúng, mà còn phải biết đặt câu hỏi đúng. Đây vẫn là điểm yếu lớn của nhiều mô hình ngôn ngữ hiện nay.
Để hiểu rõ hơn vấn đề này, các nhà nghiên cứu tại Phòng thí nghiệm Khoa học máy tính và Trí tuệ nhân tạo của MIT (CSAIL) và Trường Kỹ thuật và Khoa học Ứng dụng Harvard (SEAS) đã chọn một phép thử thú vị: trò chơi “Battleship” – trò chơi đoán vị trí tàu quen thuộc, vốn từng được các nhà khoa học nhận thức sử dụng để nghiên cứu cách con người tìm kiếm thông tin.

Từ trò chơi Battleship đến khám phá khoa học: AI đang học cách thu hẹp dần những điều chưa biết. Ảnh: Midjourney
Nhóm nghiên cứu điều chỉnh trò chơi này thành một phiên bản mới có tên “Collaborative Battleship”. Trong đó, một người chơi đóng vai “thuyền trưởng”, đặt câu hỏi để tìm vị trí các con tàu bị giấu; người còn lại đóng vai “người quan sát”, trả lời các câu hỏi đó theo thời gian thực. Điểm đặc biệt là toàn bộ quá trình hỏi – đáp được diễn ra bằng ngôn ngữ tự nhiên.
Trước hết, nhóm nghiên cứu cho hơn 40 người chơi cùng tham gia trò chơi, thu thập các câu hỏi và câu trả lời có/không để xây dựng bộ dữ liệu “BattleshipQA”. Bộ dữ liệu này trở thành chuẩn so sánh khi họ thử nghiệm các mô hình ngôn ngữ tiên tiến, như GPT-5, cùng các mô hình nhỏ hơn, như Llama 4 Scout. Khi chưa được huấn luyện bổ sung, các mô hình hàng đầu có thể “đánh bại” con người trong Battleship, tức hoàn thành trò chơi với ít lượt hơn. Tuy nhiên, các mô hình nhỏ lại kém hợp lý hơn nhiều trong cách đặt câu hỏi.
Vấn đề cốt lõi là nhiều mô hình không giỏi tự nghĩ ra những câu hỏi thật sự hữu ích. Để giúp chúng hỏi theo cách khai thác được nhiều thông tin hơn về vị trí tàu ẩn, nhóm nghiên cứu trang bị cho mỗi mô hình một chiến lược suy luận Monte Carlo. Cách tiếp cận này giúp mô hình liên tục đánh giá xác suất đúng của các khả năng khác nhau sau mỗi câu trả lời. Nhờ đó, mô hình có thể chọn câu hỏi kế tiếp một cách có tính toán hơn, thay vì hỏi rời rạc hoặc thiếu chiến lược.
Kết quả đáng chú ý nhất đến từ Llama 4 Scout. Ban đầu, mô hình tương đối nhỏ này chỉ thắng con người trong 8% số lượt chơi. Nhưng sau khi được cải thiện chiến lược suy luận, tỷ lệ thắng tăng lên 82%. Đáng nói hơn, nhờ cách đặt câu hỏi cẩn trọng và hiệu quả, Llama 4 Scout còn có thể vượt qua một mô hình tuyến đầu như GPT-5, trong khi chi phí vận hành chỉ khoảng 1%.
Bên cạnh việc giúp mô hình hỏi tốt hơn, nhóm nghiên cứu cũng tìm cách cải thiện khả năng trả lời câu hỏi. Trong vai trò “người quan sát”, GPT-5 khá đáng tin cậy và giúp trò chơi kết thúc nhanh hơn. Nhưng các mô hình nhỏ thường mắc lỗi khi trả lời về vị trí tàu. Để khắc phục, nhóm nghiên cứu yêu cầu mô hình chuyển câu hỏi tự nhiên thành mã lệnh, qua đó chỉ rõ cách kiểm tra câu trả lời.
Ví dụ, câu hỏi “Có con tàu nào ở cột một và kéo dài qua hai hàng không?” sẽ được chuyển thành chỉ dẫn để mô hình tìm trong khu vực tương ứng và xác định kích thước của quân cờ. Khi được đưa ra hướng dẫn rõ ràng bằng Python – một ngôn ngữ mà mô hình xử lý tốt – độ chính xác của các hệ thống tăng trung bình 15%. Riêng GPT-4o-mini tăng gần 30 điểm phần trăm, còn Claude 4 Opus cũng tăng khoảng 8 điểm.
Nhóm nghiên cứu cũng thử nghiệm phương pháp này với trò chơi “Guess Who?”, nơi người chơi phải thu hẹp dần 100 lựa chọn để đoán đúng nhân vật bí mật. Llama 4 Scout ban đầu chỉ thành công 30% số lượt, nhưng sau điều chỉnh đã hoàn thành nhiệm vụ trong hơn 72% lượt chơi. GPT-4o cũng tăng từ 62% lên 90%. Trong các thử nghiệm này, GPT-5 được dùng làm “người quan sát” để bảo đảm câu trả lời có độ chính xác cao nhất có thể.
Dù vậy, các mô hình vẫn còn giới hạn. Chúng vẫn gặp khó khi phải trả lời những câu hỏi phức tạp, đặc biệt nếu so với người chơi giàu kinh nghiệm. Valerio Pepe, nhà nghiên cứu OpenAI, cựu sinh viên Harvard và đồng tác giả nghiên cứu, nhận xét rằng GPT-5 có thể thắng người chơi Battleship trung bình và còn nhỉnh hơn khi dùng phương pháp mới, nhưng những người chơi chuyên nghiệp vẫn là thử thách khó với mọi mô hình. Điều này khác với cờ vua, nơi những kỳ thủ hàng đầu cũng khó thắng được hệ thống AI.
Ý nghĩa rộng hơn của nghiên cứu nằm ở khả năng ứng dụng vào các bài toán “mò kim đáy bể” – những tình huống phải tìm một lời giải hiếm trong không gian lựa chọn khổng lồ, chẳng hạn xác định cấu trúc phân tử của một hợp chất hoặc hỗ trợ khám phá khoa học. Nếu biết đặt câu hỏi tốt hơn, các tác nhân AI có thể trở thành trợ lý nghiên cứu mạnh mẽ hơn, không chỉ trả lời mà còn chủ động định hướng quá trình tìm kiếm.
(Theo MIT News)