Trong bối cảnh AI ngày càng được ứng dụng rộng rãi vào các lĩnh vực, từ y tế đến giao thông, khả năng giải thích không còn là một tính năng bổ sung – mà trở thành điều kiện tiên quyết.
Trong những lĩnh vực quan trọng như chẩn đoán y khoa hay xe tự hành, việc một mô hình AI đưa ra dự đoán là chưa đủ. Điều người dùng thực sự cần là hiểu được tại sao hệ thống lại đưa ra kết luận đó, từ đó quyết định có nên tin tưởng hay không. Đây chính là bài toán cốt lõi của “AI có thể giải thích” (Explainable AI).

Từ ‘hộp đen’ đến AI đáng tin cậy – khi khả năng giải thích mở lối minh bạch. Ảnh: Midjourney
Một hướng tiếp cận nổi bật trong lĩnh vực này là mô hình “nút thắt khái niệm” (concept bottleneck model – CBM). Phương pháp này buộc hệ thống học sâu không chỉ đưa ra dự đoán cuối cùng, mà còn phải đi qua một lớp trung gian gồm các “khái niệm” có thể hiểu được đối với con người. Ví dụ, khi phân tích hình ảnh y khoa, mô hình có thể dựa trên các dấu hiệu như “cụm chấm nâu” hay “sắc tố không đồng đều” để kết luận về khả năng ung thư da.
Tuy nhiên, các khái niệm này thường được định nghĩa sẵn bởi chuyên gia hoặc sinh ra từ các mô hình ngôn ngữ lớn. Điều này dẫn đến một vấn đề: chúng có thể không phù hợp với nhiệm vụ cụ thể hoặc không đủ chi tiết, làm giảm độ chính xác của hệ thống. Thậm chí, mô hình còn có thể “lén” sử dụng những đặc trưng khác ngoài các khái niệm được chỉ định – hiện tượng gọi là “rò rỉ thông tin” (information leakage).
Khai thác tri thức sẵn có của mô hình
Nhóm nghiên cứu từ MIT và Đại học Bách khoa Milan đề xuất một cách tiếp cận mới: thay vì áp đặt các khái niệm từ bên ngoài, họ trích xuất chính những khái niệm mà mô hình đã tự học trong quá trình huấn luyện. Ý tưởng cốt lõi là các mô hình học sâu, sau khi được huấn luyện trên dữ liệu lớn, đã hình thành những biểu diễn nội tại giàu thông tin; nếu “dịch” được chúng sang ngôn ngữ con người, ta có thể vừa giữ độ chính xác vừa tăng khả năng giải thích.
Phương pháp sử dụng hai thành phần chính. Trước hết, một sparse autoencoder chọn lọc các đặc trưng quan trọng và tái cấu trúc thành số ít khái niệm. Sau đó, mô hình ngôn ngữ đa phương thức diễn giải các khái niệm này bằng ngôn ngữ tự nhiên và tự động gán nhãn dữ liệu. Từ đó, một mô-đun “nút thắt khái niệm” được huấn luyện, buộc mô hình chỉ dựa vào các khái niệm đã trích xuất để dự đoán. Nhờ vậy, các mô hình thị giác máy tính có thể được chuyển đổi thành phiên bản minh bạch và dễ hiểu hơn.
Kiểm soát tư duy của AI
Một thách thức lớn của phương pháp là đảm bảo các khái niệm trích xuất thực sự có ý nghĩa với con người. Nhóm nghiên cứu phải kiểm soát chặt việc gán nhãn của mô hình ngôn ngữ và đánh giá khả năng diễn giải của các khái niệm do autoencoder tạo ra. Để hạn chế rò rỉ thông tin, họ giới hạn mỗi dự đoán chỉ dùng tối đa năm khái niệm, buộc mô hình chọn những đặc trưng quan trọng nhất và giúp giải thích ngắn gọn, rõ ràng hơn. Kết quả, phương pháp này vượt trội so với các CBM hiện có, vừa nâng cao độ chính xác, vừa cung cấp các giải thích sát thực tế hơn.
Cân bằng giữa độ chính xác và khả năng giải thích
Dù đạt nhiều kết quả ấn tượng, nhóm nghiên cứu cũng thừa nhận vẫn tồn tại sự đánh đổi giữa độ chính xác và khả năng giải thích. Các mô hình “hộp đen” không minh bạch vẫn có thể đạt hiệu suất cao hơn trong một số trường hợp.
Tuy vậy, phương pháp mới mở ra một hướng đi đầy hứa hẹn: xây dựng các hệ thống AI vừa mạnh mẽ vừa có thể kiểm chứng. Trong tương lai, nhóm nghiên cứu dự định tiếp tục giải quyết vấn đề rò rỉ thông tin, có thể bằng cách bổ sung nhiều lớp “nút thắt khái niệm” để kiểm soát chặt hơn quá trình suy luận của mô hình.
Họ cũng lên kế hoạch mở rộng quy mô bằng cách sử dụng các mô hình ngôn ngữ đa phương thức lớn hơn để gán nhãn cho tập dữ liệu lớn hơn, từ đó cải thiện hiệu suất tổng thể.
Bước tiến hướng tới AI minh bạch
Theo các chuyên gia, điểm đột phá của nghiên cứu này nằm ở việc xây dựng cầu nối giữa AI học sâu và các hệ thống tri thức có cấu trúc như đồ thị tri thức. Thay vì phụ thuộc hoàn toàn vào các khái niệm do con người định nghĩa, phương pháp mới cho phép khai thác trực tiếp “tư duy nội tại” của mô hình.
Điều này không chỉ giúp các giải thích trở nên trung thực hơn với cách AI thực sự hoạt động, mà còn mở ra nhiều hướng nghiên cứu mới, đặc biệt trong việc kết hợp AI học sâu với AI ký hiệu.
Trong bối cảnh AI ngày càng được ứng dụng rộng rãi vào các lĩnh vực, từ y tế đến giao thông, khả năng giải thích không còn là một tính năng bổ sung – mà trở thành điều kiện tiên quyết. Những tiến bộ như nghiên cứu này đang góp phần biến AI từ một “hộp đen” khó hiểu thành một công cụ minh bạch, đáng tin cậy và có trách nhiệm hơn.
(Nguồn: MIT News)