Home » Tin tức » Cách tiếp cận mới để tạo hình 3D chân thực bằng AI tạo sinh

Cách tiếp cận mới để tạo hình 3D chân thực bằng AI tạo sinh

Các nhà nghiên cứu đề xuất một giải pháp đơn giản có thể giúp các nghệ sĩ, nhà thiết kế và kỹ sư tạo ra các mô hình 3D tốt hơn.

Việc tạo ra các mô hình 3D chân thực để sử dụng trong thực tế ảo, điện ảnh, hoặc thiết kế kỹ thuật là một quá trình phức tạp, đòi hỏi nhiều thao tác thủ công và thử – sai liên tục.

Trong khi các mô hình AI tạo sinh cho hình ảnh 2D có thể đơn giản hóa quá trình sáng tạo bằng cách cho phép người dùng tạo ảnh từ văn bản, thì các mô hình này lại không được thiết kế để sinh ra hình dạng 3D. Nhằm thu hẹp khoảng cách này, một kỹ thuật gần đây có tên gọi Score Distillation đã được phát triển để tận dụng mô hình tạo ảnh 2D trong việc tạo ra các hình dạng 3D. Tuy nhiên, kết quả thường bị mờ hoặc giống hoạt hình, thiếu tính chân thực.

Kỹ thuật mới cho phép tạo ra các hình ảnh con ong robot dạng 3D sắc nét và sống động. Ảnh: MIT News

Các nhà nghiên cứu tại MIT đã khảo sát mối quan hệ và sự khác biệt giữa các thuật toán tạo ảnh 2D và hình dạng 3D, từ đó xác định nguyên nhân chính dẫn đến chất lượng thấp ở các mô hình 3D. Dựa vào đó, họ đã đưa ra một điều chỉnh đơn giản cho kỹ thuật Score Distillation, giúp tạo ra các hình dạng 3D sắc nét, chất lượng cao – tiệm cận với hình ảnh 2D do AI tạo sinh tốt nhất hiện nay.

Một số phương pháp khác cố gắng khắc phục vấn đề này bằng cách huấn luyện lại hoặc tinh chỉnh mô hình AI tạo sinh, nhưng điều đó tốn kém và mất nhiều thời gian.

Ngược lại, kỹ thuật của nhóm MIT đạt được chất lượng 3D ngang bằng, thậm chí vượt trội mà không cần huấn luyện thêm hay xử lý hậu kỳ phức tạp.

Bằng cách xác định nguyên nhân của vấn đề, các nhà nghiên cứu đã làm rõ hơn bản chất toán học của Score Distillation và các kỹ thuật liên quan, mở đường cho các nghiên cứu tiếp theo nhằm cải thiện hiệu suất.

“Giờ đây, chúng ta biết mình nên đi theo hướng nào, điều đó cho phép chúng ta tìm ra các giải pháp hiệu quả hơn, nhanh hơn và chất lượng cao hơn”, Artem Lukoianov – nghiên cứu sinh ngành kỹ thuật điện và khoa học máy tính (EECS), tác giả chính của bài báo cho biết. “Về lâu dài, công trình của chúng tôi có thể giúp AI đóng vai trò đồng hành cùng các nhà thiết kế, giúp việc tạo hình 3D trở nên dễ dàng và chân thực hơn.”

Từ hình ảnh 2D đến hình dạng 3D

Các mô hình khuếch tán (diffusion models) như DALL-E là một dạng AI tạo sinh có khả năng tạo ra hình ảnh chân thực từ nhiễu ngẫu nhiên. Trong quá trình huấn luyện, các nhà nghiên cứu thêm nhiễu vào hình ảnh và dạy mô hình học cách loại bỏ nhiễu – mô phỏng quy trình ngược. Sau đó, mô hình dùng kỹ năng này để tạo ảnh từ lời mô tả bằng văn bản.

Tuy nhiên, các mô hình khuếch tán không hiệu quả trong việc tạo hình 3D do thiếu dữ liệu 3D để huấn luyện. Để khắc phục, năm 2022, kỹ thuật Score Distillation Sampling (SDS) đã ra đời, tận dụng mô hình khuếch tán được huấn luyện sẵn để kết hợp nhiều ảnh 2D thành biểu diễn 3D.

Quy trình gồm: bắt đầu từ một hình dạng 3D ngẫu nhiên, dựng hình ảnh 2D từ góc camera bất kỳ, thêm nhiễu vào ảnh, dùng mô hình khuếch tán để khử nhiễu, sau đó tối ưu hình dạng 3D sao cho phù hợp với ảnh đã khử nhiễu. Các bước được lặp lại cho đến khi tạo ra hình dạng 3D mong muốn.

Tuy nhiên, các hình dạng tạo ra thường bị mờ hoặc quá bão hòa màu sắc.

“Đây là nút thắt cổ chai tồn tại lâu nay. Chúng tôi biết mô hình cơ bản có khả năng làm tốt hơn, nhưng không ai hiểu rõ vì sao hình dạng 3D lại bị lỗi như vậy,” Lukoianov cho biết.

Nhóm MIT đã phân tích các bước trong SDS và phát hiện ra sự không khớp giữa công thức quan trọng của SDS và công thức tương ứng trong mô hình khuếch tán 2D. Công thức này hướng dẫn mô hình cách thêm và loại bỏ nhiễu để hình dạng dần trở nên giống với hình ảnh mong muốn.

Do một phần của công thức này là một phương trình quá phức tạp để giải hiệu quả, SDS đã thay thế bằng nhiễu ngẫu nhiên ở mỗi bước. Các nhà nghiên cứu nhận thấy chính yếu tố nhiễu này đã khiến hình dạng 3D bị mờ hoặc giống hoạt hình.

Tương lai rộng mở

Thay vì cố giải chính xác phương trình phức tạp đó, nhóm đã thử nghiệm nhiều phương pháp xấp xỉ cho đến khi tìm ra cách tốt nhất. Thay vì dùng nhiễu ngẫu nhiên, họ suy luận thành phần nhiễu còn thiếu từ chính hình ảnh 3D hiện tại.

“Kết quả – như phân tích trong bài báo dự đoán – là hình dạng 3D trở nên sắc nét và chân thực hơn”, Lukoianov cho biết.

Ngoài ra, nhóm cũng tăng độ phân giải của hình ảnh dựng và điều chỉnh một số tham số của mô hình để nâng cao chất lượng hình dạng 3D.

Cuối cùng, họ đã sử dụng một mô hình khuếch tán tạo ảnh được huấn luyện sẵn để tạo ra các hình 3D mượt mà, thực tế mà không cần huấn luyện lại, tiết kiệm đáng kể thời gian và chi phí. Các vật thể 3D tạo ra có độ sắc nét tương đương hoặc vượt các phương pháp hiện có vốn phụ thuộc vào giải pháp thủ công.

“Việc thử nghiệm vô tội vạ với các tham số đôi khi có hiệu quả, nhưng đôi khi không, và bạn không biết vì sao. Giờ chúng tôi biết rõ phương trình cần giải, từ đó có thể nghĩ ra các cách hiệu quả hơn để giải nó”, ông nói.

Vì phương pháp này dựa vào mô hình khuếch tán được huấn luyện sẵn, nên nó cũng thừa hưởng những thiên lệch và hạn chế của mô hình gốc – ví dụ như tạo ra nội dung “ảo giác” không chính xác hoặc thất bại trong một số tình huống. Cải thiện mô hình gốc sẽ giúp nâng cao hơn nữa hiệu quả của quy trình.

Bên cạnh việc tiếp tục nghiên cứu công thức và cải tiến cách giải quyết, nhóm cũng quan tâm đến khả năng ứng dụng những hiểu biết này trong các kỹ thuật chỉnh sửa hình ảnh.

(Nguồn: MIT News)