Home » Tin tức » Dạy AI biểu đạt âm thanh

Dạy AI biểu đạt âm thanh

Lấy cảm hứng từ cơ chế của thanh quản, một mô hình trí tuệ nhân tạo (AI) mới có thể tạo ra và hiểu được các mô phỏng âm thanh thường ngày.

Phương pháp này có thể hỗ trợ phát triển các giao diện âm thanh mới cho lĩnh vực giải trí và giáo dục.

Ảnh: MIT CSAIL

Bắt chước âm thanh bằng giọng nói giống như vẽ một bức tranh nhanh để truyền tải điều gì đó bạn đã nhìn thấy. Thay vì dùng bút chì để minh họa hình ảnh, bạn sử dụng đường phát âm của mình để biểu đạt âm thanh. Dù việc này có vẻ khó khăn, nhưng đó là điều mà mọi người làm một cách tự nhiên. Hãy thử mô phỏng tiếng còi xe cấp cứu, tiếng quạ kêu, hoặc tiếng chuông để trải nghiệm điều này.

Lấy cảm hứng từ khoa học nhận thức về cách chúng ta giao tiếp, các nhà nghiên cứu tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) thuộc MIT đã phát triển một hệ thống AI có khả năng tạo ra các mô phỏng âm thanh giống con người mà không cần qua đào tạo và chưa từng “nghe” bất kỳ âm thanh nào được con người mô phỏng trước đó.

Để đạt được điều này, nhóm nghiên cứu đã thiết kế hệ thống của mình sao cho sản xuất và diễn giải âm thanh giống như cách con người thực hiện. Họ bắt đầu bằng việc xây dựng một mô hình đường phát âm của con người, mô phỏng cách các rung động từ thanh quản được định hình bởi cổ họng, lưỡi và môi. Sau đó, họ sử dụng một thuật toán AI lấy cảm hứng từ nhận thức để điều khiển mô hình này, tạo ra các mô phỏng âm thanh, đồng thời cân nhắc các cách giao tiếp âm thanh đặc thù trong từng ngữ cảnh.

Mô hình này có thể tái tạo nhiều loại âm thanh từ môi trường, chẳng hạn như tiếng lá xào xạc, tiếng rít của rắn, hay tiếng còi xe cấp cứu. Hơn nữa, mô hình có thể hoạt động theo chiều ngược lại để đoán âm thanh thực từ các mô phỏng giọng nói của con người, giống như cách một số hệ thống thị giác máy tính tái tạo hình ảnh chất lượng cao từ bản phác thảo. Ví dụ, mô hình có thể phân biệt chính xác giữa tiếng mèo “meo” và tiếng mèo “gừ” khi được con người bắt chước.

Trong tương lai, mô hình này có thể dẫn đến các giao diện “dựa trên mô phỏng” trực quan hơn dành cho các nhà thiết kế âm thanh, các nhân vật AI giống con người hơn trong thực tế ảo, và thậm chí cả các phương pháp hỗ trợ học sinh học ngoại ngữ.

Các tác giả chính của nghiên cứu – các nghiên cứu sinh Kartik Chandra (MIT CSAIL), Karima Ma và sinh viên nghiên cứu Matthew Caren – lưu ý rằng các nhà nghiên cứu đồ họa máy tính từ lâu đã nhận ra rằng tính hiện thực không phải là mục tiêu cuối cùng của biểu đạt hình ảnh. Ví dụ, một bức tranh trừu tượng hay nét vẽ nguệch ngoạc của trẻ em có thể giàu biểu cảm không kém một bức ảnh.

Nghệ thuật mô phỏng âm thanh qua 3 giai đoạn

Nhóm đã phát triển 3 phiên bản mô hình ngày càng tinh vi hơn để so sánh với các mô phỏng âm thanh của con người. Đầu tiên, họ tạo ra một mô hình cơ bản chỉ tập trung tạo ra các mô phỏng tương đồng nhất với âm thanh thực, nhưng mô hình này không khớp với hành vi của con người.

Sau đó, nhóm thiết kế một mô hình thứ hai gọi là mô hình “giao tiếp.” Theo Caren, mô hình này xem xét những yếu tố đặc trưng của âm thanh đối với người nghe. Ví dụ, bạn có thể bắt chước âm thanh của tàu thủy bằng cách mô phỏng tiếng động cơ gầm rú, vì đó là đặc điểm dễ nhận biết nhất của âm thanh này, mặc dù nó không phải là yếu tố lớn nhất (như tiếng nước vỗ chẳng hạn). Mô hình này đã cải thiện đáng kể so với phiên bản đầu tiên.

Cuối cùng, nhóm nghiên cứu thêm một tầng suy luận vào mô hình. Chandra giải thích: “Âm thanh mô phỏng có thể khác nhau tùy thuộc vào mức độ nỗ lực bạn đặt vào. Việc tạo ra các âm thanh chính xác đòi hỏi thời gian và năng lượng.” Mô hình hoàn chỉnh của nhóm tính đến yếu tố này bằng cách tránh các âm thanh quá nhanh, to, hoặc cao/thấp quá mức – những yếu tố ít có khả năng xuất hiện trong giao tiếp thông thường. Kết quả là các mô phỏng âm thanh giống con người hơn, phản ánh nhiều quyết định mà con người đưa ra khi bắt chước các âm thanh tương tự.

Hướng tới công nghệ âm thanh biểu cảm hơn

Mô hình này có thể giúp nghệ sĩ giao tiếp âm thanh với các hệ thống tính toán tốt hơn, hỗ trợ các nhà làm phim và người sáng tạo nội dung trong việc tạo ra các âm thanh AI phù hợp hơn với từng ngữ cảnh. Nó cũng có thể cho phép nhạc sĩ tìm kiếm nhanh cơ sở dữ liệu âm thanh bằng cách mô phỏng một tiếng động khó diễn tả bằng văn bản.

Trong khi đó, nhóm nghiên cứu đang xem xét những ứng dụng của mô hình này ở các lĩnh vực khác, bao gồm sự phát triển ngôn ngữ, cách trẻ sơ sinh học nói, và hành vi bắt chước của các loài chim như vẹt hay chim hót.

Tuy nhiên, mô hình hiện tại vẫn còn một số hạn chế: nó gặp khó khăn với các phụ âm như “z,” dẫn đến các mô phỏng không chính xác với những âm thanh như tiếng ong vo ve. Ngoài ra, nó chưa thể tái hiện cách con người bắt chước lời nói, âm nhạc, hoặc các âm thanh được bắt chước khác nhau trong các ngôn ngữ khác nhau, như nhịp tim.

Giáo sư ngôn ngữ học Robert Hawkins tại Đại học Stanford nhận xét: “Quá trình chuyển từ âm thanh của một con mèo thực sang từ ‘meow’ cho thấy sự tương tác phức tạp giữa sinh lý học, suy luận xã hội, và giao tiếp trong sự tiến hóa của ngôn ngữ. Mô hình này là một bước tiến thú vị trong việc chính thức hóa và kiểm chứng các lý thuyết về các quá trình này.”

(Nguồn: MIT News)