Meta giới thiệu Voicebox, công cụ AI chuyển văn bản thành giọng nói

Nguyễn Hà
Chia sẻ

Gần đây, Meta đã tiết lộ một công cụ AI mới được đặt tên là 'Voicebox'. Công ty tuyên bố đây là một bước đột phá trong việc chuyển văn bản thành giọng nói do AI cung cấp. Tuy nhiên, công ty sẽ chưa phát hành công cụ này ra công chúng, bởi vì làm như vậy có thể gây ra một thảm họa…

Voicebox (Hộp thoại) hiện có thể tạo các đoạn âm thanh lời nói bằng sáu ngôn ngữ (tất cả đều có nguồn gốc từ Châu Âu). Theo một bài đăng trên blog từ Meta đây là mô hình AI đầu tiên thuộc loại này có khả năng hoàn thành các nhiệm vụ vượt xa những gì nó đã từng. Meta tuyên bố rằng Voicebox vượt trội hơn hẳn các AI tạo giọng nói cạnh tranh ở hầu hết mọi lĩnh vực.

Voicebox có thể tạo ra các bản sao chuyển văn bản thành giọng nói chính xác hợp lý của một người bằng cách sử dụng tệp âm thanh mẫu trong vòng hai giây, một khả năng dường như vô hại nhưng lại chứa một lượng lớn tiềm năng hủy diệt trong tay kẻ xấu.

SỨC MẠNH ĐÁNG NGỜ CỦA AI

Meta cho biết: “Mặc dù chúng tôi tin rằng điều quan trọng là phải cởi mở với cộng đồng AI và chia sẻ nghiên cứu của chúng tôi để nâng cao trình độ, nhưng chúng tôi cũng cần đạt được sự cân bằng hợp lý giữa tính cởi mở và trách nhiệm”.

Meta có thể lo ngại rằng Hộp thoại có thể cho phép tạo các đoạn âm thanh “deepfake” đáng tin cậy về những người nổi tiếng hoặc những người có ảnh hưởng nói những điều họ chưa bao giờ nói.

Hầu hết các nhân vật lớn của công chúng, bao gồm cả các chính trị gia, đều có rất nhiều bản ghi âm trôi nổi trên internet. Sẽ không khó để đối chiếu một số đoạn phát biểu của một nhà lãnh đạo chính trị đương nhiệm và sử dụng Voicebox để tạo bản sao giọng nói chân thực đến kinh ngạc của họ – thứ mà sau đó có thể được sử dụng cho mục đích bất chính.

Tất nhiên, những công cụ như vậy đã tồn tại trước đây, nhưng chúng kém thuyết phục và phổ biến. Người dùng mạng xã hội có thể đã xem các video thú vị có những người như Joe Biden, Donald Trump và Barack Obama được cho là chơi Fortnite cùng nhau. Video được dùng để gây cười và “câu view”, nhưng âm thanh của video thì khó thuyết phục. Những âm thanh ấy bắt chước phong cách giọng nói của các tổng thống, tuy nhiên người xem vẫn đủ tỉnh táo để nhận ra đó là những video giả mạo âm thanh giọng nói. 

Tuy nhiên, Meta rõ ràng tin rằng công cụ mới của mình đủ tốt để đánh lừa phần lớn mọi người. Công ty không phát hành Voicebox ra công chúng mà thay vào đó xuất bản một bài báo nghiên cứu và trình bày chi tiết một công cụ phân loại có thể xác định lời nói do Voicebox tạo ra từ thực tế. 

CÔNG CỤ MÁY NÓI

Tất nhiên, trong khi Meta rất muốn nhấn mạnh rằng công ty nhận ra “tiềm năng sử dụng sai và tác hại ngoài ý muốn” xung quanh các công cụ như Voicebox, những điều quan trọng là công ty không được đánh mất những lợi ích tiềm năng mà việc tạo giọng nói AI có thể mang lại trong tương lai.

Voicebox có thể cung cấp lời nói tự nhiên hơn nhiều cho những người bị câm hoặc không thể giao tiếp, loại bỏ một số rào cản đối với sự tương tác do 'giọng nói rô-bốt' chuyển văn bản thành giọng nói hiện có do nhà vật lý Stephen Hawking nổi tiếng phát minh. 

Mặt khác, công cụ này cũng có thể thực hiện dịch thời gian thực, đưa chúng ta tiến một bước gần hơn đến loại thiết bị 'phiên dịch toàn cầu' hiện chỉ tồn tại trong khoa học viễn tưởng.

Ngoài ra còn có các ứng dụng khác, nhưng không kém phần hữu ích. Meta giải thích trong bài đăng trên blog của mình rằng Voicebox có thể được sử dụng để chỉnh sửa và cải thiện giọng nói đã ghi. Nếu người dùng đã ghi một số âm thanh nhưng họ phát âm sai một từ hoặc bị gián đoạn bởi tiếng ồn xung quanh, Voicebox có thể cô lập đoạn vi phạm và 'ghi âm lại' một đoạn lời nói bằng giọng nói của người dùng ấy. Ví dụ: người dùng có thể xác định một đoạn âm thanh bị gián đoạn bởi tiếng chó sủa và sử dụng Voicebox tạo lại đoạn âm thanh đó mà không có tiếng chó sủa.

Trong mọi trường hợp, thật tốt khi thấy Meta thực hiện một cách tiếp cận nghiêm túc với công cụ này. Tuy nhiên, do việc Microsoft đưa công cụ Bing AI vào ứng dụng tìm kiếm của tập đoàn đã hơn một lần khiến Meta gặp khó khăn và việc OpenAI tung ra ChatGPT trên toàn thế giới đã dẫn đến đủ loại điều kỳ lạ trong năm qua. Chúng ta đang trong cơn sốt tìm vàng AI và những công cụ này đang xâm nhập vào mọi lĩnh vực trong cuộc sống của chúng ta.

Một chút thận trọng, kiên nhẫn và tôn trọng tầm quan trọng của công nghệ này là một điều đáng hoan nghênh, mặc dù nhiều người nghi ngờ rằng thời gian Meta cân nhắc để ra mắt Voicebox sẽ rất lâu.

Khởi nghiệp

Hồ sơ Startup

Citigo là công ty công nghệ cung cấp những giải pháp đơn giản với chi phí tiết kiệm, giúp khách hàng nâng cao hiệu quả kinh doanh. Citigo hướng tới tầm nhìn trở thành công ty cung cấp giải pháp công nghệ cho doanh nghiệp phổ biến tại Đông Nam Á
ESBT là công ty hoạt động trọng lĩnh vực công nghệ thông tin, chúng tôi xây dựng những sản phẩm phần mềm cho cộng đồng và cung cấp dịch vụ phát triển phần mềm cho các doanh nghiệp
Lozi là một trong những ứng dụng thương mại điện tử được yêu thích nhất tại Việt Nam, kết nối hàng triệu người mua và người bán nhằm phục vụ nhu cầu mua bán trực tuyến ngày càng cao. Không chỉ là một cầu nối thương mại điện tử đáng tin cậy, Lozi còn cung cấp dịch vụ giao hàng nhanh chóng và tiện lợi chỉ trong 1 giờ, đem đến cho khách hàng những trải nghiệm mua sắm trực tuyến hiệu quả và tối ưu
Bắt nguồn từ mong muốn mang chất lượng dạy Tiếng Anh tại Trường Quốc tế đến với mọi học sinh Việt Nam, để các bạn nhỏ dù không có điều kiện kinh tế theo học tại các Trường Quốc Tế hay Trung Tâm đắt tiền vẫn có thể sử dụng Tiếng Anh tốt như người bản ngữ. Đây chính là hành trang chuẩn bị cho các em tương lai vươn ra thế giới. Chính vì lý do trên, đội ngũ sáng lập đã bắt tay vào xây dựng sản phẩm đầu tiên có tên “Chương trình học Tiếng Anh Online EDUPIA”.
Công ty TNHH SA-ACH định vị về lĩnh vững trồng rừng, phát triển gồm 3 loại cây và bốn tầng cây trên một hecta đất nhằm tạo hệ sinh thái bền vững, và nâng cao thu nhập cho bà con