Thiếu dữ liệu do con người tạo ra sẽ hạn chế tiến trình phát triển AI

Quỳnh Anh 11:18 27/07/2024

Chia sẻ

Việc sử dụng những dữ liệu tổng hợp do máy tính tạo ra để đào tạo các mô hình trí tuệ nhân tạo (AI) có nguy cơ đi đến những kết quả vô nghĩa…

Dữ liệu đầu vào đang trở thành thách thức với các công ty AI bởi chúng tiềm ẩn rủi ro tạo ra những thông tin sai lệch - Ảnh minh họa.

Một nghiên cứu mới từ Đại học Oxford đã nhấn mạnh những thách thức sắp xảy ra đối với các công nghệ mới nổi, đáng chú ý việc sử dụng dữ liệu do máy tính tạo ra để đào tạo các mô hình trí tuệ nhân tạo (AI) có nguy cơ khiến chúng tạo ra những kết quả vô nghĩa.

Các công ty AI hàng đầu bao gồm OpenAI và Microsoft đã thử nghiệm việc sử dụng dữ liệu tổng hợp - những thông tin do hệ thống AI tạo ra để sau đó đào tạo các mô hình ngôn ngữ lớn (LLM) khi những dữ liệu do con người tạo ra ngày một cạn kiệt.

Nghiên cứu được công bố trên tạp chí Nature ngày 24/7 cho thấy việc sử dụng dữ liệu như vậy có thể dẫn đến sự xuống cấp nhanh chóng của các mô hình AI. Một thử nghiệm sử dụng văn bản đầu vào về kiến trúc thời Trung cổ đã dẫn đến những thông tin về thỏ rừng sau chưa đầy 10 thế hệ đầu ra.

Bằng chứng này đã nhấn mạnh lý do vì sao các nhà phát triển AI lại vội vã mua rất nhiều những dữ liệu do con người tạo ra để đào tạo, đồng thời đặt ra câu hỏi rằng điều gì sẽ xảy ra khi những nguồn hữu hạn này cạn kiệt.

Ilia Shumailov, tác giả chính của nghiên cứu cho biết: “Dữ liệu tổng hợp thật tuyệt vời nếu chúng tôi có thể làm cho nó hoạt động được. Tuy nhiên điều chúng tôi đang nói là dữ liệu tổng hợp hiện tại có thể sai ở một số khía cạnh. Điều đáng ngạc nhiên nhất là chuyện này diễn ra nhanh đến mức nào".

Nghiên cứu tìm hiểu ra xu hướng sụp đổ của các mô hình AI theo thời gian do sự tích tụ và những sai lệch không thể tránh khỏi từ các thế hệ đào tạo kế tiếp. Tốc độ suy giảm có liên quan đến mức độ nghiêm trọng của những thiếu sót trong thiết kế mô hình, quá trình học tập và chất lượng dữ liệu được sử dụng. Các giai đoạn đầu của sự sụp đổ thường liên quan đến việc sai lệch từ những thông tin nhỏ, thiểu số và dần dần dẫn đến sai lệch trong đa số thông tin. Trong giai đoạn cuối của sự sụp đổ, tất cả các phần của dữ liệu có thể trở nên vô nghĩa.

Shumailov, người thực hiện công việc tại trường đại học Oxford cùng các đồng nghiệp từ Cambridge, Imperial College London, Edinburgh, cho biết: “Các mô hình mất đi tính hữu ích vì chúng tràn ngập tất cả các lỗi và quan niệm sai lầm do các thế hệ thông tin trước đưa ra".

Các nhà nghiên cứu nhận thấy vấn đề thường trở nên trầm trọng hơn do sử dụng dữ liệu tổng hợp được đào tạo dựa trên thông tin do các thế hệ trước tạo ra. Hầu như tất cả các mô hình ngôn ngữ được đào tạo mà họ kiểm tra đều bắt đầu tạo ra các cụm từ lặp lại.

Trong trường hợp thỏ rừng nêu trên, văn bản đầu vào đầu tiên khảo sát việc xây dựng tháp nhà thờ ở Anh trong thế kỷ 14 và 15. Ở giai đoạn đào tạo thứ nhất, đầu ra cung cấp thông tin về các vương cung thánh đường ở Rome và Buenos Aires. Thế hệ thứ năm chuyển sang dịch ngôn ngữ, trong khi thế hệ thứ chín liệt kê các loài thuộc họ Lagomorph với các màu đuôi khác nhau.

Một ví dụ khác là cách một mô hình AI được đào tạo dựa trên thông tin đầu ra của chính nó để xử lý một tập dữ liệu về hình ảnh giống chó, theo một bài viết trên tạp chí Nature của Emily Wenger thuộc Đại học Duke ở Mỹ.

Ban đầu, những loại phổ biến như chó tha mồi vàng sẽ chiếm ưu thế trong khi những giống ít phổ biến hơn như chó đốm biến mất. Cuối cùng, hình ảnh của những chú chó tha mồi vàng sẽ trở thành một mớ hỗn độn về mặt giải phẫu, với các bộ phận cơ thể ở sai vị trí.

Wenger cho biết, việc giảm thiểu vấn đề cho đến nay không hề đơn giản. Một kỹ thuật đã được các công ty công nghệ hàng đầu triển khai là nhúng hình mờ gắn cờ nội dung do AI tạo ra để loại trừ khỏi tập dữ liệu đào tạo. Khó khăn là điều này đòi hỏi sự phối hợp giữa các công ty công nghệ có thể không thực tế hoặc không khả thi về mặt thương mại.

Công ty cổ phần phần mềm Citigo	Citigo là công ty công nghệ cung cấp những giải pháp đơn giản với chi phí tiết kiệm, giúp khách hàng nâng cao hiệu quả kinh doanh. Citigo hướng tới tầm nhìn trở thành công ty cung cấp giải pháp công nghệ cho doanh nghiệp phổ biến tại Đông Nam Á
Công ty TNHH ESBT	ESBT là công ty hoạt động trọng lĩnh vực công nghệ thông tin, chúng tôi xây dựng những sản phẩm phần mềm cho cộng đồng và cung cấp dịch vụ phát triển phần mềm cho các doanh nghiệp
Công ty CP Lozi Việt Nam	Lozi là một trong những ứng dụng thương mại điện tử được yêu thích nhất tại Việt Nam, kết nối hàng triệu người mua và người bán nhằm phục vụ nhu cầu mua bán trực tuyến ngày càng cao. Không chỉ là một cầu nối thương mại điện tử đáng tin cậy, Lozi còn cung cấp dịch vụ giao hàng nhanh chóng và tiện lợi chỉ trong 1 giờ, đem đến cho khách hàng những trải nghiệm mua sắm trực tuyến hiệu quả và tối ưu
Công ty Cổ phần giáo dục Educa Corporation	Bắt nguồn từ mong muốn mang chất lượng dạy Tiếng Anh tại Trường Quốc tế đến với mọi học sinh Việt Nam, để các bạn nhỏ dù không có điều kiện kinh tế theo học tại các Trường Quốc Tế hay Trung Tâm đắt tiền vẫn có thể sử dụng Tiếng Anh tốt như người bản ngữ. Đây chính là hành trang chuẩn bị cho các em tương lai vươn ra thế giới. Chính vì lý do trên, đội ngũ sáng lập đã bắt tay vào xây dựng sản phẩm đầu tiên có tên “Chương trình học Tiếng Anh Online EDUPIA”.
Công ty TNHH SA-ACH	Công ty TNHH SA-ACH định vị về lĩnh vững trồng rừng, phát triển gồm 3 loại cây và bốn tầng cây trên một hecta đất nhằm tạo hệ sinh thái bền vững, và nâng cao thu nhập cho bà con

Thiếu dữ liệu do con người tạo ra sẽ hạn chế tiến trình phát triển AI

Việc sử dụng những dữ liệu tổng hợp do máy tính tạo ra để đào tạo các mô hình trí tuệ nhân tạo (AI) có nguy cơ đi đến những kết quả vô nghĩa…

Tin liên quan

Meta ra mắt mô hình AI Llama mạnh nhất với sự hỗ trợ của Nvidia và đối tác đám mây

AI có thể là trợ thủ đắc lực giúp thu hút khách hàng trên mạng xã hội

Olympics Paris 2024 chứng tỏ vai trò khó thay thế của hàngTrung Quốc

Microsoft và Lumen Technologies hợp tác thúc đẩy chuyển đổi số và sáng kiến AI

OpenAI tuyên bố phát triển SearchGPT, công cụ tìm kiếm sử dụng trí tuệ nhân tạo

Đặt cược vào mẫu AI mới nhất, Meta than khó khi phải chơi theo luật của Apple

Đưa AI vào doanh nghiệp phải từng bước, không thể “3 tháng đã đòi hỏi kết quả”

Big Tech Trung Quốc khát nhân lực AI

Thấy gì từ việc Trung Quốc hạ lãi suất lần thứ hai trong vòng 3 ngày?

Bí mật đằng sau làn sóng rời bỏ Big Tech của nhân tài AI ở Trung Quốc

Chủ đề nổi bật

Startup Việt

The WISE Talk: HRTech - giải pháp tạm thời hay xu thế tất yếu trong quản trị nhân sự?

Nguy cơ xung đột kỹ thuật số toàn cầu – Giải pháp đảm bảo an ninh mạng cho Việt Nam

Top view

Trung Quốc thử nghiệm stablecoin, tham vọng quốc tế hóa tiền Nhân dân tệ

Lập trình viên có xu hướng sử dụng AI nhiều hơn nhưng lại ít tin tưởng hơn

Trung Quốc cạnh tranh AI với Hoa Kỳ bằng cách đẩy mạnh ứng dụng AI vào thực tiễn

Các trung tâm tài chính châu Á gấp rút nâng cấp các quy định về stablecoin

Khởi nghiệp

Meta chuyển hướng chiến lược AI sang “siêu trí tuệ cá nhân” và sự tham gia của người dùng

78% công ty từng bị tấn công tống tiền, ngành sản xuất ảnh hưởng nặng nề nhất

Nhu cầu điện năng ở các trung tâm dữ liệu tại APAC sẽ tăng từ 15% đến 20%

WAIC cho thấy tham vọng toàn cầu của các công ty Trung Quốc

Tính năng tóm tắt bằng AI trên Google Search khiến nhiều doanh nghiệp lao đao

Singapore là lựa chọn hàng đầu khi các startup công nghệ châu Âu, Mỹ mở rộng vào thị trường châu Á

Hồ sơ Startup

Công ty cổ phần phần mềm Citigo

Công ty TNHH ESBT

Công ty CP Lozi Việt Nam

Công ty Cổ phần giáo dục Educa Corporation

Công ty TNHH SA-ACH

Startup Selfie

Ứng dụng AI phân tích chất lượng thực phẩm, startup mở rộng kinh doanh đến 6 châu lục