Thiếu dữ liệu do con người tạo ra sẽ hạn chế tiến trình phát triển AI

Việc sử dụng những dữ liệu tổng hợp do máy tính tạo ra để đào tạo các mô hình trí tuệ nhân tạo (AI) có nguy cơ đi đến những kết quả vô nghĩa…

Dữ liệu đầu vào đang trở thành thách thức với các công ty AI bởi chúng tiềm ẩn rủi ro tạo ra những thông tin sai lệch - Ảnh minh họa.
Dữ liệu đầu vào đang trở thành thách thức với các công ty AI bởi chúng tiềm ẩn rủi ro tạo ra những thông tin sai lệch - Ảnh minh họa.

Một nghiên cứu mới từ Đại học Oxford đã nhấn mạnh những thách thức sắp xảy ra đối với các công nghệ mới nổi, đáng chú ý việc sử dụng dữ liệu do máy tính tạo ra để đào tạo các mô hình trí tuệ nhân tạo (AI) có nguy cơ khiến chúng tạo ra những kết quả vô nghĩa.

Các công ty AI hàng đầu bao gồm OpenAI và Microsoft đã thử nghiệm việc sử dụng dữ liệu tổng hợp - những thông tin do hệ thống AI tạo ra để sau đó đào tạo các mô hình ngôn ngữ lớn (LLM) khi những dữ liệu do con người tạo ra ngày một cạn kiệt.

Nghiên cứu được công bố trên tạp chí Nature ngày 24/7 cho thấy việc sử dụng dữ liệu như vậy có thể dẫn đến sự xuống cấp nhanh chóng của các mô hình AI. Một thử nghiệm sử dụng văn bản đầu vào về kiến ​​trúc thời Trung cổ đã dẫn đến những thông tin về thỏ rừng sau chưa đầy 10 thế hệ đầu ra.

Bằng chứng này đã nhấn mạnh lý do vì sao các nhà phát triển AI lại vội vã mua rất nhiều những dữ liệu do con người tạo ra để đào tạo, đồng thời đặt ra câu hỏi rằng điều gì sẽ xảy ra khi những nguồn hữu hạn này cạn kiệt.

Ilia Shumailov, tác giả chính của nghiên cứu cho biết: “Dữ liệu tổng hợp thật tuyệt vời nếu chúng tôi có thể làm cho nó hoạt động được. Tuy nhiên điều chúng tôi đang nói là dữ liệu tổng hợp hiện tại có thể sai ở một số khía cạnh. Điều đáng ngạc nhiên nhất là chuyện này diễn ra nhanh đến mức nào".

Nghiên cứu tìm hiểu ra xu hướng sụp đổ của các mô hình AI theo thời gian do sự tích tụ và những sai lệch không thể tránh khỏi từ các thế hệ đào tạo kế tiếp. Tốc độ suy giảm có liên quan đến mức độ nghiêm trọng của những thiếu sót trong thiết kế mô hình, quá trình học tập và chất lượng dữ liệu được sử dụng. Các giai đoạn đầu của sự sụp đổ thường liên quan đến việc sai lệch từ những thông tin nhỏ, thiểu số và dần dần dẫn đến sai lệch trong đa số thông tin. Trong giai đoạn cuối của sự sụp đổ, tất cả các phần của dữ liệu có thể trở nên vô nghĩa.

Shumailov, người thực hiện công việc tại trường đại học Oxford cùng các đồng nghiệp từ Cambridge, Imperial College London, Edinburgh, cho biết: “Các mô hình mất đi tính hữu ích vì chúng tràn ngập tất cả các lỗi và quan niệm sai lầm do các thế hệ thông tin trước đưa ra".

Các nhà nghiên cứu nhận thấy vấn đề thường trở nên trầm trọng hơn do sử dụng dữ liệu tổng hợp được đào tạo dựa trên thông tin do các thế hệ trước tạo ra. Hầu như tất cả các mô hình ngôn ngữ được đào tạo mà họ kiểm tra đều bắt đầu tạo ra các cụm từ lặp lại.

Trong trường hợp thỏ rừng nêu trên, văn bản đầu vào đầu tiên khảo sát việc xây dựng tháp nhà thờ ở Anh trong thế kỷ 14 và 15. Ở giai đoạn đào tạo thứ nhất, đầu ra cung cấp thông tin về các vương cung thánh đường ở Rome và Buenos Aires. Thế hệ thứ năm chuyển sang dịch ngôn ngữ, trong khi thế hệ thứ chín liệt kê các loài thuộc họ Lagomorph với các màu đuôi khác nhau.

Một ví dụ khác là cách một mô hình AI được đào tạo dựa trên thông tin đầu ra của chính nó để xử lý một tập dữ liệu về hình ảnh giống chó, theo một bài viết trên tạp chí Nature của Emily Wenger thuộc Đại học Duke ở Mỹ.

Ban đầu, những loại phổ biến như chó tha mồi vàng sẽ chiếm ưu thế trong khi những giống ít phổ biến hơn như chó đốm biến mất. Cuối cùng, hình ảnh của những chú chó tha mồi vàng sẽ trở thành một mớ hỗn độn về mặt giải phẫu, với các bộ phận cơ thể ở sai vị trí.

Wenger cho biết, việc giảm thiểu vấn đề cho đến nay không hề đơn giản. Một kỹ thuật đã được các công ty công nghệ hàng đầu triển khai là nhúng hình mờ gắn cờ nội dung do AI tạo ra để loại trừ khỏi tập dữ liệu đào tạo. Khó khăn là điều này đòi hỏi sự phối hợp giữa các công ty công nghệ có thể không thực tế hoặc không khả thi về mặt thương mại.

Đảng ủy VUSTA sơ kết 6 tháng đầu năm và trao huy hiệu Đảng cho 14 đảng viên

Trong những tháng cuối năm 2026, Đảng ủy Liên hiệp Hội Việt Nam tiếp tục tập trung thực hiện các nhiệm vụ trọng tâm về xây dựng Đảng, công tác kiểm tra, giám sát, thực hiện các nghị quyết của Trung ương. Đồng thời tập trung chỉ đạo, chuẩn bị thật tốt để tổ chức thành công Đại hội lần thứ IX của Liên hiệp Hội Việt Nam...

Mỗi tòa soạn cần một khuôn khổ rõ ràng cho AI

Nhân dịp kỷ niệm 101 năm Ngày Báo chí cách mạng Việt Nam (21/6/1925 - 21/6/2026), bà Deborah Steele, nguyên Chủ tịch Ủy ban Tin tức của Liên minh Phát thanh Truyền hình Thế giới (WBU) và cựu lãnh đạo cấp cao phụ trách nội dung tin tức của ABC, đã chia sẻ với Tạp chí Kinh tế Việt Nam về cách trí tuệ nhân tạo (AI) đang làm thay đổi hoạt động báo chí và truyền thông. Bà cũng phân tích cách các tòa soạn và nhà báo có thể tận dụng AI để nâng cao hiệu quả sản xuất nội dung, đồng thời vẫn bảo đảm tính chính xác, minh bạch và trách nhiệm đối với công chúng...

AI nên được “trao quyền” đến đâu trong báo chí?

Trí tuệ nhân tạo (AI) đang dần trở thành một phần không thể thiếu trong ngành báo chí, đặc biệt khi công nghệ này đang tái định hình hệ sinh thái truyền thông. Nhân dịp kỷ niệm 101 năm Ngày Báo chí Cách mạng Việt Nam, các chuyên gia từ nhiều lĩnh vực đã chia sẻ quan điểm về việc ứng dụng AI trong sản xuất tin tức...

Startup robot châu Âu đối đầu các “ông lớn” Trung Quốc

Những robot hình người có khả năng thực hiện nhiều công việc, từ thu hoạch nho đến đón tiếp khách, đang trở thành tâm điểm của làn sóng đổi mới công nghệ tại châu Âu. Trong khi các doanh nghiệp Trung Quốc thống trị thị trường robot toàn cầu, các startup châu Âu đang tìm cách tạo lợi thế cạnh tranh bằng những phân khúc chuyên biệt và giá trị khác biệt…

Trên chặng đường 35 năm hình thành và phát triển, Tạp chí Kinh tế Việt Nam/VnEconomy, trước đây là Thời báo Kinh tế Việt Nam, đã không ngừng nỗ lực tập trung vào các sản phẩm báo chí chất lượng, chuyên sâu, gắn chặt với thực tiễn của doanh nghiệp, lắng nghe những khó khăn, rào cản về chính sách đang tác động đến sự phát triển của doanh nghiệp, từ đó đưa ra kiến nghị, giải pháp nhằm tháo gỡ những bất cập ở cả cấp độ chính sách vĩ mô lẫn hoạt động sản xuất kinh doanh, thực hiện sứ mệnh phản ánh và đồng hành cùng tiến trình phát triển của đất nước.

Đảng Cộng sản Việt Nam - Đại hội XIV

Đảng Cộng sản Việt Nam - Đại hội XIV

Với phương châm Đoàn kết - Dân chủ - Kỷ cương - Đột phá - Phát triển, Đại hội đại biểu toàn quốc lần thứ XIV của Đảng xác định tư duy, tầm nhìn, những quyết sách chiến lược để chúng ta vững bước tiến...

VnEconomy Interactive

VnEconomy Interactive

Interactive là một sản phẩm báo chí mới của VnEconomy vừa được ra mắt bạn đọc từ đầu tháng 3/2023 đã gây ấn tượng mạnh với độc giả bởi sự mới lạ, độc đáo. Đây cũng là sản phẩm độc quyền chỉ có trên...

VnEconomy
VnEconomy