Big Tech có thể đã sai lầm khi đào tạo AI dựa trên dữ liệu công khai

Bảo Ngọc

03/07/2024

Ông Ali Golshan, CEO Gretel, tin rằng dữ liệu tổng hợp là giải pháp thay thế tốt hơn dữ liệu công khai trong bối cảnh Big Tech tiến vào cuộc đua đào tạo AI vô cùng khốc liệt…

Cục diện chạy đua AI toàn cầu gây ra nhiều hệ quả liên quan tới cuộc chiến tranh giành dữ liệu giữa Big Tech.

Một số đại gia công nghệ như OpenAI, Meta và Google đang lùng sục khắp Internet cũng như vô vàn sách báo, podcast hay video nhằm tìm kiếm nguồn dữ liệu đào tạo mô hình trí tuệ nhân tạo tốt nhất.

Tuy nhiên, giới chuyên gia trong ngành lo ngại kiểu chiến lược "bành trướng" đối với dữ liệu công khai có sẵn không phải cách tiếp cận đúng đắn, đặc biệt khiến công ty có nguy cơ vướng vào kiện tụng bản quyền. Thay vào đó, nhiều nhà phân tích kêu gọi đào tạo mô hình dựa trên dữ liệu tổng hợp.

Hiểu đơn giản, dữ liệu tổng hợp là nhóm thông tin nhân tạo thay vì thu thập từ thế giới thực. Dữ liệu có thể được tạo ra bằng thuật toán học máy chỉ với số ít dữ liệu gốc.

Business Insider vừa có cuộc trò chuyện với ông Ali Golshan, CEO kiêm đồng sáng lập công ty thử nghiệm và xây dựng mô hình AI dựa trên dữ liệu tổng hợp Gretel, người được mệnh danh là chuyên gia hàng đầu về dữ liệu tổng hợp. Công ty của CEO Golshan hợp tác với nhiều đối tác lớn trong lĩnh vực chăm sóc sức khỏe, chẳng hạn như tổ chức nghiên cứu gen Illumina, công ty tư vấn Ernst & Young và nhà sản xuất hàng tiêu dùng Riot Games.

CEO kiêm đồng sáng lập công ty dữ liệu tổng hợp Gretel Ali Golshan.

Ông Golshan khẳng định dữ liệu tổng hợp là giải pháp thay thế an toàn hơn và riêng tư hơn so với dữ liệu công khai "lộn xộn", có thể trở thành bước ngoặt đưa hầu hết doanh nghiệp bước vào kỷ nguyên phát triển AI tổng quát tiếp theo.

Theo ông, tại sao dữ liệu tổng hợp được đánh giá tốt hơn dữ liệu công khai?

Như mọi người đã biết, dữ liệu công khai rất thô sơ và nguyên bản. Thông tin đầu vào chứa đầy lỗ hổng, không nhất quán, có thể mang lập trường thiên vị xuyên suốt quá trình thu thập, phân loại và sử dụng. Ngược lại, dữ liệu tổng hợp sẽ khắc phục những khoảng trống đó, dễ dàng mở rộng sang nhiều lĩnh vực không thể thu thập dữ liệu tự nhiên và hỗ trợ thiết kế bộ dữ liệu có chủ đích cho ứng dụng cụ thể.

Mức độ kiểm soát cùng đội ngũ nhà khoa học con người đảm nhận thiết kế và tinh chỉnh dữ liệu đóng vai trò rất quan trọng nhằm đưa Generative AI lên tầm cao mới theo định hướng có trách nhiệm, minh bạch và an toàn. Dữ liệu tổng hợp cho phép tạo ra thông tin đầu vào toàn diện, công bằng và phù hợp với nhu cầu đào tạo AI cụ thể.

Ông có thể chỉ ra một vài thách thức doanh nghiệp gặp phải trong quá trình khai thác dữ liệu công khai?

Dữ liệu công khai mang tới hàng loạt thách thức, đặc biệt đối với các trường hợp sử dụng trong lĩnh vực chăm sóc sức khỏe. Hãy tưởng tượng, một phòng khám nào đó đang cố gắng đào tạo mô hình AI dự đoán kết quả COVID-19 chỉ bằng dữ liệu về số ca bệnh được công bố trong quá khứ, mô hình không trang bị miền thông tin quan trọng như bệnh nền của bệnh nhân, phác đồ điều trị và tiến triển lâm sàng chi tiết. Việc thiếu dữ liệu toàn diện làm giảm tính hiệu quả và độ tin cậy của mô hình.

Một thách thức khác chính là áp lực pháp lý ngày càng tăng đối với hoạt động thu thập dữ liệu. Ủy ban Thương mại Liên bang và một số cơ quan quản lý ngày càng kiểm soát nghiêm ngặt hoạt động thu thập dữ liệu trên trang web và truy cập dữ liệu trái phép.

Ngoài ra còn tồn tại thách thức về tính cập nhật của dữ liệu. Trong môi trường kinh doanh biến động liên tục ngày nay, tổ chức cần dữ liệu theo thời gian thực để duy trì năng lực cạnh tranh và đào tạo mô hình phản ứng nhanh chóng với điều kiện thị trường, hành vi người dùng cũng như xu hướng cộng đồng. Dữ liệu công khai thường không được cập nhật, ghi nhận trễ theo tuần, tháng hoặc thậm chí nhiều năm, khiến thông tin ít có giá trị hơn.

Nhiều Big Tech sẵn sàng tham gia cuộc đua tranh giành dữ liệu đào tạo AI.

Ông nhận định thế nào về việc Big Tech, điển hình như Meta và OpenAI, sẵn sàng mạo hiểm kiện tụng để sở hữu quyền truy cập vào dữ liệu công khai?

Giai đoạn "hành động nhanh và phá vỡ mọi thứ" đã qua, tôi ủng hộ cách tiếp cận ưu tiên quyền riêng tư lên hàng đầu. Đó là những gì đối tác của chúng tôi và người dùng cuối mong muốn. Theo nghĩa này, quyền riêng tư là chất xúc tác cho sự đổi mới của kỷ nguyên Generative AI.

Cách tiếp cận ưu tiên quyền riêng tư là lý do chính khiến nhiều đối tác lớn như Google, AWS, EY và Databricks tiến hành hợp tác với Gretel. Big Tech nhìn ra được phương pháp hiện tại không bền vững và tương lai dữ liệu được cấp phép, có tính nhất quán cao, thiết kế cụ thể dành riêng từng trường hợp sử dụng sẽ chiếm ưu thế, thay thế hoàn toàn chiến lược nắm bắt mọi bit dữ liệu công khai có sẵn như hiện tại.

Nhiều Big Tech đang nỗ lực xây dựng mô hình AI có thể khai phá tiềm năng sâu sắc từ dữ liệu độc quyền. Ông nhận định bộ dữ liệu tổng hợp có phù hợp với định hướng của đa số doanh nghiệp?

Theo ước tính, hầu hết công ty chỉ sử dụng 1-10% dữ liệu trên tổng số thu thập được. Phần còn lại thường được lưu trữ và giới hạn truy cập để phục vụ quá trình thử nghiệm nghiên cứu sau này. Nước đi như trên tạo ra thêm chi phí và rủi ro vi phạm dữ liệu mà không mang lại giá trị tích cực. Bây giờ, hãy tưởng tượng nếu công ty mở quyền truy cập an toàn vào 90% dữ liệu còn lại, các nhóm chức năng chéo hợp tác và thử nghiệm để tạo thêm giá trị mà không phát sinh rủi ro về quyền riêng tư hoặc bảo mật.

Giống câu chuyện ngụ ngôn “thầy bói xem voi", mỗi người chỉ nắm bắt và hiểu được phần đang chạm vào, phần còn lại là hộp đen bí ẩn. Việc cung cấp cho toàn bộ tổ chức quyền truy cập chung vào 'viên ngọc quý' và cơ hội rút ra những hiểu biết mới từ dữ liệu sẽ mang tới nhiều thay đổi trong cách xây dựng sản phẩm và dịch vụ AI. Tôi đang hy vọng về tương lai dữ liệu 'dân chủ hóa'.

Ông có lời khuyên nào dành cho doanh nghiệp mong muốn tham gia vào cuộc đua dữ liệu đào tạo AI?

Như đã nói, qua rồi thời kỳ "hành động nhanh và phá vỡ mọi thứ". Big Tech hoàn toàn có thể thực hiện cuộc bành trướng dữ liệu, nhưng ngày một nhiều quy định về AI được Chính phủ các nước ban hành.

Giờ đây, nhiều công ty nhận ra tương lai nằm ở mô hình AI có quy mô chuyên biệt hơn, nhắm vào nhiệm vụ cụ thể và cần điều phối hoạt động của mô hình thông qua quy trình tự động có hệ thống. Cách tiếp cận mới mang lại sự minh bạch và loại bỏ phần lớn 'hộp đen' ở các mô hình AI.

Sự thay đổi hướng tới mô hình tập trung và hiệu quả hơn hoàn toàn phù hợp với ưu tiên về quyền riêng tư và nguồn dữ liệu tổng hợp. Công ty có thể tạo ra chính xác dữ liệu cần thiết cho mô hình, đảm bảo hiệu suất cao mà không vướng phải vấn đề đạo đức khi thu thập thông tin. Đó sẽ là sự phát triển sáng suốt có định hướng, thay thế cho cách tiếp cận thô sơ mà nhiều công ty công nghệ đang thực hiện.

Từ khóa:

Dòng sự kiện:

Kiến trúc dữ liệu quốc gia

Kinh nghiệm từ nhiều quốc gia trong khu vực ASEAN+3 cho thấy các mô hình token hóa thành công đều được xây dựng trên những nền tảng vững chắc. Ảnh minh họa

Token hóa không thể giải quyết mọi vấn đề của tài sản

Các công nghệ mới như token hóa và blockchain có thể thay đổi cách phát hành, ghi nhận và chuyển giao tài sản, nhưng chúng không thay đổi bản chất của tài sản đó…

15:35 21/07/2026

Hầu hết các dự án công nghệ đều có một "insight" nhất định. Ảnh minh họa. Nguồn: NIC

Nhà đầu tư tìm gì ở một startup trước khi rót vốn?

Những công nghệ mới có thể tạo ra đột phá về kỹ thuật, nhưng đó chưa phải là lý do đủ để thuyết phục nhà đầu tư rót vốn…

20:12 20/07/2026

Các đội thi tại Viet Nam AI Innovation Challenge (VAIC) 2026. Ảnh: BTC

Tiêu chí tuyển dụng nhân lực AI đang thay đổi

Nếu trước đây ứng viên chủ yếu được đánh giá qua kiến thức về thuật toán, mô hình, thì nay câu hỏi trọng tâm là khả năng ứng dụng AI để giải quyết các bài toán kinh doanh…

15:15 20/07/2026

Các đại biểu tham dự trong Vietnam RWA Summit 2026 với chủ đề "Giải pháp mã hóa tài sản thực và cơ hội đón đầu thị trường tỷ đô". Ảnh: BTC

Tài sản mã hóa là "miếng mồi ngon" của tội phạm mạng

Thị trường tài sản mã hóa toàn cầu đang phải đối mặt với làn sóng tấn công mạng ngày càng phức tạp, gây thiệt hại hàng tỷ USD mỗi năm…

15:15 20/07/2026

Chính cách xác định thị trường quá hẹp khiến nhà đầu tư khó nhìn thấy tiềm năng tăng trưởng dài hạn của doanh nghiệp. Ảnh minh họa

Tham vọng thị trường chưa đủ lớn khiến startup Việt khó bứt phá

Nhiều startup chỉ đặt mục tiêu giải quyết bài toán trong phạm vi một khu công nghiệp, một tỉnh hoặc thị trường Việt Nam. Rất ít nhóm ngay từ đầu nghĩ tới thị trường ASEAN hay quy mô toàn cầu...

22:11 19/07/2026

Phiên thảo luận “Từ kinh nghiệm quốc tế tới thực tế Việt Nam: Cân bằng giữa đổi mới sáng tạo và quản trị rủi ro”. Ảnh: BB

Muốn phát triển thị trường tài sản mã hóa, Việt Nam phải cân bằng đổi mới và kiểm soát rủi ro

Theo các chuyên gia tại hội nghị Mã hóa tài sản thực Việt Nam 2026 (Vietnam RWA Summit 2026), Việt Nam cần sớm xây dựng một khung pháp lý đồng bộ cho thị trường tài sản mã hóa, nhưng quan trọng hơn là phải tìm được điểm cân bằng giữa thúc đẩy đổi mới sáng tạo và kiểm soát rủi ro…

22:10 19/07/2026

Lãnh đạo SHB cho biết ngân hàng sẽ không chỉ là nơi ứng dụng AI, mà còn đóng vai trò người đặt hàng, đối tác phát triển, môi trường thử nghiệm và bệ phóng thị trường cho những giải pháp có giá trị. Ảnh: BTC

AI và chuyển đổi số trong ngân hàng: Từ thực tiễn vận hành đến động lực thúc đẩy công nghệ Việt

Ứng dụng công nghệ số và AI không chỉ nâng cao trải nghiệm khách hàng qua các kênh tương tác trực tuyến mà còn là chìa khóa giúp ngân hàng tối ưu hóa vận hành và kiểm soát rủi ro hiệu quả...

09:35 18/07/2026

Edge AI giúp giảm độ trễ, tiết kiệm băng thông, tăng cường bảo mật dữ liệu. Ảnh minh họa

Thúc đẩy AI tại Việt Nam: Từ hạ tầng sẵn sàng đến bài toán triển khai thực tiễn

Khác với mô hình AI truyền thống phụ thuộc chủ yếu vào điện toán đám mây, AI tại biên (Edge AI) cho phép xử lý dữ liệu ngay tại thiết bị hoặc gần nguồn dữ liệu...

16:39 16/07/2026

Ngân sách marketing năm 2026 hướng rõ về năng lực AI. Nguồn: Báo cáo "State of AI in Marketing 2026"

Doanh nghiệp Việt trước bài toán AI Marketing: Khi công nghệ không còn là lợi thế cạnh tranh

AI đã trở thành công cụ phổ biến trong marketing, vì thế lợi thế cạnh tranh không còn nằm ở công nghệ mà chuyển sang năng lực con người và khả năng quản trị AI của doanh nghiệp...

16:39 16/07/2026

Theo ban tổ chức, hơn 400 dự án được đưa vào vòng đánh giá, với hơn 70 giám khảo chấm qua hai vòng thuyết trình.

Doanh nghiệp bước vào cuộc đua AI mới: Không chỉ cần người dùng, mà còn cần "người xây AI"

Nếu trước đây doanh nghiệp chủ yếu tìm kiếm lập trình viên AI hoặc chuyên gia dữ liệu, thì nay nhu cầu đang dịch chuyển sang các AI builders - lực lượng có thể kết hợp công nghệ, dữ liệu và nghiệp vụ để xây dựng các AI agent phục vụ từng quy trình cụ thể…

16:39 16/07/2026