Sau 20 năm hoạt động, Reddit đang bảo vệ dữ liệu của mình và chống lại AI bằng AI
Mạng xã hội Reddit đang bước vào cuộc chiến sống còn với các chatbot AI như ChatGPT và Gemini, khi những công cụ này ngày càng thu hút người dùng mạnh mẽ…

Trong suốt 20 năm qua, Reddit đã tự định vị mình là “trang nhất của Internet”. Nhưng trí tuệ nhân tạo (AI) đang đe dọa và thay đổi điều đó, theo CNBC.
Trong hai thập kỷ qua, khi mạng xã hội thay đổi với sự chuyển dịch sang nền tảng di động và gần đây là bùng nổ của video dạng ngắn – những cái tên như MySpace, Digg hay Flickr đã dần biến mất. Trong khi đó, Reddit vẫn tồn tại bền bỉ và duy trì lượng người dùng hàng ngày hơn 108 triệu người. Ở nền tảng này, người dùng giữ nguyên phong cách truyền thống, trao đổi với nhau bằng bình luận văn bản về các sở thích, thú vui và mối quan tâm chung.
Chính nội dung do người dùng tạo ra – dưới dạng bình luận văn bản – đã trở thành “mỏ vàng dữ liệu” mà Reddit cố bảo vệ trong thời đại AI.
Sự trỗi dậy của chatbot như ChatGPT của OpenAI, Claude của Anthropic hay Gemini của Google đang khiến lượng dữ liệu khổng lồ từ các nền tảng như Reddit có nguy cơ bị hút sạch. Khi ngày càng nhiều người tìm đến chatbot để tra cứu thông tin thay vì truy cập website như trước kia, Reddit phải đối mặt với thách thức khổng lồ trong việc thu hút người dùng mới – đặc biệt nguồn truy cập từ tìm kiếm Google sụt giảm.
CEO REDDIT: AI LÀ THÁCH THỨC NHƯNG CŨNG LÀ CƠ HỘI
Đầu tháng 5 vừa qua, Giám đốc Điều hành Steve Huffman chia sẻ với giới phân tích rằng những thách thức như AI cũng có thể mở ra cơ hội mới. Khi “hệ sinh thái tìm kiếm đang được xây dựng lại từ đầu”, ông Huffman đặt cược rằng tiếng nói của cộng đồng người dùng Reddit sẽ giúp nền tảng này khác biệt so với “những câu trả lời vô hồn, khô khan” từ AI.
Trong podcast tuần trước, ông Huffman tiếp tục nhấn mạnh quan điểm này, cho rằng AI vẫn còn trong giai đoạn sơ khai: “Con người luôn có nhu cầu được nói chuyện với người khác về những điều họ quan tâm, đó sẽ là trọng tâm của chúng tôi”.
Tuy nhiên, chuyên gia tiếp thị Ann Smarty cho rằng, dù Reddit có cộng đồng trung thành, thì trong thời đại AI, phần lớn người dùng sẽ chọn cách nhanh nhất và dễ nhất để tìm kiếm thông tin – và đó chính là đặt câu hỏi cho ChatGPT.
“Người dùng không muốn phải nhấp chuột”, cô Smarty nói. “Họ chỉ muốn có câu trả lời ngay lập tức”.
REDDIT KIỆN ANTHROPIC ĐỂ BẢO VỆ DỮ LIỆU
Với niềm tin mạnh mẽ vào giá trị của dữ liệu do người dùng tạo ra, Reddit quyết định đệ đơn kiện công ty AI Anthropic hồi đầu tháng 6. Theo đơn kiện, Anthropic đã “thực hiện hành vi thương mại không hợp pháp và không công bằng” khi thu thập dữ liệu từ các subreddit nhằm huấn luyện mô hình ngôn ngữ của mình.

Không giống một số đơn vị khác kiện Meta hay Anthropic vì vi phạm bản quyền (và gần đây bị xử thua), Reddit tập trung kiện Anthropic về hành vi cạnh tranh không lành mạnh. Reddit cho rằng Anthropic đang “trục lợi thương mại từ dữ liệu mà họ không sở hữu”.
Ông Jason Bloom – Chủ tịch nhóm tranh tụng sở hữu trí tuệ tại hãng luật Haynes Boone – nhận định kho dữ liệu thảo luận chi tiết, có kiểm duyệt của Reddit rất có giá trị trong việc huấn luyện chatbot AI. Khác với sách giáo khoa, dữ liệu từ Reddit giúp chatbot trả lời tự nhiên, phong phú hơn với nhiều chủ đề.
Dù Reddit ký thỏa thuận cấp phép dữ liệu AI với OpenAI và Google, công ty cáo buộc Anthropic vẫn “âm thầm hút dữ liệu” mà không xin phép. Reddit cho rằng hành vi này làm ảnh hưởng đến cam kết bảo mật dữ liệu của công ty đối với người dùng.
Theo chuyên gia luật và AI, bản chất những vụ kiện kiểu này phản ánh sự mập mờ hiện nay về quy định dữ liệu AI: đâu là giới hạn được phép trong việc thu thập và sử dụng dữ liệu công khai để huấn luyện mô hình?
CEO Huffman chia sẻ trên podcast The Best One Yet: “Khi bạn sử dụng một tài nguyên – nội dung, dữ liệu hay bất cứ thứ gì để làm kinh doanh thì bạn phải trả tiền”.
Về phần mình, Anthropic tuyên bố không đồng ý với cáo buộc của Reddit và tuyên bố “mạnh mẽ bảo vệ quyền lợi của công ty”.
Việc Reddit kiện Anthropic vì hành vi cạnh tranh không lành mạnh, thay vì vi phạm bản quyền cho thấy sự khác biệt giữa nền tảng nội dung người dùng tạo ra và các nhà xuất bản truyền thống.
Ông Jason Bloom cho rằng Reddit hoàn toàn có cơ sở pháp lý để kiện, vì dữ liệu người dùng chính là doanh thu của nền tảng – được bán hoặc cấp phép cho những đối tác hợp pháp, đồng thời vẫn bảo vệ quyền riêng tư người dùng.
REDDIT CHỐNG LẠI AI BẰNG… AI
Không chỉ phòng thủ, Reddit cũng chủ động tấn công khi ra mắt dịch vụ Reddit Answers từ tháng 12/2023, sử dụng công nghệ của OpenAI và Google.
Khác với chatbot tổng hợp thông tin từ nhiều trang web, Reddit Answers chỉ tạo câu trả lời dựa trên nội dung Reddit và gắn liên kết trực tiếp đến cuộc thảo luận gốc để người dùng xem cụ thể ai đã nói gì. Theo người phát ngôn Reddit, hiện có hơn 1 triệu người dùng Reddit Answers mỗi tuần.
CEO Huffman gọi đây là sự kết hợp “tốt nhất của cả hai thế giới” nhờ sự tiện lợi của AI và mức độ phong phú từ dữ liệu gốc do người dùng tạo ra. Ông Huffman kể lại một lần tìm kiếm thông tin về buổi biểu diễn của nhóm nhạc điện tử Justice: “Tôi chỉ cần hỏi ‘set nhạc này dài bao lâu?’ – và Reddit trả lời là 90 phút vì ai đó đã từng hỏi rồi”.
Mặc dù nhà đầu tư lo ngại AI sẽ ảnh hưởng đến tăng trưởng người dùng của Reddit, nhưng nhà phân tích Aaron Kessler từ Seaport cho rằng nội dung nguyên bản vẫn là lợi thế lớn của nền tảng này.
Ông nhận xét người dùng thường lên Reddit để tìm hiểu về những thứ họ đang quan tâm như vợt tennis hay khu nghỉ mát trượt tuyết. Hành vi này cho thấy “ý định thương mại” rõ ràng hơn cả Facebook hay Instagram, nơi người ta chỉ lướt video vô thức.
“Bạn có thể biết người dùng đang quan tâm đến điều gì chỉ bằng cách nhìn subreddit họ truy cập”, ông Kessler nói. “Thậm chí có thể nói tín hiệu từ Reddit còn mạnh hơn cả các mạng xã hội lớn khác hiện nay”.