Các trang tin hàng đầu Hoa Kỳ quyết tâm ngăn chặn SearchGPT của OpenAI khai thác dữ liệu
Sơn Trần
06/08/2024
Tuần trước, OpenAI cho ra mắt công cụ tìm kiếm mới có tên SearchGPT. Tuy nhiên, một số trang tin hàng đầu Hoa Kỳ đã chặn trình thu thập dữ liệu web của OpenAI, hay còn gọi là OAI-SearchBot…
Khoảng một tuần sau khi OpenAI ra mắt SearchGPT, một số trang tin hàng đầu Hoa Kỳ đồng loạt tuyên bố không muốn liên quan gì đến công cụ tìm kiếm mới của công ty khởi nghiệp này, theo Business Insider.
Tờ New York Times và ít nhất 13 trang tin khác đã chặn OAI-SearchBot. Đây là trình thu thập dữ liệu web, được thiết kế để OpenAI có thể truy xuất và hiển thị kết quả có liên quan cho người dùng SearchGPT.
Originality.ai, công cụ phát hiện đạo văn và trí tuệ nhân tạo được thiết kế đặc biệt cho các tòa soạn điện tử, thống kê có 14 trong số 1.000 trang tin hàng đầu đã chặn OAI-SearchBot. Một số nhà xuất bản khác trong danh sách bao gồm Wired, The New Yorker, Vogue, Vanity Fair và GQ.
Theo ông Jon Gillham, Giám đốc Điều hành Originality.ai, đây là điều khó hiểu. "Tôi không hiểu tại sao các nhà xuất bản lại chặn công cụ", ông Gillham trả lời báo chí. "Đó là lưu lượng truy cập mà các nhà xuất bản luôn muốn và cần".
Khi OpenAI công bố SearchGPT, họ nhấn mạnh rằng OAI-SearchBot không thu thập thông tin web để lấy dữ liệu đào tạo mô hình AI như GPT-5. Công ty khuyên chủ sở hữu trang web nên cấp phép cho bot mới để "đảm bảo trang web của bạn được xuất hiện trong kết quả tìm kiếm".
Nếu không có quyền truy cập trình thu thập thông tin vào mọi trang web, dịch vụ SearchGPT của OpenAI có nguy cơ không thể cạnh tranh với công cụ Tìm kiếm Google. Khi được hỏi liệu có bất kỳ trang tin lớn nào chặn bot tìm kiếm của Google hay không, CEO Originality.ai không nắm được thông tin này.
THIẾU TIN TƯỞNG HOẶC NGHI NGỜ LƯU LƯỢNG TRUY CẬP TÌM KIẾM
Có một trình thu thập dữ liệu web khác của OpenAI, được gọi là GPTbot. Chúng thu thập dữ liệu trực tuyến để đào tạo mô hình AI. Thế nhưng, hàng trăm trang web đã chặn GPTbot. Động thái này có vẻ dễ hiểu khi bạn muốn lưu lượng truy cập từ các công cụ tìm kiếm, nhưng bạn không muốn cho đi nội dung của mình để đào tạo mô hình AI - sau này có khả năng sẽ cạnh tranh trực tiếp với bạn.
Tuy nhiên, OpenAI đã dành nhiều năm để thu thập dữ liệu trực tuyến mà không cần cho phép. Có lẽ, chính điều này khiến các nhà xuất bản không tin tưởng OpenAI, cho rằng bot tìm kiếm mới cũng sẽ bí mật thu thập nội dung để đào tạo dữ liệu AI.
Một giả thuyết khác là kết quả tìm kiếm ngày nay không phải lúc nào cũng đưa người dùng đến trang web gốc - nơi tác giả mất công sức tạo nội dung. Một phần mục tiêu của hầu hết công cụ tìm kiếm tích hợp AI là giữ chân người dùng bằng cách tóm tắt và tổng hợp thông tin. Nếu nhà xuất bản không còn thấy lưu lượng truy cập lớn từ công cụ tìm kiếm, tại sao họ phải bận tâm cho phép bot thu thập dữ liệu web?
KHIẾU NẠI TỪ THE NEW YORK TIMES
Giám đốc Gillham cũng lưu ý năm nay OpenAI đã nỗ lực ký kết các thỏa thuận với nhiều nhà xuất bản để sử dụng kho lưu trữ nội dung, một trong số đó là Axel Springer, công ty mẹ của Business Insider.
"Có vẻ đây là bước đi có chủ đích đã được tính toán trước của OpenAI, đầu tiên là mở rộng mối quan hệ, ký kết thỏa thuận hợp tác với một số trang tin lớn và sau đó công bố SearchGPT", ông Gillham nhận định.
Trang tin phản đối mạnh mẽ nhất chính là The New York Times. Họ kiện OpenAI và Microsoft, cáo buộc các công ty công nghệ sử dụng dữ liệu bất hợp pháp để tạo ra sản phẩm riêng.
Phát ngôn viên Charlie Stadtlander của The New York Times tuyên bố: "The Times không cho phép bất cứ tổ chức, công ty nào sử dụng sản phẩm của chúng tôi cho mục đích thu thập hoặc đào tạo AI mà không có thỏa thuận rõ ràng bằng văn bản, dù cho chúng tôi có chặn hay hạn chế bot cụ thể nào đi chăng nữa".
Trong đơn khiếu nại cáo buộc OpenAI và Microsoft, The New York Times đề cập đến vấn đề các công cụ tìm kiếm tích hợp AI có khả năng thu hút lưu lượng truy cập từ nhà xuất bản.
"Bị đơn minh hoạ mục tìm kiếm Bing của Microsoft khi sao chép và phân loại nội dung trực tuyến của The Times, tạo ra phản hồi có chứa trích đoạn nguyên văn, tổng hợp một số bài báo của Times với dung lượng dài và chi tiết hơn đáng kể so với kết quả từ công cụ tìm kiếm truyền thống", nhà xuất bản tin tức này viết trong đơn khiếu nại.
"Cung cấp nội dung của Times mà không có sự cho phép hoặc ủy quyền của The Times, các công cụ đã làm tổn hại đến mối quan hệ của Times với độc giả và tước đi quyền đăng ký, cấp phép, quảng cáo và doanh thu liên kết của The Times", The New York Times cho biết thêm.
OpenAI hiện chưa trả lời yêu cầu bình luận.
"BÀI TOÁN VỐN" CỦA OPENAI
The Information đưa tin, OpenAI có thể sớm hết tiền vì phát triển AI. Dựa trên báo cáo tài chính nội bộ liên quan đến OpenAI, nhiều chuyên gia cho rằng công ty đang chi khoảng 8,5 tỷ USD cho việc đào tạo mô hình và đội ngũ nhân sự. Con số này vượt xa một số đối thủ như Anthropic, dự kiến chi 2,7 tỷ USD cho các hoạt động tương tự.
Chi phí hoạt động tăng mạnh có thể khiến OpenAI lỗ 5 tỷ USD trong năm nay. Trước đó, theo dữ liệu từ công ty nghiên cứu Tracxn, OpenAI hoàn thành 7 vòng gọi vốn và huy động được gần 12 tỷ USD.
SearchGPT đang hoạt động miễn phí và công ty phải sớm tìm ra kế hoạch tạo doanh thu để bù đắp chi phí đầu tư.
Việc thành lập một cấu trúc công ty thống nhất mang tên EU Inc. hứa hẹn biến châu Âu trở thành nơi dễ dàng nhất thế giới để khởi nghiệp và gọi vốn…
Thông qua quan hệ đối tác Việt Nam – Nhật Bản, UNDP đóng vai trò cầu nối giữa chính sách và thị trường, giữa startup và doanh nghiệp, để đổi mới sáng tạo mang lại những tác động phát triển bền vững dài hạn...
Những startup tham gia Dự án Giải pháp Tương lai không chỉ phát triển công nghệ, mà đã trực tiếp đi vào các thách thức thực tiễn của Việt Nam, tạo ra dữ liệu, bằng chứng và tác động xã hội cụ thể...
Năm 2026, AI không còn là cuộc chơi của những lời hứa. Đó sẽ là năm các nhà đầu tư buộc công nghệ phải chứng minh giá trị, buộc startup phải chọn rõ mình giải quyết vấn đề gì – và cho ai…
Chỉ trong vòng một năm, hơn 50 cá nhân hoạt động trong lĩnh vực hạ tầng, mô hình và ứng dụng AI đã gia nhập “câu lạc bộ tỷ phú”...
AI không chỉ thay đổi cách chúng ta viết code. Nó đang viết lại cả độ tuổi bắt đầu sự nghiệp khởi nghiệp...
Hợp tác trong đổi mới sáng tạo mở giữa Việt Nam và Nhật Bản đặt trọng tâm vào mô hình “bài toán – giải pháp”...
Vòng gọi vốn này thu hút sự tham gia của các nhà đầu tư hiện tại và mới, bao gồm các tên tuổi lớn như Monk’s Hill Ventures, Peak XV Partners và ICMG...
Thị phần đầu tư mạo hiểm vào công nghệ khí hậu của Việt Nam đã tăng vọt lên 22,3%, gần gấp đôi mức trung bình toàn cầu…
Chương trình Tăng tốc AI FastTrack cung cấp cho các công ty khởi nghiệp tới 1 triệu USD tài nguyên GPU và đám mây và cơ hội chứng minh PoC với hơn 100 tập đoàn lớn trên khắp châu Á thông qua mạng lưới Đổi mới Mở GenAI…