17:57 06/08/2024

Các trang tin hàng đầu Hoa Kỳ quyết tâm ngăn chặn SearchGPT của OpenAI khai thác dữ liệu

Sơn Trần

Tuần trước, OpenAI cho ra mắt công cụ tìm kiếm mới có tên SearchGPT. Tuy nhiên, một số trang tin hàng đầu Hoa Kỳ đã chặn trình thu thập dữ liệu web của OpenAI, hay còn gọi là OAI-SearchBot…

Nếu không có quyền truy cập trình thu thập thông tin vào mọi trang web, dịch vụ SearchGPT của OpenAI có nguy cơ không thể cạnh tranh với công cụ Tìm kiếm Google.
Nếu không có quyền truy cập trình thu thập thông tin vào mọi trang web, dịch vụ SearchGPT của OpenAI có nguy cơ không thể cạnh tranh với công cụ Tìm kiếm Google.

Khoảng một tuần sau khi OpenAI ra mắt SearchGPT, một số trang tin hàng đầu Hoa Kỳ đồng loạt tuyên bố không muốn liên quan gì đến công cụ tìm kiếm mới của công ty khởi nghiệp này, theo Business Insider.

Tờ New York Times và ít nhất 13 trang tin khác đã chặn OAI-SearchBot. Đây là trình thu thập dữ liệu web, được thiết kế để OpenAI có thể truy xuất và hiển thị kết quả có liên quan cho người dùng SearchGPT.

Originality.ai, công cụ phát hiện đạo văn và trí tuệ nhân tạo được thiết kế đặc biệt cho các tòa soạn điện tử, thống kê có 14 trong số 1.000 trang tin hàng đầu đã chặn OAI-SearchBot. Một số nhà xuất bản khác trong danh sách bao gồm Wired, The New Yorker, Vogue, Vanity Fair và GQ.

Theo ông Jon Gillham, Giám đốc Điều hành Originality.ai, đây là điều khó hiểu. "Tôi không hiểu tại sao các nhà xuất bản lại chặn công cụ", ông Gillham trả lời báo chí. "Đó là lưu lượng truy cập mà các nhà xuất bản luôn muốn và cần".

Khi OpenAI công bố SearchGPT, họ nhấn mạnh rằng OAI-SearchBot không thu thập thông tin web để lấy dữ liệu đào tạo mô hình AI như GPT-5. Công ty khuyên chủ sở hữu trang web nên cấp phép cho bot mới để "đảm bảo trang web của bạn được xuất hiện trong kết quả tìm kiếm".

Nếu không có quyền truy cập trình thu thập thông tin vào mọi trang web, dịch vụ SearchGPT của OpenAI có nguy cơ không thể cạnh tranh với công cụ Tìm kiếm Google. Khi được hỏi liệu có bất kỳ trang tin lớn nào chặn bot tìm kiếm của Google hay không, CEO Originality.ai không nắm được thông tin này.

THIẾU TIN TƯỞNG HOẶC NGHI NGỜ LƯU LƯỢNG TRUY CẬP TÌM KIẾM

Có một trình thu thập dữ liệu web khác của OpenAI, được gọi là GPTbot. Chúng thu thập dữ liệu trực tuyến để đào tạo mô hình AI. Thế nhưng, hàng trăm trang web đã chặn GPTbot. Động thái này có vẻ dễ hiểu khi bạn muốn lưu lượng truy cập từ các công cụ tìm kiếm, nhưng bạn không muốn cho đi nội dung của mình để đào tạo mô hình AI - sau này có khả năng sẽ cạnh tranh trực tiếp với bạn.

Tuy nhiên, OpenAI đã dành nhiều năm để thu thập dữ liệu trực tuyến mà không cần cho phép. Có lẽ, chính điều này khiến các nhà xuất bản không tin tưởng OpenAI, cho rằng bot tìm kiếm mới cũng sẽ bí mật thu thập nội dung để đào tạo dữ liệu AI.

Một giả thuyết khác là kết quả tìm kiếm ngày nay không phải lúc nào cũng đưa người dùng đến trang web gốc - nơi tác giả mất công sức tạo nội dung. Một phần mục tiêu của hầu hết công cụ tìm kiếm tích hợp AI là giữ chân người dùng bằng cách tóm tắt và tổng hợp thông tin. Nếu nhà xuất bản không còn thấy lưu lượng truy cập lớn từ công cụ tìm kiếm, tại sao họ phải bận tâm cho phép bot thu thập dữ liệu web?

KHIẾU NẠI TỪ THE NEW YORK TIMES

Trang tin phản đối mạnh mẽ nhất chính là The New York Times với cáo buộc sử dụng dữ liệu bất hợp pháp.
Trang tin phản đối mạnh mẽ nhất chính là The New York Times với cáo buộc sử dụng dữ liệu bất hợp pháp.

Giám đốc Gillham cũng lưu ý năm nay OpenAI đã nỗ lực ký kết các thỏa thuận với nhiều nhà xuất bản để sử dụng kho lưu trữ nội dung, một trong số đó là Axel Springer, công ty mẹ của Business Insider. 

"Có vẻ đây là bước đi có chủ đích đã được tính toán trước của OpenAI, đầu tiên là mở rộng mối quan hệ, ký kết thỏa thuận hợp tác với một số trang tin lớn và sau đó công bố SearchGPT", ông Gillham nhận định.

Trang tin phản đối mạnh mẽ nhất chính là The New York Times. Họ kiện OpenAI và Microsoft, cáo buộc các công ty công nghệ sử dụng dữ liệu bất hợp pháp để tạo ra sản phẩm riêng.

Phát ngôn viên Charlie Stadtlander của The New York Times tuyên bố: "The Times không cho phép bất cứ tổ chức, công ty nào sử dụng sản phẩm của chúng tôi cho mục đích thu thập hoặc đào tạo AI mà không có thỏa thuận rõ ràng bằng văn bản, dù cho chúng tôi có chặn hay hạn chế bot cụ thể nào đi chăng nữa".

Trong đơn khiếu nại cáo buộc OpenAI và Microsoft, The New York Times đề cập đến vấn đề các công cụ tìm kiếm tích hợp AI có khả năng thu hút lưu lượng truy cập từ nhà xuất bản.

"Bị đơn minh hoạ mục tìm kiếm Bing của Microsoft khi sao chép và phân loại nội dung trực tuyến của The Times, tạo ra phản hồi có chứa trích đoạn nguyên văn, tổng hợp một số bài báo của Times với dung lượng dài và chi tiết hơn đáng kể so với kết quả từ công cụ tìm kiếm truyền thống", nhà xuất bản tin tức này viết trong đơn khiếu nại. 

"Cung cấp nội dung của Times mà không có sự cho phép hoặc ủy quyền của The Times, các công cụ đã làm tổn hại đến mối quan hệ của Times với độc giả và tước đi quyền đăng ký, cấp phép, quảng cáo và doanh thu liên kết của The Times", The New York Times cho biết thêm.

OpenAI hiện chưa trả lời yêu cầu bình luận.

"BÀI TOÁN VỐN" CỦA OPENAI

The Information đưa tin, OpenAI có thể sớm hết tiền vì phát triển AI. Dựa trên báo cáo tài chính nội bộ liên quan đến OpenAI, nhiều chuyên gia cho rằng công ty đang chi khoảng 8,5 tỷ USD cho việc đào tạo mô hình và đội ngũ nhân sự. Con số này vượt xa một số đối thủ như Anthropic, dự kiến chi 2,7 tỷ USD cho các hoạt động tương tự.

Chi phí hoạt động tăng mạnh có thể khiến OpenAI lỗ 5 tỷ USD trong năm nay. Trước đó, theo dữ liệu từ công ty nghiên cứu Tracxn, OpenAI hoàn thành 7 vòng gọi vốn và huy động được gần 12 tỷ USD.

SearchGPT đang hoạt động miễn phí và công ty phải sớm tìm ra kế hoạch tạo doanh thu để bù đắp chi phí đầu tư.