Siêu chip Blackwell của Nvidia có nguy cơ hoãn thời hạn ra mắt do quá nhiệt
Các báo cáo mới nhất đã chỉ ra GPU Blackwell sắp ra mắt của Nvidia quá nóng khi hoạt động trong giá đỡ máy chủ…
Các con chip AI Blackwell sắp ra mắt của Nvidia - vốn đang bị trì hoãn để đưa ra thị trường được cho là đang bị quá nhiệt khiến chúng không thể triển khai trên các giá đỡ của trung tâm dữ liệu.
Báo cáo của The Information cho biết khách hàng đã nêu lên những vấn đề nghiêm trọng về vấn đề này, lo ngại rằng nó sẽ ảnh hưởng đến kế hoạch xây dựng cơ sở hạ tầng trung tâm dữ liệu mới cho trí tuệ nhân tạo (AI) của họ.
Các chip Blackwell dường như quá nóng khi được kết nối với nhau trong các giá đỡ máy chủ của trung tâm dữ liệu - vốn được được thiết kế để chứa tới 72 chip cùng một lúc. Khi chip được tích hợp vào giá đỡ máy chủ tùy chỉnh của Nvidia, chúng sẽ tạo ra nhiệt quá mức có thể dẫn đến hoạt động kém hiệu quả hoặc thậm chí làm hỏng phần cứng.
Nvidia được cho là đã yêu cầu các nhà cung cấp của mình thay đổi thiết kế giá đỡ của họ nhiều lần để thử giải quyết các vấn đề quá nhiệt, nhưng không thành công. Người phát ngôn của công ty chia sẻ với truyền thông vào ngày 18/11: “Nvidia đang hợp tác với các nhà cung cấp dịch vụ đám mây hàng đầu như một phần không thể thiếu trong quy trình và nhóm kỹ thuật của chúng tôi.”
Nvidia lần đầu tiên công bố Blackwell vào tháng 3, là sản phẩm kế thừa của bộ xử lý đồ họa (GPU) H100 cực kỳ thành công được sử dụng để cung cấp năng lượng cho phần lớn các ứng dụng AI trên thế giới ngày nay. Chúng được cho là mang lại hiệu suất tăng gấp 30 lần so với chip H100 đồng thời giảm mức tiêu thụ năng lượng tới 25% đối với một số khối lượng công việc.
Ban đầu, công ty dự định xuất xưởng chip Blackwell vào nửa cuối năm nay, nhưng kế hoạch của họ đã thất bại khi một lỗi thiết kế được tiết lộ, khiến ngày ra mắt bị đẩy lùi sang đầu năm 2025.
Một trong những cải tiến quan trọng ở Blackwell là nó hợp nhất hai tấm silicon, mỗi tấm có kích thước bằng chip H100 của công ty, thành một thành phần duy nhất. Đây là tiến bộ quan trọng cho phép chip xử lý khối lượng công việc AI nhanh hơn nhiều, cho phép xử lý dữ liệu nhanh hơn.
Vấn đề ban đầu được cho là có liên quan đến khuôn xử lý kết nối hai tấm silicon đó, nhưng Giám đốc điều hành Nvidia Jensen Huang cho biết trong chuyến thăm Đan Mạch vào tháng trước rằng vấn đề đã được giải quyết với sự hỗ trợ từ đối tác sản xuất của họ, Công ty Sản xuất Chất bán dẫn Đài Loan (TSMC).
Vẫn chưa rõ liệu các vấn đề quá nhiệt mới có ảnh hưởng đến ngày ra mắt mới của Blackwell hay không - dự kiến vào đầu năm sau. Các siêu chip GB200 Grace Blackwell được thiết lập có giá lên tới 70.000 USD một chiếc, trong khi một giá đỡ máy chủ hoàn chỉnh có giá hơn 3 triệu USD.
Nvidia trước đây cho biết họ hy vọng sẽ bán được khoảng 60.000 đến 70.000 máy chủ hoàn chỉnh, do đó, bất kỳ sự chậm trễ nào nữa có thể sẽ cực kỳ tốn kém đối với công ty, vốn đã trở thành một trong những công ty có giá trị nhất trên thế giới do sự thống trị trong ngành công nghiệp AI.
Chuyên gia Holger Mueller của Constellation Research cho biết hệ thống làm mát rất quan trọng đối với nền tảng AI vì các chip tăng tốc mạnh nhất chạy ở nhiệt độ cao hơn mức tối ưu và sẽ nhanh chóng hỏng nếu không được làm mát, vì vậy đây có thể là một vấn đề nghiêm trọng . Theo ông, Nvidia dường như đã thừa nhận rằng có một vấn đề, nhưng họ chưa cho biết vấn đề thực sự nghiêm trọng đến mức nào.
“Câu hỏi đặt ra là việc sửa chữa này sẽ tốn bao nhiêu tiền và sẽ mất bao lâu?” Mueller nói. “Cho đến nay, Blackwell là nền tảng hấp dẫn nhất dành cho AI tổng hợp, vì vậy khách hàng thực sự không có lựa chọn nào khác ngoài việc chờ đợi bản sửa lỗi. Khoảng thời gian chờ đợi đó sẽ quyết định liệu có bất kỳ tác động nào đến giá cổ phiếu cao ngất trời của Nvidia hay không.”
Đối với khách hàng, mối lo ngại chính là bất kỳ sự chậm trễ nào cũng sẽ ảnh hưởng đến kế hoạch triển khai cơ sở hạ tầng trung tâm dữ liệu của họ và có khả năng ảnh hưởng đến khả năng phát triển các mô hình và ứng dụng AI tiên tiến hơn.