Công ty chip do Jim Keller lãnh đạo, Tenstorrent đã phát hành bộ xử lý lỗ sâu thế hệ tiếp theo cho khối lượng công việc của AI, mà nó dự kiến sẽ mang lại hiệu suất tốt với giá cả phải chăng.Công ty hiện cung cấp hai thẻ PCIe bổ sung có thể chứa một hoặc hai bộ xử lý lỗ sâu, cũng như máy trạm TT-Loudbox và TT-Qietbox cho các nhà phát triển phần mềm. Tất cả các thông báo ngày nay đều nhằm vào các nhà phát triển, không phải là những thông báo sử dụng bảng điều khiển Wormhole cho khối lượng công việc thương mại.
Jim Keller, Giám đốc điều hành của Tenstorrent cho biết, luôn luôn hài lòng khi đưa thêm các sản phẩm của chúng tôi vào tay các nhà phát triển. Phát hành các hệ thống phát triển bằng cách sử dụng thẻ Wormhole ™ của chúng tôi có thể giúp các nhà phát triển mở rộng quy mô và phát triển phần mềm AI đa chip.Ngoài sự ra mắt này, chúng tôi rất vui mừng khi thấy sự tiến bộ mà chúng tôi đang thực hiện với băng và tăng sức mạnh của sản phẩm thế hệ thứ hai của chúng tôi, Blackhole.

Mỗi bộ xử lý lỗ Wormhole chứa 72 lõi TENSIX (năm trong số đó hỗ trợ các lõi RISC-V ở các định dạng dữ liệu khác nhau) và 108 MB SRAM, cung cấp 262 TFLOps FP8 ở 1 GHz với công suất thiết kế nhiệt là 160W. Thẻ Wormhole N150 đơn chip được trang bị bộ nhớ video GDDR6 12 GB và có băng thông là 288 GB/s.
Bộ xử lý lỗ sâu cung cấp khả năng mở rộng linh hoạt để đáp ứng nhu cầu đa dạng của khối lượng công việc. Trong một thiết lập máy trạm tiêu chuẩn với bốn thẻ N300 Wormhole, bộ xử lý có thể được kết hợp thành một đơn vị xuất hiện trong phần mềm dưới dạng mạng lõi TENSIX hợp nhất. Cấu hình này cho phép máy gia tốc xử lý cùng một khối lượng công việc, được phân chia giữa bốn nhà phát triển hoặc chạy đến tám mô hình AI khác nhau cùng một lúc. Một tính năng chính của khả năng mở rộng này là nó có thể chạy cục bộ mà không cần ảo hóa. Trong môi trường trung tâm dữ liệu, bộ xử lý lỗ sâu sẽ sử dụng PCIE để mở rộng bên trong máy hoặc Ethernet để mở rộng bên ngoài.
Về hiệu suất, thẻ giun đơn chip đơn của Tenstorrent (lõi 72 tensix, tần số 1 GHz, 108 Mb SRAM, 12 GB GDDR6, băng thông 288 GB/s Tổng hợp 24 GB GDDR6, băng thông 576 GB/s) cung cấp tới 466 fp8 TFLOps ở 300W.
Để đưa 300W trong số 466 fp8 TFLOps vào bối cảnh, chúng tôi sẽ so sánh nó với những gì mà người dẫn đầu thị trường AI Nvidia đang cung cấp với sức mạnh thiết kế nhiệt này. A100 của NVIDIA không hỗ trợ FP8, nhưng nó hỗ trợ INT8, với hiệu suất cao nhất là 624 ngọn (1.248 ngọn khi thưa thớt). So sánh, H100 của NVIDIA hỗ trợ FP8 và đạt hiệu suất cao nhất 1.670 TFLOPS ở mức 300W (3,341 TFLOps tại Sở phụ), khác biệt đáng kể so với N300 lỗ sâu của Tenstorrent.
Tuy nhiên, có một vấn đề lớn. Wormhole N150 của Tenstorrent bán lẻ với giá 999 đô la, trong khi N300 được bán với giá 1.399 đô la. Để so sánh, một card đồ họa NVIDIA H100 duy nhất bán lẻ với giá 30.000 đô la, tùy thuộc vào số lượng. Tất nhiên, chúng tôi không biết liệu bốn hoặc tám bộ xử lý lỗ giun thực sự có thể cung cấp hiệu suất của một H300, nhưng TDP của chúng lần lượt là 600W và 1200W.
Ngoài các thẻ, Tenstorrent còn cung cấp các máy trạm được xây dựng sẵn cho các nhà phát triển, bao gồm 4 thẻ N300 trong TT-Loudbox dựa trên Xeon giá cả phải chăng hơn với việc làm mát hoạt động và TT-Qietbox tiên tiến với chức năng làm mát chất lỏng Xiaolong) dựa trên EPYC).
Thời gian đăng: tháng 7-29-2024