ᐈ NVIDIA представила Vera Rubin с Groq LPX для прорыва в инференс — рынок, где она никогда не была первой

Партнерство NVIDIA с Groq теперь формализуется, поскольку Дженсен представляет гибридный вычислительный модуль с блоками LPU третьего поколения от Groq в стойке Rubin.Идея NVIDIA с Groq — нацелиться на «высокоскоростные» рабочие нагрузки, надеясь взломать конкуренцию в инференсе

Дебаты о том, что NVIDIA будет делать с Groq, продолжались довольно долго, и мы сохраняли ключевое лидерство в развитии событий. На GTC 2026 NVIDIA представила новый гибридный вычислительный модуль Vera Rubin — Groq 3 LPX, который включает восемь «неанонсированных» блоков Groq3, которые мы обсудим далее. Согласно NVIDIA, LPX и Rubin вместе обеспечивают беспрецедентную производительность инференса, обеспечивая 35-кратное увеличение пропускной способности инференса на мегаватт, поэтому решение Groq стало ключом для NVIDIA к открытию рынка инференса.

Что касается отдельного вычислительного модуля, мы смотрим на стойку с 256 блоками LPU, приносящую 128 ГБ встроенной SRAM и 640 ТБ/с пропускной способности масштабирования. Это ответ NVIDIA на то, что делают Cerebras и конкуренты в области инференса, и, по сути, комбинируя GPU Rubin с LPU, NVIDIA нацеливается как на стадии предзаполнения, так и на декодирования инференса, позволяя компании стать конкурентоспособной на рынке, где «они не первые».

Для отдельного чипа Groq3 вы смотрите на 500 МБ SRAM, 150 ТБ/с пропускной способности SRAM и 1,2 петафлопс (FP8). Когда вы объединяете Rubin и модуль LPX от Groq, генеральный директор NVIDIA говорит, что общие вычисления для AI-инференса достигают до 315 петафлопс, и вот крупный план внутренностей модуля:

Оптимизированная для моделей с триллионами параметров и контекстом в миллион токенов, совместно разработанная архитектура LPX сочетается с Vera Rubin для максимизации эффективности по мощности, памяти и вычислениям. Дополнительная пропускная способность на ватт и производительность токенов открывают новый уровень ультрапремиального инференса с триллионами параметров и контекстом в миллион, расширяя возможности получения дохода для всех AI-провайдеров.

Идея заключается в том, что блоки LPU от Groq будут играть роль, аналогичную роли Mellanox в сетях, и что эта гибридная архитектура даст NVIDIA фору в рабочих нагрузках, чувствительных к задержкам. Поскольку агентный ИИ становится следующей «точкой перелома» для индустрии, для NVIDIA критически важно соответствовать вычислительным требованиям, поэтому партнерство с Groq пришло в жизненно важное время для Team Green.

Первоисточник: Muhammad Zuhair