← Все статьи

Запуск нейросетей на NVIDIA RTX PRO 6000 Blackwell

Знакомство с NVIDIA RTX PRO 6000 Blackwell

В марте 2025 года NVIDIA представила линейку профессиональных видеокарт RTX PRO 6000 на архитектуре Blackwell. Это не игровая карта — она создана для профессионалов, работающих с ИИ, научными вычислениями, 3D-рендерингом и обработкой видео.

Зачем NVIDIA выпустила эту видеокарту

До появления RTX PRO 6000 у профессионалов был разрыв между потребительскими картами (RTX 5090 с 32 ГБ VRAM) и серверными ускорителями (A100/H100 с 80 ГБ). RTX 5090 не хватало памяти для больших моделей, а серверные GPU стоили десятки тысяч долларов и требовали специальной инфраструктуры.

RTX PRO 6000 закрывает этот разрыв: 96 ГБ GDDR7 памяти в формате десктопной видеокарты. Это позволяет запускать модели на 70B+ параметров прямо на рабочей станции, без облака и без серверной стойки.

Целевая аудитория

  • AI/ML-инженеры — локальная разработка и тестирование LLM, файн-тюнинг моделей
  • Дата-сайентисты — работа с большими датасетами через RAPIDS и CUDA
  • 3D-художники и архитекторы — рендеринг сложных сцен с трассировкой лучей
  • Видеопродакшн — обработка 4K/8K контента с аппаратным кодированием
  • Научные вычисления — симуляции, геномика, финансовое моделирование
  • Провайдеры GPU-инфраструктуры — предоставление GPU-мощностей для инференса ИИ-моделей в аренду

Характеристики RTX PRO 6000 Blackwell Workstation Edition

Параметр Значение
Архитектура NVIDIA Blackwell (GB202)
CUDA-ядра 24 064
Тензорные ядра 5-го поколения, 752 шт.
RT-ядра 4-го поколения, 188 шт.
Потоковые мультипроцессоры (SM) 188
Видеопамять 96 ГБ GDDR7 с ECC
Шина памяти 512 бит
Пропускная способность памяти 1792 ГБ/с
Эффективная частота памяти 1750 МГц (28 Гбит/с на контакт)
AI-производительность 4000 TOPS (FP4, со спарсити)
FP32-производительность 125 TFLOPS
RT-производительность 380 TFLOPS
Транзисторов 92.2 млрд
Площадь кристалла 750 мм²
Интерфейс PCIe 5.0 x16
Видеовыходы 4× DisplayPort 2.1
Видеокодирование 4× NVENC 9-го поколения
Видеодекодирование 4× NVDEC 6-го поколения
TDP 600 Вт

Полные характеристики и даташит доступны на официальной странице NVIDIA RTX PRO 6000.

Ключевое преимущество для ИИ-задач — это 96 ГБ GDDR7 с пропускной способностью 1792 ГБ/с. Для сравнения: RTX 5090 имеет 32 ГБ GDDR7, а предыдущая профессиональная RTX 6000 Ada (Lovelace) — 48 ГБ GDDR6. RTX PRO 6000 удваивает объём памяти и значительно увеличивает bandwidth, что критично для инференса больших языковых моделей.


Модели для тестирования

Мы запустили три модели разных архитектур на отдельных видеокартах RTX PRO 6000, каждая в своём Docker-контейнере через vLLM:

Модель Тип Всего параметров Активных параметров Квантизация Контекст (макс.)
Qwen3.5-122B-A10B MoE (256 экспертов) 122B 10B NVFP4 262K
GLM-4.6V MoE 106B 32B NVFP4 128K (до 200K)
Llama 4 Scout 17B-16E MoE (16 экспертов) 109B 17B W4A16 10M (до 512K практически)

Все три модели используют архитектуру Mixture of Experts (MoE). В отличие от обычных (dense) моделей, где каждый токен проходит через все параметры, MoE-модель содержит множество «экспертов» — отдельных блоков нейронной сети. Маршрутизатор (router) для каждого токена выбирает лишь несколько экспертов из всего набора.

Важно понимать: MoE-модель загружается в видеопамять целиком — все параметры всех экспертов должны находиться в VRAM. Но при обработке каждого конкретного токена активируется только малая часть из них. Например, Qwen3.5-122B-A10B имеет 122B параметров и занимает ~75 ГБ VRAM, но на каждый токен задействует только 10B параметров из 256 экспертов. Это означает, что скорость инференса определяется размером активной части (10B), а не общим размером модели (122B), при этом качество ответов соответствует модели на 122B параметров.


Запуск моделей через vLLM в Docker Compose

Для запуска моделей мы используем vLLM — высокопроизводительный бэкенд для инференса LLM с поддержкой PagedAttention, continuous batching и автоматического управления KV-кешем.

Общие параметры запуска

Прежде чем разбирать конфигурацию каждой модели, рассмотрим параметры, которые встречаются во всех трёх сервисах:

Параметр Описание
--trust-remote-code Разрешает выполнение кастомного кода из репозитория модели на HuggingFace. Необходим для моделей с нестандартной архитектурой
--gpu-memory-utilization 0.95-0.97 Доля VRAM, которую vLLM может использовать. Остаток резервируется под CUDA-контекст и системные нужды
--enable-prefix-caching Кеширует KV-состояния общих префиксов между запросами. Ускоряет обработку повторяющихся системных промптов
--enable-chunked-prefill Разбивает длинные промпты на чанки и обрабатывает их параллельно с генерацией других запросов. Снижает TTFT
--enable-auto-tool-choice Включает автоматический выбор инструментов (function calling)
--served-model-name Имя модели, по которому она будет доступна через API
--port Порт для HTTP API

Qwen3.5-122B-A10B (NVFP4)

vllm-qwen35-122b:
  image: vllm/vllm-openai:v0.18.1
  volumes:
    - ~/.cache/huggingface:/root/.cache/huggingface
  environment:
    - HUGGING_FACE_HUB_TOKEN=${HUGGING_FACE_HUB_TOKEN}
  entrypoint: ["/bin/bash", "-c"]
  command:
    - |
      pip install "transformers>=5.0.0" && \
      vllm serve RedHatAI/Qwen3.5-122B-A10B-NVFP4 \
        --trust-remote-code \
        --gpu-memory-utilization 0.95 \
        --reasoning-parser qwen3 \
        --enable-auto-tool-choice \
        --tool-call-parser hermes \
        --served-model-name qwen3.5-122b \
        --max-model-len 32768 \
        --moe-backend flashinfer_cutlass \
        --enable-prefix-caching \
        --enable-chunked-prefill \
        --max-num-seqs 64 \
        --port 8000
  deploy:
    resources:
      reservations:
        devices:
          - driver: nvidia
            device_ids: ["0"]
            capabilities: [gpu]
  ipc: host
  restart: unless-stopped

Специфичные параметры:

Параметр Описание
pip install "transformers>=5.0.0" Модель Qwen3.5 требует новую версию transformers, которой нет в базовом образе vLLM
--reasoning-parser qwen3 Парсер для режима reasoning (цепочка рассуждений). Qwen3.5 поддерживает thinking-режим с тегами <think>
--tool-call-parser hermes Формат парсинга вызовов функций — Hermes-стиль, совместимый с Qwen
--max-model-len 32768 Максимальная длина контекста ограничена 32K токенами (подробнее в разделе про расчёт контекста)
--moe-backend flashinfer_cutlass Бэкенд для MoE-слоёв. FlashInfer + CUTLASS обеспечивает оптимальную производительность для MoE-моделей на Blackwell
--max-num-seqs 64 Максимум 64 одновременных запроса в батче

GLM-4.6V (NVFP4)

vllm-glm46v-nvfp4:
  image: vllm/vllm-openai:v0.18.1
  volumes:
    - ~/.cache/huggingface:/root/.cache/huggingface
  environment:
    - HUGGING_FACE_HUB_TOKEN=${HUGGING_FACE_HUB_TOKEN}
    - VLLM_ENGINE_ITERATION_TIMEOUT_S=600
  entrypoint: ["/bin/bash", "-c"]
  command:
    - |
      pip install --upgrade "huggingface-hub>=0.26.0" "transformers>=5.0.0" && \
      vllm serve GadflyII/GLM-4.6V-NVFP4 \
        --trust-remote-code \
        --max-model-len 131072 \
        --gpu-memory-utilization 0.95 \
        --kv-cache-dtype fp8 \
        --served-model-name glm-4.6v \
        --max-num-seqs 8 \
        --enable-prefix-caching \
        --enable-chunked-prefill \
        --reasoning-parser deepseek_r1 \
        --enable-auto-tool-choice \
        --tool-call-parser hermes \
        --port 8004
  deploy:
    resources:
      reservations:
        devices:
          - driver: nvidia
            device_ids: ["1"]
            capabilities: [gpu]
  ipc: host
  restart: unless-stopped

Специфичные параметры:

Параметр Описание
VLLM_ENGINE_ITERATION_TIMEOUT_S=600 Увеличенный таймаут итерации движка (10 минут). GLM-4.6V — тяжёлая модель, и при длинных промптах prefill может занимать значительное время
pip install --upgrade "huggingface-hub>=0.26.0" Требуется обновлённая версия HF Hub для загрузки модели
--max-model-len 131072 Контекст 128K токенов — максимум для GLM-4.6V в обучении
--kv-cache-dtype fp8 KV-кеш хранится в формате FP8 вместо FP16. Это вдвое сокращает потребление памяти на кеш, позволяя вместить больший контекст
--max-num-seqs 8 Только 8 одновременных запросов — GLM-4.6V значительно тяжелее, 32B активных параметров потребляют больше VRAM
--reasoning-parser deepseek_r1 Парсер reasoning в стиле DeepSeek R1 — GLM-4.6V использует аналогичный формат цепочки рассуждений

Llama 4 Scout 17B-16E (W4A16)

vllm-llama4-scout:
  image: vllm/vllm-openai:v0.18.1
  volumes:
    - ~/.cache/huggingface:/root/.cache/huggingface
  environment:
    - HUGGING_FACE_HUB_TOKEN=${HUGGING_FACE_HUB_TOKEN}
    - VLLM_DISABLE_COMPILE_CACHE=1
  entrypoint: ["/bin/bash", "-c"]
  command:
    - |
      vllm serve RedHatAI/Llama-4-Scout-17B-16E-Instruct-quantized.w4a16 \
        --trust-remote-code \
        --gpu-memory-utilization 0.97 \
        --served-model-name llama-4-scout \
        --max-model-len 131072 \
        --enable-prefix-caching \
        --enable-chunked-prefill \
        --max-num-seqs 64 \
        --limit-mm-per-prompt '{"image": 10}' \
        --enable-auto-tool-choice \
        --tool-call-parser llama3_json \
        --override-generation-config '{"attn_temperature_tuning": true}' \
        --port 8003
  deploy:
    resources:
      reservations:
        devices:
          - driver: nvidia
            device_ids: ["2"]
            capabilities: [gpu]
  ipc: host
  restart: unless-stopped

Специфичные параметры:

Параметр Описание
VLLM_DISABLE_COMPILE_CACHE=1 Отключает кеш компиляции CUDA-графов. Необходимо для Llama 4 из-за особенностей архитектуры MoE с 16 экспертами
--gpu-memory-utilization 0.97 Более агрессивное использование VRAM (97%) — Llama 4 Scout в W4A16 квантизации достаточно компактна
--max-model-len 131072 128K токенов контекста. Llama 4 Scout поддерживает до 10M токенов, но на одной карте это нереально
--limit-mm-per-prompt '{"image": 10}' Ограничение: максимум 10 изображений на один запрос. Llama 4 Scout — мультимодальная модель
--tool-call-parser llama3_json Парсер function calling в формате Llama 3 JSON
--override-generation-config '{"attn_temperature_tuning": true}' Включает температурную настройку внимания — улучшает качество генерации на длинных контекстах, рекомендовано Meta
--max-num-seqs 64 До 64 параллельных запросов — модель легче за счёт W4A16 квантизации

Расчёт контекста и KV-кеш

Почему контекст ограничен

Вы могли заметить, что максимальный контекст моделей в наших конфигурациях значительно меньше, чем заявленный разработчиками:

Модель Макс. контекст модели Наш --max-model-len Причина
Qwen3.5-122B-A10B 262K 32 768 Ограничение VRAM под KV-кеш + параллельные запросы
GLM-4.6V 128K–200K 131 072 Используется FP8 KV-кеш для экономии памяти
Llama 4 Scout 10M 131 072 Физически невозможно вместить больше на 96 ГБ

Дело в том, что при инференсе GPU должен хранить в памяти одновременно:

  1. Веса модели — фиксированный объём
  2. KV-кеш — растёт линейно с длиной контекста × количество запросов
  3. Активации — временные данные при вычислениях
  4. Оверхед vLLM — PagedAttention, метаданные, CUDA-контекст

Формула расчёта KV-кеша

Для одного токена в одном запросе KV-кеш занимает:

KV_per_token = 2 × N_layers × N_kv_heads × D_head × dtype_size

Где:

  • 2 — ключ (K) и значение (V)
  • N_layers — количество слоёв трансформера
  • N_kv_heads — количество голов внимания для KV (при GQA меньше, чем Q-голов)
  • D_head — размерность одной головы (обычно 128)
  • dtype_size — размер одного числа в байтах (FP16 = 2, FP8 = 1, FP4 ≈ 0.5)

Общий объём KV-кеша:

KV_total = KV_per_token × max_context_len × max_concurrent_requests

Расчёт для наших моделей

Qwen3.5-122B-A10B (NVFP4 веса, FP16 KV-кеш):

  • 64 слоя, 4 KV-головы (GQA), D_head = 128, dtype = FP16 (2 байта)
  • KV на токен = 2 × 64 × 4 × 128 × 2 = 131 072 байт ≈ 128 КБ/токен
  • При контексте 32K и 64 запросах: 128 КБ × 32 768 × 64 ≈ 256 ГБ — это больше, чем 96 ГБ VRAM
  • Реально vLLM использует PagedAttention и динамически распределяет память, поэтому 64 запроса не будут одновременно использовать полный контекст

GLM-4.6V (NVFP4 веса, FP8 KV-кеш):

  • Благодаря --kv-cache-dtype fp8 размер KV-кеша сокращается вдвое
  • Это позволяет вместить контекст 128K при 8 параллельных запросах

Llama 4 Scout (W4A16 веса, FP16 KV-кеш):

  • 48 слоёв, 8 KV-голов (GQA), D_head = 128, dtype = FP16
  • KV на токен = 2 × 48 × 8 × 128 × 2 = 196 608 байт ≈ 192 КБ/токен
  • При контексте 128K: 192 КБ × 131 072 ≈ 24 ГБ на один запрос

Таблица оверхеда vLLM

При планировании контекста важно учитывать, что не вся VRAM доступна для KV-кеша:

Компонент Примерный объём Примечание
Веса модели (NVFP4/W4A16) 43–75 ГБ Зависит от размера и квантизации
CUDA-контекст 1–3 ГБ Инициализация драйвера и рантайма
Активации и буферы vLLM 2–5 ГБ PagedAttention metadata, block tables
Резерв (1 - gpu-memory-utilization) 3–5 ГБ Защита от OOM
Доступно для KV-кеша 10–45 ГБ Остаток от 96 ГБ

Максимальный контекст на одной RTX PRO 6000

Исходя из доступной памяти, вот максимальные контексты при одном запросе:

Модель Веса в VRAM Доступно для KV Макс. контекст (1 запрос) Макс. контекст (8 запросов)
Qwen3.5-122B-A10B ~75 ГБ ~13 ГБ ~104K ~13K
GLM-4.6V (FP8 KV) ~62 ГБ ~26 ГБ ~200K ~25K
Llama 4 Scout ~43 ГБ ~45 ГБ ~240K ~30K

Эти значения приблизительные. Реальные цифры зависят от конкретной реализации модели и версии vLLM.

Именно поэтому мы занижаем --max-model-len — чтобы несколько пользователей могли одновременно отправлять запросы без задержек и ошибок OOM. Лучше стабильный сервис с контекстом 32K для 64 пользователей, чем нестабильный с 256K для одного.


Тестирование

Бенчмарки качества моделей

Результаты стандартных бенчмарков взяты из официальных карточек моделей. Нет смысла прогонять MMLU или HumanEval самостоятельно — разработчики уже сделали это в контролируемых условиях.

Бенчмарк Что тестирует Qwen3.5-122B-A10B GLM-4.6 Llama 4 Scout
MMLU-Pro Знания и рассуждения (12K вопросов) 86.1% ~78% 74.3%
GPQA Diamond Экспертные вопросы PhD-уровня 85.5% ~65% 57.2%
LiveCodeBench Генерация кода (свежие задачи) ~55% ~50% 32.8%
SWE-bench Verified Реальные баг-фиксы в open source 72.4% ~45%
MATH Математические задачи ~75% ~70% 50.3%
MGSM Мультиязычная математика ~90% ~85% 90.6%
MMMU Мультимодальное понимание ~65% ~68% 69.4%
DocVQA Понимание документов ~90% 94.4%
ChartQA Понимание графиков ~85% 88.8%

Данные Llama 4 Scout — из официальной MODEL_CARD Meta. Qwen3.5-122B-A10B — из карточки модели на HuggingFace. GLM-4.6 — из документации Zhipu AI.

Qwen3.5-122B-A10B — лидер по качеству рассуждений и кода. MMLU-Pro 86.1% и GPQA 85.5% — уровень топовых проприетарных моделей, при этом активирует всего 10B параметров на токен.

GLM-4.6V — мультимодальная модель для работы с изображениями и текстом, 32B активных параметров из 106B общих, контекст до 128K.

Llama 4 Scout — самая лёгкая (17B активных), но с лучшей мультимодальностью: DocVQA 94.4%, ChartQA 88.8%.

Скорость генерации на RTX PRO 6000

Мы замерили скорость генерации (tokens/sec) при разной длине входного промпта. Каждая модель генерировала до 2048 токенов.

Модель Промпт Prompt tok Compl tok Время (с) tok/s
Qwen3.5-122B-A10B Короткий 59 2048 26.54 77.18
Qwen3.5-122B-A10B Средний 496 2048 26.4 77.56
Qwen3.5-122B-A10B Длинный 2144 2048 26.6 77.0
GLM-4.6V Короткий 63 2048 23.45 87.32
GLM-4.6V Средний 472 2048 23.14 88.52
GLM-4.6V Длинный 1908 2048 23.18 88.34
Llama 4 Scout Короткий 55 946 16.36 57.82
Llama 4 Scout Средний 431 796 15.45 51.53
Llama 4 Scout Длинный 1890 1152 21.4 53.84

Несколько наблюдений:

Qwen и GLM во всех тестах сгенерировали ровно 2048 токенов — это лимит max_tokens, заданный при запросе. Модели были остановлены принудительно. Llama 4 Scout завершала генерацию раньше (946–1152 токенов), самостоятельно выдавая токен конца ответа.

  • GLM-4.6V — самая быстрая на одиночных запросах: стабильные 87–88 tok/s независимо от длины промпта
  • Qwen3.5-122B — стабильные 77 tok/s. Длина промпта практически не влияет на скорость decode
  • Llama 4 Scout — 52–58 tok/s, заметно медленнее. Модель часто завершает генерацию раньше лимита в 2048 токенов
  • У всех трёх моделей длина входного промпта почти не влияет на скорость генерации — prefill на RTX PRO 6000 очень быстрый

Throughput: параллельные запросы

Ключевой тест для продакшена — как модель справляется с несколькими одновременными запросами. Мы отправляли 1, 4, 8 и 16 параллельных запросов и замеряли суммарный throughput.

Модель 1 запрос 4 запроса 8 запросов 16 запросов
Qwen3.5-122B-A10B 67.7 tok/s ~195 tok/s ~331 tok/s ~486 tok/s
GLM-4.6V 74.7 tok/s ~263 tok/s ~322 tok/s ~377 tok/s*
Llama 4 Scout 63.6 tok/s ~137 tok/s ~180 tok/s ~304 tok/s

* GLM-4.6V ограничена 8 параллельными запросами (--max-num-seqs 8) из-за большого объёма активных параметров (32B). При 16 запросах vLLM обрабатывает их в два батча: первые 8 завершаются за ~11 секунд, остальные 8 ждут в очереди и завершаются за ~24 секунды. Указанные ~377 tok/s — это throughput первого батча.

Qwen3.5-122B-A10B масштабируется лучше всех: суммарный throughput растёт почти линейно до 16 запросов. Это следствие MoE-архитектуры с всего 10B активных параметров — каждый запрос потребляет мало compute, и GPU эффективно батчит их.

GLM-4.6V быстрее всех на одном запросе, но упирается в лимит 8 параллельных запросов. Для сценариев с высокой конкурентностью это ограничение.

Llama 4 Scout — самая медленная при батчинге. Уже при 4 запросах скорость на запрос падает почти вдвое (34 vs 64 tok/s). W4A16 квантизация тяжелее для compute, чем NVFP4.


Утилизация GPU при инференсе: почему 100% нагрузки ≠ 100% энергопотребления

Если вы посмотрите на nvidia-smi во время инференса LLM, то увидите интересную картину: утилизация GPU показывает 100%, но энергопотребление составляет всего 300–400 Вт при TDP 600 Вт. Почему так происходит?

Вот реальный вывод nvidia-smi с нашего сервера во время инференса Qwen3.5-122B:

nvidia-smi во время инференса

Параметр Значение
GPU-Util 100%
Power 324W / 600W (54% от TDP)
VRAM 89 383 MiB / 97 887 MiB (91.3%)
Температура 44°C
Driver 590.48.01
CUDA 13.1

GPU загружен на 100%, но потребляет чуть больше половины от максимума. Температура при этом всего 44°C. Почему?

Что на самом деле показывает GPU Utilization

Метрика "GPU Utilization" в nvidia-smi — это процент времени, в течение которого хотя бы одно CUDA-ядро выполняло какую-либо операцию. Это не показатель того, насколько эффективно используются все вычислительные ресурсы GPU.

Можно получить 100% GPU Utilization, просто читая и записывая данные в память, не выполняя при этом ни одной математической операции. Это подтверждается исследованием Trainy: команда обнаружила, что при 100% утилизации GPU реальная эффективность использования вычислительных ресурсов (MFU — Model FLOPS Utilization) составляла всего 20%.

Почему инференс LLM — это memory-bound задача

Инференс LLM состоит из двух фаз:

  1. Prefill (обработка промпта) — все входные токены обрабатываются параллельно. Это compute-bound фаза: GPU активно использует тензорные ядра, энергопотребление близко к TDP.

  2. Decode (генерация) — токены генерируются по одному. На каждом шаге GPU должен:

    • Загрузить все веса модели из VRAM в вычислительные блоки
    • Загрузить KV-кеш для всех предыдущих токенов
    • Выполнить относительно небольшое количество вычислений
    • Записать результат обратно

На фазе decode узкое место — пропускная способность памяти, а не вычислительная мощность. GPU тратит большую часть времени на ожидание данных из VRAM, а не на вычисления. Вычислительные ядра простаивают, ожидая данных.

Связь с энергопотреблением

Энергопотребление GPU складывается из:

  • Динамическая мощность — потребляется при активных вычислениях на CUDA/Tensor-ядрах. Пропорциональна нагрузке на вычислительные блоки.
  • Статическая мощность — базовое потребление чипа (токи утечки, контроллер памяти, шина PCIe и т.д.)
  • Мощность подсистемы памяти — потребление GDDR7-чипов при чтении/записи

При инференсе LLM на фазе decode:

  • Тензорные ядра загружены лишь частично (низкая арифметическая интенсивность)
  • Подсистема памяти работает на полную мощность (bandwidth saturated)
  • Динамическая мощность вычислительных блоков значительно ниже максимума

Поэтому при TDP 600 Вт реальное потребление составляет 300–400 Вт: подсистема памяти потребляет свою долю, но вычислительные блоки не нагружены на максимум.

Аналогия

Представьте конвейер на заводе. У вас 100 рабочих (CUDA-ядра), но детали (данные) подвозят на одном грузовике (memory bandwidth). Рабочие стоят и ждут, пока грузовик привезёт следующую партию. Формально конвейер работает на 100% (всегда есть хотя бы один рабочий, который что-то делает), но реальная производительность ограничена скоростью доставки деталей.

Что это значит на практике

  • 100% GPU Utilization при инференсе — это нормально, но не означает, что GPU работает на пределе вычислительных возможностей
  • Энергопотребление 50–70% от TDP при инференсе — тоже нормально и ожидаемо для memory-bound задач
  • Для повышения реальной эффективности нужно увеличивать batch size (больше запросов одновременно), что повышает арифметическую интенсивность
  • RTX PRO 6000 с bandwidth 1792 ГБ/с — одна из лучших карт для инференса именно благодаря высокой пропускной способности памяти

Заключение

NVIDIA RTX PRO 6000 Blackwell — серьёзный инструмент для инференса нейросетей. 96 ГБ GDDR7 позволяют запускать модели, которые раньше требовали серверных GPU уровня A100/H100. Архитектура Blackwell с 5-м поколением тензорных ядер и поддержкой FP4 делает инференс квантизированных моделей ещё эффективнее.

Наши тесты показали, что на одной RTX PRO 6000 можно получить до 88 tok/s на одиночном запросе (GLM-4.6V) и до 486 tok/s суммарного throughput при 16 параллельных запросах (Qwen3.5-122B). Это позволяет обслуживать десятки пользователей одновременно с одной видеокарты.

Мы разобрали конфигурацию vLLM для каждой модели, объяснили формулу расчёта KV-кеша и почему приходится ограничивать контекст для стабильной работы, а также показали, почему 100% утилизация GPU при инференсе не означает 100% энергопотребления.