Народ на Reddit бурно обсуждает новые модели llama и мне показалось, что будет интересно сделать выжимку - что же вам потребуется для запуска локально... Итак. Читайте и запоминайте :) сколько денег вам понадобиться.Для запуска новых моделей Llama 4, которые обсуждаются, нужно понимать, что требования к оборудованию сильно зависят от конкретной версии — Scout, Maverick или Behemoth. Начнём с Llama 4 Scout, самой "лёгкой" модели с 17 миллиардами активных параметров. Её можно запустить на одном мощном серверном графическом процессоре (GPU), таком как Nvidia H100 с 80 ГБ видеопамяти HBM3 — это топовое решение для ИИ, которое используют в дата-центрах, и стоит оно от $30,000 за штуку. Если серверного оборудования нет, подойдёт игровая видеокарта высокого уровня, например, Nvidia RTX 3090 или RTX 4090 с 24 ГБ видеопамяти GDDR6X. Но даже с такой картой модель лучше сжать (квантизовать) до 4 бит, чтобы она влезла в память — в таком виде она занимает около 20-30 ГБ. Оперативной памяти (RAM) на компьютере нужно минимум 32 ГБ, а лучше 64 ГБ, чтобы избежать тормозов при загрузке и обработке данных. Хранилище тоже важно: быстрый NVMe SSD на 500 ГБ или 1 ТБ обеспечит хорошую скорость чтения. Для работы понадобится софт вроде llama.cpp или LM Studio, а операционная система — обычно Linux (Ubuntu), хотя Windows тоже поддерживается. На слабом CPU (например, Intel Core i7 с 8 ядрами) запустить можно, но скорость будет черепашьей — 1-2 слова в секунду. Электричество тоже стоит учесть: RTX 4090 жрёт до 450 Вт, так что нужен мощный блок питания (850-1000 Вт).Теперь про более тяжёлые модели — Maverick и Behemoth. Llama 4 Maverick с 400 миллиардами параметров (из них 17 миллиардов активных благодаря технологии MoE) требует уже серьёзного подхода. В обсуждениях советуют серверную "нодку" с 8 GPU Nvidia H100, соединённых через NVSwitch для быстрого обмена данными — такое оборудование стоит десятки или сотни тысяч долларов и потребляет киловатты энергии (нужен хороший охлаждающий контур). Дома это можно попробовать эмулировать на 2-4 видеокартах RTX 4090, объединённых через NVLink, но видеопамяти всё равно может не хватить без квантизации до 4 или даже 2 бит — тогда модель займёт 100-200 ГБ. RAM для такой системы нужно от 128 ГБ, а лучше 256 ГБ, чтобы не упираться в узкие места. SSD на 1-2 ТБ обязателен, потому что даже сжатые файлы модели плюс временные данные занимают много места. Ну а Llama 4 Behemoth с её 2 триллионами параметров — это уже совсем другой уровень: для обучения Meta использовала кластер из 32 тысяч GPU, а для простого запуска (inference) всё равно нужны десятки H100 или аналогичных чипов. На домашнем уровне это неосуществимо — только серверные фермы с сотнями гигабайт RAM, терабайтами NVMe-дисков и пропускной способностью сети в сотни гигабит/с. Даже сжатие тут не спасёт без огромных ресурсов. В итоге, если ты хочешь просто попробовать Llama 4, Scout на RTX 4090 с 64 ГБ RAM и SSD — твой лучший старт, а остальное — для больших компаний или энтузиастов с безлимитным бюджетом.Русский ИТ бизнес