Kentino sro
K-AI 96 Rome 4090 2644TOPS — 4× RTX 4090 tehisintellekti järeldusserver
K-AI 96 Rome 4090 2644TOPS — 4× RTX 4090 tehisintellekti järeldusserver
Vastuvõtmise saadavust ei õnnestunud laadida
K-AI 96 Rooma 4090 2644TOPS
96 GB videomäluga järeldusserver
4x RTX 4090 | EPYC Rooma | 2644 TOPS INT8
Mõõdetud Kentino riistvaral. Llama 3.3 70B AWQ INT4 vLLM 0.19.0 kaudu.
4U riiulile paigaldatav järeldusserver nelja GeForce RTX 4090 graafikakaardiga, mis on ühendatud 96 GB videomäluga, ühe AMD EPYC 7542 Rome protsessoriga (32C/64T), 256 GB DDR4 ECC-ga, 2 TB NVMe alglaadimismäluga ja kahe sünkroniseeritud 2 kW ATX toiteplokiga. Käitab koheselt vLLM-i, SGLangi, llama.cpp-i, ComfyUI-d ja kõiki peamisi avatud kaaluga järelduspinu.
riistvara
| Komponent | detail |
|---|---|
| GPU | 4x NVIDIA GeForce RTX 4090 24 GB GDDR6X (450 W, PCIe 4.0 x16) |
| VRAM-i bassein | Kokku 96 GB nelja kaardi peale |
| Protsessor | AMD EPYC 7542 Rome (32C/64T, 225 W, 128x PCIe 4.0 rajad) |
| Emaplaat | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Süsteemi RAM | 256 GB DDR4-2666 ECC RDIMM (4x 64 GB) |
| Säilitamine | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| PSU | Kahekordne 2 kW ATX sünkroniseerimiskaabliga |
| Šassii | 4U riiulile paigaldatav, eest taha suunatud õhuvool |
| Jahutus | SP3 tornjahuti, 3x ees + 1x taga 120 mm tööstusventilaatorid |
| võrk | Sisseehitatud kahekordne 10 GbE (Intel X550) |
Võimsusümbris
- Graafikaprotsessori energiatarve: 4 x 450 W = 2400 W
- Süsteemi koguvõimsus: ~2125 W
- Toiteploki koguvõimsus: 4000 W (kaks 2 kW) — 46.9% varuvõimsust
- Jagatud toiteallikas — ühe toiteploki rike = kahe graafikaprotsessori või kahe graafikaprotsessori ja emaplaadi kaotus
Raja topoloogia
128 PCIe Gen4 rada EPYC-st seitsme x16 pesani; neli neist on täidetud Gen4 x16 graafikaprotsessoritega. PCIe lülitit pole. NVLinki pole – peer-to-peer kiirusel 19–22 GB/s (Kentino mõõdetud).
Mida sa joosta saad
96 GB koondatud videomäluga neljal kaardil saab see server hakkama avatud kaaluga LLM-idega, nägemismudelitega, piltide ja videote genereerimisega, kõne tehisintellektiga ja mitme üürniku teenindamisega.
LLM-id — tekst / arutluskäik / kodeerimine
Hiina piir
- Qwen3 / Qwen3.5: Qwen3-72B Q4 (~15-20 tok/s); Qwen3-32B Q6; Qwen3-30B-A3B MoE Q4-Q6; Qwen3-Coder-30B-A3B kiirusel 256k; Qwen3.5-122B-A10B Q4; QwQ-32B
- DeepSeek: DeepSeek-R2 32B Q4-Q6 (92.7% AIME 2025); DeepSeek-R1-Distill-Qwen-32B bf16; DeepSeek-V2-Lite 16B
- GLM / Z.ai: GLM-4.5-Air 106B/12B Q4-Q5; GLM-4.6V-Flash; GLM-Zero 9B
- Hunyuan: Hunyuan-A13B Q4-Q6 (~48 GB) 256k ctx kaherežiimiline arutluskäik
- Teised: Seemne-OSS-36B Q4 512k ctx; ERNIE-4.5-47B-A3B Q4; Yi-34B Q6; Baichuan-M2-32B; Step-3.5-Flash
Läänepiir
- Metalaama: Llama 3.3 70B Q4_K_M (~20 tok/s llama.cpp, ~179 tok/s partii-32 vLLM — Kentino mõõdetud); Laama 3.1 8B bf16 (~80-120 tok/s); Laama 4 skaut Q4
- Mistral: Väike 3 24B bf16; Magistral Väike 24B arutluskäik; Devstral Väike 2 24B 256k ctx; Mixtral 8x7B Q6
- OpenAI: gpt-oss-20b MXFP4 (16 GB); gpt-oss-120b MXFP4 (mahutav kuni 80 GB)
- Teised: Gemma 3 27B Q6 128k; Phi-4 14B bf16; Nemotron-Super 49B Q4; Graniit 4.0 H-Väike; OLMo 2 32B; Reka Flash 3; Käsk R 35B
Nägemis-keele mudelid
Qwen3-VL-8B/32B, Qwen3-VL-30B-A3B, Qwen3-Omni-30B-A3B; InternVL3 kuni 78B Q4; InternVL3.5-38B; DeepSeek-VL2; Laama 3.2 11B Vision; Pixtral 12B; Molmo 7B; Gemma 3 12B/27B; PaliGemma 2; MiniCPM-V 2.6 / MiniCPM-o 2.6.
Pildi genereerimine
FLUX.1 [dev]/[schnell] fp8 (~15-25 s resolutsiooniga 1024x1024); FLUX.1 Kontext; FLUX Tools; SD 3.5 Large; SDXL; HunyuanImage-2.1 bf16 (~34 GB) natiivne 2K; Kolors 2.0; AuraFlow; OmniGen v1.
Video genereerimine
Wan 2.2 T2V-A14B/I2V-A14B MoE (~54 GB bf16); Wan 2.2 TI2V-5B 720p@24fps; HunyuanVideo 13B Q4-Q5; HunyuanVideo 1.5; CogVideoX-5B; Open-Sora 2.0; Mochi-1; LTX-video; SVD/SV3D/SV4D; NVIDIA Cosmos Predict 2.
Heli / kõne / TTS
- ASR: Whisper v3 turbo (~50x reaalajas); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 3.0; Kokoro 82M; Stabiilne heli avatud; Step-Audio-EditX
- Reaalajas: Kyutai Moshi (200 ms täisdupleks); Step-Audio 2 mini; Qwen2.5-Omni-7B
- Muusika: MusicGen; AudioGen; Suno Bark; SeamlessM4T v2
Mitme mudeli serveerimine
- 4-8 samaaegset kasutajat 32-72B LLM-idel vLLM / SGLang tensorparalleeltehnoloogia kaudu
- Segatud: Qwen3-32B + FLUX.1 + Whisper-turbo + Moshi jaotatud videomäluga
- LoRA/QLoRA peenhäälestus 32-72B; täisparameetrid 7-14B
- RAG käsuga R+ või Qwen3 + BGE-M3/E5/Jina
Sihtkoormused
- Järeldamise värav 50–200 kohaga organisatsioonile (70B Q4–Q6, 4–8 samaaegset sessiooni)
- Pakkide difusioon/video konveierliin (SDXL + FLUX.1 + Wan 2.2 üleöö)
- LoRA/QLoRA peenhäälestamise labor 7-34B domeeni kohandamiseks
- RAG dokumendiassistent (Qwen3-VL + BGE-M3 + Command R, 32k ctx)
- Segatud üksikboks: vestlus + pilt + ASR + reaalajas hääl jaotatud VRAM-il
Mõõdetud jõudlus
Kentino pink | 2026-04-10 | 4x RTX 4090 + EPYC 7542 + ROMED8-2T
| võrrelda | Tulemus |
|---|---|
| Jätkuv arvutus (fp16) | 647.7 TFLOPS |
| vLLM Llama 3.3 70B AWQ INT4 (ühekordne) | 8.0 tok/s |
| vLLM Llama 3.3 70B AWQ INT4 (partii-32) | 179.3 tok/s agregaat |
| llama.cpp Llama 3.3 70B Q4_K_M (ühekordne) | 20.3 tok/s |
| Viiphindamine | 1 568 tokki/s |
| GPU mälu ribalaius | 920 GB/s kaardi kohta |
| NVMe lugemine/kirjutamine | 4589 / 4213 MB/s |
| Tipptemperatuur (GPU+CPU põletus) | 73 °C, langus 0.6% |
vLLM kasutas awq kerneli — awq_marliniga on võimalik 2-3 korda rohkem.
Pole ideaalne
- Frontier 100B+ tihe bf16 juures (DeepSeek V3/R1, GLM-4.5+, Kimi-K2, Mistral Large 3 — vajavad 256+ GB videomälu)
- Treenimine nullist (tarbijale mõeldud RTX 4090-l puudub NVLink)
Garantii ja tarneaeg
Komplekteerimine hõlmab kokkupanekut, BIOS-i seadistamist, draiveri installimist, sissepõlemistesti ja funktsionaalsuse kontrolli. Tarneaeg sõltub komponentide saadavusest, mis kinnitatakse tellimuse esitamisel.
Soovitatavad lisandmoodulid
- Suurenda RAM-i 512 GB-ni (lisa 4x 64 GB DDR4 — neli DIMM-pesa on vaba)
- 4 TB NVMe teisene draiv andmestiku/mudeli ettevalmistamiseks
- 24U avatud kapp mitme serveri juurutamiseks
Jaga
