Liikuge tooteteabe juurde
1 of 7

Kentino sro

K-AI 96 Rome 4090 2644TOPS — 4× RTX 4090 tehisintellekti järeldusserver

K-AI 96 Rome 4090 2644TOPS — 4× RTX 4090 tehisintellekti järeldusserver

Tavahind EUR € 18.491,00
Tavahind müügihind EUR € 18.491,00
Soodusmüük Välja müüdud
Sisaldab maksu. Transport TASUTA Arvutatakse kassas.

K-AI 96 Rooma 4090 2644TOPS

96 GB videomäluga järeldusserver
4x RTX 4090 | EPYC Rooma | 2644 TOPS INT8

647
TFLOPS fp16
179
tok/s partii-32
96 GB
VRAM-i bassein
24/7
riiulivalmis

Mõõdetud Kentino riistvaral. Llama 3.3 70B AWQ INT4 vLLM 0.19.0 kaudu.

4U riiulile paigaldatav järeldusserver nelja GeForce RTX 4090 graafikakaardiga, mis on ühendatud 96 GB videomäluga, ühe AMD EPYC 7542 Rome protsessoriga (32C/64T), 256 GB DDR4 ECC-ga, 2 TB NVMe alglaadimismäluga ja kahe sünkroniseeritud 2 kW ATX toiteplokiga. Käitab koheselt vLLM-i, SGLangi, llama.cpp-i, ComfyUI-d ja kõiki peamisi avatud kaaluga järelduspinu.

riistvara

Komponent detail
GPU 4x NVIDIA GeForce RTX 4090 24 GB GDDR6X (450 W, PCIe 4.0 x16)
VRAM-i bassein Kokku 96 GB nelja kaardi peale
Protsessor AMD EPYC 7542 Rome (32C/64T, 225 W, 128x PCIe 4.0 rajad)
Emaplaat ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Süsteemi RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Säilitamine 2 TB NVMe M.2 (PCIe 4.0 x4)
PSU Kahekordne 2 kW ATX sünkroniseerimiskaabliga
Šassii 4U riiulile paigaldatav, eest taha suunatud õhuvool
Jahutus SP3 tornjahuti, 3x ees + 1x taga 120 mm tööstusventilaatorid
võrk Sisseehitatud kahekordne 10 GbE (Intel X550)

Võimsusümbris

  • Graafikaprotsessori energiatarve: 4 x 450 W = 2400 W
  • Süsteemi koguvõimsus: ~2125 W
  • Toiteploki koguvõimsus: 4000 W (kaks 2 kW) — 46.9% varuvõimsust
  • Jagatud toiteallikas — ühe toiteploki rike = kahe graafikaprotsessori või kahe graafikaprotsessori ja emaplaadi kaotus

Raja topoloogia

128 PCIe Gen4 rada EPYC-st seitsme x16 pesani; neli neist on täidetud Gen4 x16 graafikaprotsessoritega. PCIe lülitit pole. NVLinki pole – peer-to-peer kiirusel 19–22 GB/s (Kentino mõõdetud).

Mida sa joosta saad

96 GB koondatud videomäluga neljal kaardil saab see server hakkama avatud kaaluga LLM-idega, nägemismudelitega, piltide ja videote genereerimisega, kõne tehisintellektiga ja mitme üürniku teenindamisega.

LLM-id — tekst / arutluskäik / kodeerimine

Hiina piir

  • Qwen3 / Qwen3.5: Qwen3-72B Q4 (~15-20 tok/s); Qwen3-32B Q6; Qwen3-30B-A3B MoE Q4-Q6; Qwen3-Coder-30B-A3B kiirusel 256k; Qwen3.5-122B-A10B Q4; QwQ-32B
  • DeepSeek: DeepSeek-R2 32B Q4-Q6 (92.7% AIME 2025); DeepSeek-R1-Distill-Qwen-32B bf16; DeepSeek-V2-Lite 16B
  • GLM / Z.ai: GLM-4.5-Air 106B/12B Q4-Q5; GLM-4.6V-Flash; GLM-Zero 9B
  • Hunyuan: Hunyuan-A13B Q4-Q6 (~48 GB) 256k ctx kaherežiimiline arutluskäik
  • Teised: Seemne-OSS-36B Q4 512k ctx; ERNIE-4.5-47B-A3B Q4; Yi-34B Q6; Baichuan-M2-32B; Step-3.5-Flash

Läänepiir

  • Metalaama: Llama 3.3 70B Q4_K_M (~20 tok/s llama.cpp, ~179 tok/s partii-32 vLLM — Kentino mõõdetud); Laama 3.1 8B bf16 (~80-120 tok/s); Laama 4 skaut Q4
  • Mistral: Väike 3 24B bf16; Magistral Väike 24B arutluskäik; Devstral Väike 2 24B 256k ctx; Mixtral 8x7B Q6
  • OpenAI: gpt-oss-20b MXFP4 (16 GB); gpt-oss-120b MXFP4 (mahutav kuni 80 GB)
  • Teised: Gemma 3 27B Q6 128k; Phi-4 14B bf16; Nemotron-Super 49B Q4; Graniit 4.0 H-Väike; OLMo 2 32B; Reka Flash 3; Käsk R 35B

Nägemis-keele mudelid

Qwen3-VL-8B/32B, Qwen3-VL-30B-A3B, Qwen3-Omni-30B-A3B; InternVL3 kuni 78B Q4; InternVL3.5-38B; DeepSeek-VL2; Laama 3.2 11B Vision; Pixtral 12B; Molmo 7B; Gemma 3 12B/27B; PaliGemma 2; MiniCPM-V 2.6 / MiniCPM-o 2.6.

Pildi genereerimine

FLUX.1 [dev]/[schnell] fp8 (~15-25 s resolutsiooniga 1024x1024); FLUX.1 Kontext; FLUX Tools; SD 3.5 Large; SDXL; HunyuanImage-2.1 bf16 (~34 GB) natiivne 2K; Kolors 2.0; AuraFlow; OmniGen v1.

Video genereerimine

Wan 2.2 T2V-A14B/I2V-A14B MoE (~54 GB bf16); Wan 2.2 TI2V-5B 720p@24fps; HunyuanVideo 13B Q4-Q5; HunyuanVideo 1.5; CogVideoX-5B; Open-Sora 2.0; Mochi-1; LTX-video; SVD/SV3D/SV4D; NVIDIA Cosmos Predict 2.

Heli / kõne / TTS

  • ASR: Whisper v3 turbo (~50x reaalajas); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 3.0; Kokoro 82M; Stabiilne heli avatud; Step-Audio-EditX
  • Reaalajas: Kyutai Moshi (200 ms täisdupleks); Step-Audio 2 mini; Qwen2.5-Omni-7B
  • Muusika: MusicGen; AudioGen; Suno Bark; SeamlessM4T v2

Mitme mudeli serveerimine

  • 4-8 samaaegset kasutajat 32-72B LLM-idel vLLM / SGLang tensorparalleeltehnoloogia kaudu
  • Segatud: Qwen3-32B + FLUX.1 + Whisper-turbo + Moshi jaotatud videomäluga
  • LoRA/QLoRA peenhäälestus 32-72B; täisparameetrid 7-14B
  • RAG käsuga R+ või Qwen3 + BGE-M3/E5/Jina

Sihtkoormused

  • Järeldamise värav 50–200 kohaga organisatsioonile (70B Q4–Q6, 4–8 samaaegset sessiooni)
  • Pakkide difusioon/video konveierliin (SDXL + FLUX.1 + Wan 2.2 üleöö)
  • LoRA/QLoRA peenhäälestamise labor 7-34B domeeni kohandamiseks
  • RAG dokumendiassistent (Qwen3-VL + BGE-M3 + Command R, 32k ctx)
  • Segatud üksikboks: vestlus + pilt + ASR + reaalajas hääl jaotatud VRAM-il

Mõõdetud jõudlus

Kentino pink | 2026-04-10 | 4x RTX 4090 + EPYC 7542 + ROMED8-2T

võrrelda Tulemus
Jätkuv arvutus (fp16) 647.7 TFLOPS
vLLM Llama 3.3 70B AWQ INT4 (ühekordne) 8.0 tok/s
vLLM Llama 3.3 70B AWQ INT4 (partii-32) 179.3 tok/s agregaat
llama.cpp Llama 3.3 70B Q4_K_M (ühekordne) 20.3 tok/s
Viiphindamine 1 568 tokki/s
GPU mälu ribalaius 920 GB/s kaardi kohta
NVMe lugemine/kirjutamine 4589 / 4213 MB/s
Tipptemperatuur (GPU+CPU põletus) 73 °C, langus 0.6%

vLLM kasutas awq kerneli — awq_marliniga on võimalik 2-3 korda rohkem.

Pole ideaalne

  • Frontier 100B+ tihe bf16 juures (DeepSeek V3/R1, GLM-4.5+, Kimi-K2, Mistral Large 3 — vajavad 256+ GB videomälu)
  • Treenimine nullist (tarbijale mõeldud RTX 4090-l puudub NVLink)

Garantii ja tarneaeg

2 aastat
varuosade garantii
1 aasta
töögarantii
10-28 päeva
ettevalmistusaeg

Komplekteerimine hõlmab kokkupanekut, BIOS-i seadistamist, draiveri installimist, sissepõlemistesti ja funktsionaalsuse kontrolli. Tarneaeg sõltub komponentide saadavusest, mis kinnitatakse tellimuse esitamisel.

Soovitatavad lisandmoodulid

  • Suurenda RAM-i 512 GB-ni (lisa 4x 64 GB DDR4 — neli DIMM-pesa on vaba)
  • 4 TB NVMe teisene draiv andmestiku/mudeli ettevalmistamiseks
  • 24U avatud kapp mitme serveri juurutamiseks
Vaata kõiki üksikasju