Kentino sro
K-AI 768 TurinDual RTXPro6000MQ 16000TOPS — 8× RTX Pro 6000 Blackwell Max-Q AI Frontier Server (Dual Turin)
K-AI 768 TurinDual RTXPro6000MQ 16000TOPS — 8× RTX Pro 6000 Blackwell Max-Q AI Frontier Server (Dual Turin)
Vastuvõtuteenuse saadavust ei saa laadida
K-AI 768 TurinDual RTXPro6000MQ 16000TOPS
768 GB ECC VRAM Frontier Flagship
8x RTX Pro 6000 Max-Q | Kahekordne EPYC Torino | 16 000 TOPS INT8
Protsessori hinnakujundus vormistati tellimuse esitamisel – Torino 9005-seeria turg liigub 2026. aasta teises kvartalis igal nädalal.
Avaldatud välised viited. Kentino riistvaral ei ole mõõdetud.
Kentino tehisintellektiga serverite valiku tipptase. 7U riiulile paigaldatav lipulaev, tipptasemel järeldusplatvorm kaheksa NVIDIA RTX Pro 6000 Blackwell Max-Q turboventilaatorkaardiga, mis on ühendatud 768 GB ECC videomäluga, kahe AMD EPYC Turin 9005-seeria protsessoriga (Zen5c, SP5), 1.5 TB DDR5-4800 ECC-ga (kõik 24 kanalit asustatud), 4 TB NVMe alglaadimismälu ja 5 × 1200 W serveri toiteplokiga. PCIe Gen5 otsast lõpuni. DeepSeek V3 fp8 natiivne (~670 GB) kaardil. Kimi-K2 Q4-Q5. 4 Frontier-klassi mudelit samaaegselt.
riistvara
| Komponent | detail |
|---|---|
| GPU | 8x NVIDIA RTX Pro 6000 Blackwell Max-Q 96 GB ECC (turboventilaator, 600 W TDP spetsifikatsioon, PCIe 5.0 x16, 2000 INT8 TOPS/kaart, natiivne fp8) |
| VRAM-i bassein | 768 GB kokku 8 kaardil (ilma NVLinkita — P2P PCIe Gen5 kaudu kiirusega ~55–60 GB/s pesa sees, pesadevaheline protsessoriühenduse kaudu) |
| Protsessor | 2x AMD EPYC Turin 9005-seeria (Zen5c, SP5, PCIe 5.0) – hinnapakkumine ootel, täpne SKU kinnitatakse tellimuse esitamisel |
| Emaplaat | ASRock Rack TURIN2D24XGM/500W (kahekordne SP5 Turin, PCIe 5.0, 24x DDR5, 2x 10 GbE, IPMI) |
| Süsteemi RAM | 1.5 TB DDR5-4800 ECC RDIMM (24x 64 GB — kõik 24 kanalit täis, kokku ~920 GB/s) |
| Saapa/panipaik | 4 TB NVMe M.2 (PCIe 4.0 x4) – piiripunktide jaoks sobiv suurus |
| Toiteallikas | 5x 1200 W serveri toiteploki komplekt (kokku 6 kW) |
| Šassii | 7U 8-GPU rackmount, 10 PCIe pesa mahutavusega, aktiivsed Gen5 tõstjad |
| Jahutus | 2x SP5 Turin tornjahutit + 8x 120 mm Martechi korpuseventilaatorit. Graafikaprotsessori kohta eraldi turboventilaatorid. |
| võrk | Sisseehitatud kahekordne 10 GbE (Intel X550) |
Võimsusümbris
- Graafikaprotsessori energiatarve (spetsifikatsioon): 8 x 600 W = 3600 W
- Protsessori energiatarve: 2 x 360 W = 720 W (Torino keskmise taseme hinnang)
- Süsteemi koguvõimsus täiskoormusel: ~4080 W
- Toiteploki koguvõimsus: 6000 W — ~4.7% toores peavaru spetsifikatsiooni järgi
- Pärismaailm: Max-Q hoiab kokkuvõttes 520–550 W võimsust, suurendades püsivat kõrgusruumi ~20%+
- Garanteeritud pearuumi tagamiseks on saadaval püsivara võimsuspiirang 520 W juures
Raja topoloogia
Dual Turin pakub 2x 128 PCIe Gen5 rada. TURIN2D24XGM/500W suunab 8 GPU pesa, mis on otse ühendatud protsessoritega Gen5 x16 juures aktiivsete tõsteseadmete kaudu – 4 pesa iga protsessori juurkõvaketta kohta. GPU rajal puudub PCIe lüliti – puhas kahe juurkõvaketta topoloogia. Optimaalse soklitevahelise peer-to-peer ühenduse jaoks on vaja NUMA häälestamist. NVLink puudub; P2P kiirusega ~55–60 GB/s suuna kohta sokli sees.
Mida sa joosta saad
768 GB koondatud ECC videomäluga – Kentino mahutavusega ülemine osa – töötab see server sisseehitatud DeepSeek V3 fp8 natiivmäluga (~670 GB), mugavalt Kimi-K2 Q4-Q5-ga (~630 GB) ja sellel on määrav kasutusjuhtum: neli tipptasemel mudelit, mis paiknevad samaaegselt mitme üürnikuga tootmiskeskkonnas.
LLM-id — tekst / arutluskäik / kodeerimine
Hiina piir tootmiskvantidega
- Kimi-K2 (Baas / Juhend / Mõtlemine) Q4_K_M / Q5_K_M juures (~630 GB) mugav (~15-25 tok/s üksik, avaldatud viide) — lipulaev Hiina piiril ühel seadmel tootmiskvantidega
- DeepSeek V3 / R1 / V3.1 / V3.2 natiivselt fp8 kiirusel (~670 GB) kaardil (~30-50 tok/s üksikmälu, avaldatud viide) — Blackwelli fp8 tensortuumad käitavad seda natiivselt kiirusel
- DeepSeek V3 Q4_K_M-is (~404 GB) mitme samaaegse suuremahulise paketiteeninduse eksemplariga
- GLM-5 / GLM-5.1 (~745B/44B) 3.-4. kvartalis (~420-560 GB) mugav mälukaardil
- Intern-S1-Pro (1T/22B aktiivne, SAGE) 3.-4. kvartalis (~440-580 GB) mugav
- Qwen3-Coder-480B-A35B 5.-6. kvartalis (~340-400 GB) 1 miljoni ctx-ga
- Qwen3-235B-A22B bf16-s (~470 GB) ja helde KV-ga pika konteksti jaoks
- ERNIE-4.5-424B-A47B 6. kvartalis (~360 GB); Hunyuan-Large 8. kaadrisagedusel (~390 GB)
- MiniMax-Text-01 / M1 5.-6. kvartalis (~325-390 GB)
Läänepiir tootmiskvantidega
- Mistral Suur 3 (675B/41B MoE, Apache 2.0) Q3-Q4-s (~317-404 GB) mugav (~20-30 tok/s üksik, avaldatud viide)
- Leek 4 Maverick (400B/17B, 128 eksperti) 5.-6. kvartalis (~290-350 GB)
- Llama-3.1-Nemotron Ultra 253B bf16 juures (~506 GB) kaardil
- Lumehelbe Arktika 5.–6. kvartalis (~350–420 GB); Grok-1 5.-6. kvartalis (~225-270 GB)
- DBRX-i juhis 132B/36B bf16-s (~264 GB) mitme eksemplari
Nägemis-keele mudelid
Qwen3-VL-235B-A22B lipulaev-VLM pika kontekstiga; InternVL3.5-241B-A28B bf16 juures (~482 GB); GLM-4.5V / 4.6V 106B bf16 mitme eksemplariga; Llama 3.2 90B Vision bf16 mitme eksemplariga; Pixtral Large 124B bf16; Molmo 72B bf16 mitme eksemplariga.
Pildi genereerimine
HunyuanImage-3.0 annab käsu samaaegsetele eksemplaridele; FLUX.1 mitme eksemplariline vorming (~15–20 sekundit 1024x1024 pildi kohta, avaldatud viide); SD 3.5 Large; SDXL; AuraFlow; OmniGen; HunyuanImage-2.1; Kolors 2.0 – täielik hiina ja lääne süsteemide samaaegne kuvamine.
Video genereerimine
Wan 2.2 T2V-A14B / I2V-A14B — palju samaaegseid vooge; HunyuanVideo 13B bf16 mitu samaaegset voogu; Open-Sora 2.0 (11B) mitme eksemplari tugi; Mochi-1 (10B) mitme eksemplari tugi; NVIDIA Cosmos Predict 2 kuni 14B.
Heli / kõne / TTS
Täispinu resident partiis: Whisper v3 large, Parakeet-TDT, Canary 1B, Moshi 7B realtime, Qwen3-Omni, Step-Audio R1, CosyVoice 3.0, Kokoro, Stable Audio Open.
Mitme mudeli / mitme üürniku teenindamine (määrav kasutusjuhtum)
- Mitme üürnikuga piiritootmine: 4 samaaegselt paiknevat tipptasemel mudelit — nt DeepSeek V3 fp8 + Kimi-K2 Q4 + Mistral Large 3 Q3 + Qwen3-Coder-480B Q5 — jaotatud videomälu ja üürnikupõhiste SLO-dega
- Samaaegne fp8-natiivne Blackwelli järeldus (DeepSeek V3 / R1 perekond, Hunyuan fp8) + kvantiseeritud serveerimine eraldi PCIe domeenidel
- Uurige A/B 4-5 piiriala avatud kaaluga mudeli abil uurimiskvaliteediga kvantiteetidel
- Agentplatvorm, millel on üle 400 miljardi põhispetsialisti ja mitu 30–70 miljardit residentspetsialisti
Sihtkoormused
- Mitme üürnikuga piiriala avatud kaaluga tootmine – mitu samaaegselt paiknevat piiriala mudelit üürnikupõhise isolatsiooniga
- Suveräänse piiriala tehisintellekti juurutamine – kohapealne DeepSeek V3 fp8 / Kimi-K2 / Mistral Large 3 juurdepääs, andmete residentsus ELis
- Eesliiniuuringute labor A/B hindamisega enam kui 4 eesliini avatud kaaluga mudeli puhul uurimiskvaliteediga kvantiteedis
- Ettevõtte agentide platvorm, kus üle 400 miljardi tehnoloogilise üksuse juhib tööriistu + mitut spetsialiseeritud mudelit
- Õhupiluga reguleeritud tööstusharu järeldus piiriülesel tasandil ECC + PCIe Gen5 abil
Avaldatud toimivuse viited
Välised viited | Kentino riistvaral ei ole mõõdetud
| võrrelda | Tulemus |
|---|---|
| RTX Pro 6000 kaardi kohta INT8 TOPS | 2 000 TOPSi |
| vLLM — DeepSeek V3 fp8 8x RTX Pro 6000-l (üksik) | ~30–50 tokki/s |
| vLLM — DeepSeek V3 fp8 8x RTX Pro 6000 peal (partii-32) | 300–500 tok/s agregaat |
| Kimi-K2 Q4 teenindab 8x RTX Pro 6000-t (üksik) | ~15–25 tokki/s |
| FLUX.1 [arendaja] fp8 ühe RTX Pro 6000 peal | ~15–20 sekundit 1024x1024 pildi kohta |
Täpsed arvud kinnitatakse PoC etapis. Kentino avaldab esimese osapoole arvud pärast esialgset kliendikogemuse kogumist.
Pole ideaalne
- Eelarveteadlikud juurutused – tipptasemel SKU tipptasemel hinnaga
- Treenimine nullist tipptasemel mudelitel – NVLinki pole, ainult PCIe P2P (sellise ulatusega treenimiseks on õige tööriist H100/H200 SXM või GB200 NVLink fabric).
- Lihtne ühenduda ja kasutada – piiriülene mitme üürnikuga MoE-teenus nõuab oskuslikku MLOps meeskonda
Garantii ja tarneaeg
Ehitus hõlmab kokkupanekut, BIOS-i konfigureerimist, draiveri installimist, sissekirjutamist, memtestimist, funktsionaalsuse kontrollimist, NUMA häälestamist ja LLM-keskkonna seadistamist (vLLM / SGLang / llama.cpp / CUDA 13 stack fp8 Blackwelli kernelidega). Tarneaeg sõltub komponentide saadavusest, mis kinnitatakse tellimuse esitamisel.
Soovitatavad lisandmoodulid
- NVIDIA ConnectX-5 MCX555A-ECAT või ConnectX-7 Gen5 100 GbE võrgukaart mitmesõlmeliseks skaleerimiseks
- Mellanox ConnectX-6 25 GbE SFP28 andmekeskuse võrgu jaoks
- Teine 4 TB NVMe andmestiku/mudeli teeki jaoks (piirikontrollpunktid on suured – ainuüksi Kimi-K2 bf16 on ~1 TB)
- Täismahus 24U rack-kapp perforeeritud esiuksega ja hallatava PDU-ga
- Online UPS 10 kVA (tõrgeteta väljalülitumine toite korral)
Jaga
