Oma tehisintellekti süsteemi loomine: täielik 2026. aasta juhend tarbijale mõeldud GPU-riistvara kohta kohalikele õigusteaduse spetsialistidele
Jaga
Põhjalik ülevaade VRAM-i piirangutest, mitme GPU koondamise süsteemist, PCIe piirangutest ja ujukomaarvude jõudlusest
Kentino.com tehnilise meeskonna poolt | jaanuar 2026
Sissejuhatus: Miks ehitada oma tehisintellekti süsteem?
Tehisintellekti revolutsioon ei toimu enam ainult andmekeskustes. Kuna avatud lähtekoodiga mudelid nagu DeepSeek R1, Qwen 3, Llama 4 ja Gemma on saavutanud enneolematuid võimalusi, on võimsa tehisintellekti lokaalne käitamine muutunud mitte ainult võimalikuks, vaid ka praktiliseks.
Aga siin on konks, mida keegi sulle ei räägi: Videomälu on kuningas ja kõik muu on kompromiss.
See juhend aitab teil segaduses GPU ostjast saada teadlikuks tehisintellekti süsteemiarhitektiks. Käsitleme kõike alates ühe GPU-ga konfiguratsioonidest, mis käitavad 8B parameetriga mudeleid, kuni mitme GPU-ga konfiguratsioonideni, mis on võimelised hakkama saama enam kui 70B parameetriga hiiglastega. Olenemata sellest, kas ehitate kodeerimisassistenti, uurimistööjaama või privaatset tehisintellekti serverit, on see juhend teile abiks.
1. osa: VRAM-i mõistmine – tehisintellekti valuuta
Miks VRAM on olulisem kui miski muu?
Suurte keelemudelite (LLM) käitamisel on teie GPU VRAM (video muutmälu) kõige olulisem spetsifikatsioon. Erinevalt mängudest, kus VRAM salvestab peamiselt tekstuure ja kaadripuhvreid, vajavad tehisintellekti töökoormused VRAM-i järgmiseks:
- Mudeli kaaludMiljardid parameetrid, mis määratlevad tehisintellekti teadmisi
- KV vahemäluMälu, mis kasvab koos vestluse pikkusega (kontekstiaken)
- AktiveerimismäluAjutised arvutused järeldamise ajal
- Süsteemi üldkuludCUDA tuumad, mäluhaldus, käitusaja puhvrid
Kuldne valem:
Required VRAM (GB) = (Parameters in Billions × Precision in Bytes) × 1.2
Examples:
- 8B model @ FP16 (2 bytes): 8 × 2 × 1.2 = ~19.2 GB
- 8B model @ Q4 (0.5 bytes): 8 × 0.5 × 1.2 = ~4.8 GB
- 70B model @ FP16 (2 bytes): 70 × 2 × 1.2 = ~168 GB
- 70B model @ Q4 (0.5 bytes): 70 × 0.5 × 1.2 = ~42 GB
Kvantimise revolutsioon
Kvantiseerimine on tehnika, mis võimaldab käitada suuri mudeleid tarbijariistvaral. Mudeli kaalude täpsuse vähendamisega 16-bitiselt (FP16) 4-bitisele (Q4) saab käitada mudeleid, mis muidu nõuaksid ettevõtte riistvara.
| Kvantiseerimine | Bitid parameetri kohta | Mälu vähendamine | Mõju kvaliteedile |
|---|---|---|---|
| FP16 | 16 bitti (2 baiti) | Baseline | 100% |
| Q8_0 | 8 bitti (1 bait) | 50% | ~ 99% |
| Q5_K_M | 5 bitti (0.625 baiti) | 68% | ~ 97% |
| Q4_K_M | 4 bitti (0.5 baiti) | 75% | ~ 95% |
| Q3_K_M | 3 bitti (0.375 baiti) | 81% | ~ 90% |
Magus külg: Q4_K_M kvantiseerimine pakub 75% mälusäästu vaid ~5% kvaliteedikaoga – muutes selle 2026. aastal tarbijatele juurutamise kuldstandardiks.
2. osa: 2026. aasta GPU maastik
NVIDIA RTX 50 seeria — uus standard
NVIDIA Blackwelli arhitektuur toob tehisintellekti töökoormuste jaoks olulisi täiustusi:
RTX 5090 — lipulaevkoletis
| spetsifikatsioon | RTX 5090 | RTX 4090 (eelmine põlvkond) |
|---|---|---|
| VRAM | 32 GB GDDR7 | 24 GB GDDR6X |
| Mälu ribalaius | 1,792 GB / s | 1,008 GB / s |
| CUDA südamikud | 21,760 | 16,384 |
| Tensori tuumad | 680 (5. põlvkond) | 512 (4. põlvkond) |
| AI TOPS (INT8) | ~ 3,400 | ~ 1,300 |
| TDP | 575W | 450W |
| PCIe | 5.0 x16 | 4.0 x16 |
| MSRP | $1,999 | $1,599 |
Mida 32 GB videomälu sulle annab:
- Qwen3-32B @ Q4_K_M — mugavalt
- DeepSeek R1 32B @ Q4_K_M — konteksti arvestamiseks ruumi
- Llama 4 8B @ FP16 — täielik täpsus
- 70B mudelid @ Q4_K_M — agressiivsete kontekstipiirangutega
RTX 5090 ribalaiuse 78% paranemine võrreldes 4090-ga tähendab kiiremat tokeni genereerimist, mis on eriti oluline suuremate mudelite puhul, kus mälu ribalaius muutub pudelikaelaks.
RTX 5080 — praktiline valik
| spetsifikatsioon | RTX 5080 |
|---|---|
| VRAM | 16 GB GDDR7 |
| Mälu ribalaius | 960 GB / s |
| CUDA südamikud | 10,752 |
| Tensori tuumad | 336 (5. põlvkond) |
| AI TOPS (INT8) | ~ 1,801 |
| TDP | 360W |
| MSRP | $999 |
Mida 16 GB videomälu sulle annab:
- Qwen3-14B @ Q4_K_M — suurepärane sooritus
- DeepSeek R1 14B @ Q4_K_M — suurepärane kodeerimiseks
- Laama 4 8B @ Q8_0 — kõrge kvaliteet
- 32B mudelid agressiivse kvantiseerimise korral — võimalik, aga kitsas
RTX 5070 Ti – taskukohane AI tööhobune
| spetsifikatsioon | RTX 5070 Ti |
|---|---|
| VRAM | 16 GB GDDR7 |
| Mälu ribalaius | 896 GB / s |
| CUDA südamikud | 8,960 |
| Tensori tuumad | 280 (5. põlvkond) |
| AI TOPS (INT8) | ~ 1,406 |
| TDP | 300W |
| MSRP | $749 |
RTX 5070 Ti pakub sama 16 GB videomälu kui 5080, kuid 25% madalama hinnaga – mis teeb sellest vaieldamatult parima hinna ja kvaliteedi suhte spetsiaalse tehisintellektiga töötamise jaoks, kui toores tokeni kiirus pole kriitilise tähtsusega.
RTX 5070 — sisenemispunkt
| spetsifikatsioon | RTX 5070 |
|---|---|
| VRAM | 12 GB GDDR7 |
| Mälu ribalaius | 672 GB / s |
| CUDA südamikud | 6,144 |
| TDP | 250W |
| MSRP | $549 |
12 GB probleem: Kuigi RTX 5070 hind on ahvatlev, tekitab 12 GB videomälu olulisi piiranguid. 14 GB+ mudelite ja pikemate kontekstiakendega jõuad vastuollu. Mõtle 5070 Ti lisa 4 GB-le kui hädavajalikule kindlustusele.
Eelmine põlvkond on endiselt elujõuline
RTX 4090 — endiselt võistleja
24 GB videomäluga RTX 4090 on tehisintellekti jaoks endiselt suurepärane. Kui leiate hea hinnaga sellise, saab see hakkama järgmisega:
- 14B mudelid kõrge kvantisatsiooniga
- 32B mudelid Q4_K_M-is (kitsas)
- Mitu 8B mudelit samaaegselt
RTX 3090 / 3090 Ti — Budget Kings
24 GB videomäluga (sama mis 4090) on need vanemad kaardid tehisintellekti jaoks uskumatult väärtuslikud:
- Aeglasem ribalaius (936 GB/s)
- Vanemad tensortuumad (3. põlvkond)
- Aga sama 24 GB mahutavusega
Kui puhas videomälu on kiirusest olulisem (nt partiitöötluse või arenduse puhul), siis tehisintellekti töökoormuste puhul edestab kasutatud 3090 hinnaga 700–900 dollarit uut 5070 hinnaga 549 dollarit.
3. osa: PCIe piirangute mõistmine
PCIe ribalaiuse reaalsus
PCIe (perifeersete komponentide ühenduskiir) on kiirtee teie graafikakaardi ja ülejäänud süsteemi vahel. Siin on see, mida peate teadma:
| PCIe versioon | Ribalaius raja kohta | x16 Kokku | x8 Kokku | x4 Kokku |
|---|---|---|---|---|
| PCIe 3.0 | ~ 1 GB / s | ~ 16 GB / s | ~ 8 GB / s | ~ 4 GB / s |
| PCIe 4.0 | ~ 2 GB / s | ~ 32 GB / s | ~ 16 GB / s | ~ 8 GB / s |
| PCIe 5.0 | ~ 4 GB / s | ~ 64 GB / s | ~ 32 GB / s | ~ 16 GB / s |
Millal PCIe on oluline (ja millal mitte)
PCIe on oluline järgmistel juhtudel:
- Esialgne mudeli laadimine (suurte mudelite puhul säästetud minutit)
- Mitme GPU kommunikatsioon (kriitiline tensorparalleelsuse jaoks)
- Segatud protsessori/graafikaprotsessori järeldused (kui mudel levib muutmälule)
PCIe-l pole eriti tähtsust järgmistel juhtudel:
- Ühe GPU järeldamine pärast mudeli laadimist
- Väikese mudeli järeldus
- Pikad seansid, mille laadimisaeg on tühine
Praktilised juhised:
- Üks GPU: PCIe 4.0 x8 on tavaliselt piisav
- Kahekordne graafikakaart: soovitatavalt PCIe 4.0 x16/x16 või x8/x8
- Neljakordne graafikakaart: soovitatav on PCIe 5.0 või ettevõtte platvormid
Protsessori liinide piirangud platvormi järgi
| Platvorm | PCIe radade koguarv | Tüüpiline konfiguratsioon |
|---|---|---|
| Intel 14. põlvkond (lauaarvuti) | 20 protsessorilt + 4 kiibistikult | 1 GPU x16 + NVMe |
| AMD Ryzen 9000 | 24 protsessorilt | 1 GPU x16 + NVMe |
| AMD Threadripper PRO | 128 rada | 4 GPU-d x16 igaüks |
| Intel Xeon W | 64–112 rada | 2–4 GPU-d x16 igaüks |
Tarbijaplatvormi kitsaskoht: Enamik tarbijatele mõeldud protsessoreid (Intel Core, AMD Ryzen) pakuvad protsessorilt ainult 16–24 PCIe-rada. See tähendab:
- Esimene graafikakaart saab täis x16
- Teise graafikakaardi lisamine sunnib mõlemad sageli x8/x8 peale
- Kolmas ja neljas graafikakaart võivad töötada kiirusel x4
Tõsise mitme GPU-ga tehisintellekti töö jaoks kaaluge Threadripper PRO või HEDT platvorme.
4. osa: Mitme GPU konfiguratsioonid – videomälu ühiskasutus
Unistus vs. reaalsus
Unistus: Kombineeri 4× RTX 5090 graafikakaarti 128 GB ühtse videomälu saamiseks ja käita suurimaid mudeleid nagu H100-l.
Reaalsus: See on keeruline, aga üha enam võimalik.
Kuidas multi-GPU töötab õigusteaduse magistrantide jaoks
On kaks peamist lähenemisviisi:
Tensorparallelism (TP)
Jagab üksikud toimingud (näiteks maatriksite korrutamised) mitme GPU vahel. Nõuab GPU-de vahelist suure ribalaiusega sidet.
Parim on: Suure läbilaskevõimega järeldused, latentsustundlikud rakendused Nõuded: Eelistatud on NVLink, minimaalne PCIe 4.0 x8 graafikakaardi kohta Toetaja: vLLM, TensorRT-LLM, DeepSpeed
Torujuhtme paralleelsus (PP)
Jagab mudeli järjestikusteks etappideks, kus iga GPU käsitleb erinevaid kihte.
Parim on: Suurte mudelite sobitamine, partiitöötlus Nõuded: Mõõdukas GPU-devaheline ribalaius Toetaja: llama.cpp, Ollama, enamik raamistikke
NVLink vs. PCIe — karm tõde
NV link pakub otsest GPU-devahelist suhtlust kiirusega ~900 GB/s (NVLink 4.0 jaoks). See võimaldab tõelist mälu ühiskasutust, kus GPU-d saavad otse üksteise videomälule juurde pääseda.
Probleem: Tarbijatele mõeldud RTX-kaardid ei toeta enam NVLinki. Viimased NVLinki-toega tarbijatele mõeldud graafikakaardid olid RTX 3090/3090 Ti (NVLink 3.0 @ 112.5 GB/s kahesuunaline).
Ilma NVLinkita kasutab mitme GPU-ga side PCIe-d:
- Palju aeglasem (~32–64 GB/s vs 900 GB/s)
- Suurem latentsus
- VRAM-i ei saa otse koondada
Praktiline mõju:
| konfiguratsioon | Eeldatav jõudlus |
|---|---|
| 1× RTX 5090 (32 GB) | Baseline |
| 2× RTX 5090 PCIe kaudu | ~1.6–1.8x (mitte 2x) |
| 2× RTX 3090 NVLinki kaudu | ~1.8–1.9x |
| Ettevõte NVLinkiga | ~1.95x+ |
Mitme GPU toimima panemine ilma NVLinkita
Vaatamata piirangutele on tarbijariistvara mitme GPU-ga seadistused üha praktilisemad:
Soovitatav tarkvara:
- call.cppSuurepärane mitme GPU tugi, jagab kihid kaartide vahel
- OllamaLihtne seadistamine, automaatne kihtide jaotus
- vLLMSuure jõudlusega serveerimine, tensorparalleelsuse tugi
- exllama2Optimeeritud mitme GPU järeldamiseks
Konfiguratsiooni näpunäited:
- Veenduge, et mõlemad GPU-d oleksid samal NUMA-sõlmel (kontrollige
nvidia-smi topo -m) - Kahe GPU puhul kasutage vähemalt x8/x8 PCIe
- komplekt
CUDA_VISIBLE_DEVICESõigesti - GPU mudelite sobitamine võimaluse korral (põlvkondade segamine toimib, aga võib olla ebaefektiivne)
Mitme GPU konfiguratsiooni näited
Kahekordne RTX 5090 (kokku 64 GB)
Models supported:
- Qwen3-70B @ Q4_K_M (needs ~42GB) ✓
- DeepSeek R1 70B @ Q4_K_M ✓
- Llama 4 70B @ Q4_K_M ✓
- Any 32B model @ FP16 ✓
Performance: ~40-50 tokens/sec on 70B models
Cost: ~$4,000 (GPUs only)
Power: 1,150W peak (GPUs only)
Neljakordne RTX 5090 (kokku 128 GB)
Models supported:
- Qwen3-235B-A22B (MoE, ~22B active) ✓
- Any 70B model @ Q8_0 ✓
- 120B+ dense models @ Q4_K_M ✓
Performance: Variable, depends heavily on PCIe topology
Cost: ~$8,000 (GPUs only)
Power: 2,300W peak (GPUs only)
Requires: HEDT/Server platform (Threadripper, Xeon)
Eelarveversioon: Kasutatud kahekordne RTX 3090 (kokku 48 GB)
Models supported:
- Qwen3-32B @ Q4_K_M ✓
- DeepSeek R1 32B @ Q4_K_M ✓
- 70B models @ aggressive Q3 quantization (marginal)
Performance: ~20-30 tokens/sec on 32B models
Cost: ~$1,400-1,800 (GPUs used)
Advantage: NVLink support!
5. osa: Ujukomaarvu jõudluse süvaanalüüs
Täppisvormingute selgitus
Kaasaegne tehisintellekt kasutab erinevaid numbrilise täpsusega vorminguid:
| vorming | Bitti | Valik | Kasuta Case'it |
|---|---|---|---|
| FP32 | 32 | ±3.4×10^38 | Treening, ülitäpne |
| FP16 | 16 | ± 65,504 | Järeldus, tasakaalustatud |
| BF16 | 16 | ±3.4×10^38 | Treening, kaasaegsed graafikaprotsessorid |
| FP8 | 8 | ±448 (E4M3) | Kiire järeldus |
| INT8 | 8 | -128 et 127 | Kvantiseeritud järeldus |
| INT4 | 4 | -8 et 7 | Agressiivne kvantiseerimine |
Blackwelli FP4 ja FP8 eelised
RTX 50 seeria tutvustab Tensor Core'ides natiivset FP4 tuge:
| Täpsus | RTX 4090 TOPS | RTX 5090 TOPS | speedup |
|---|---|---|---|
| FP16 | 330 | 418 | 1.27x |
| FP8 | 660 | ~ 1,700 | 2.6x |
| FP4 | N / A | ~ 3,400 | Uus |
| INT8 | 660 | ~ 3,400 | 5.1x |
Mida see tähendab:
- FP8 ja FP4 järeldused on RTX 50 seerias oluliselt kiiremad
- FP8 jaoks optimeeritud mudelid näevad tohutut kiirendust
- Tensor Core'i põlvkonnad on sama olulised kui CUDA tuumad
Mälu ribalaius — teine pudekohasus
Suurte mudelite puhul on mälu ribalaius sageli olulisem kui arvutusvõimsus:
Žetoonide arv sekundis on piiratud järgmisega:
Max Tokens/s = Memory Bandwidth (GB/s) / Bytes per Parameter
RTX 5090 with 70B Q4_K_M model:
1,792 GB/s / 35 GB = ~51 tokens/s theoretical maximum
RTX 4090 with same model:
1,008 GB/s / 35 GB = ~29 tokens/s theoretical maximum
RTX 5090 ribalaiuse 78% paranemine tähendab otseselt kiiremat genereerimist suurte mudelite puhul.
6. osa: Avatud lähtekoodiga mudelimaastik – mida käivitada
1. tase: lipulaevamudelid (soovitatav on 32 GB+ videomälu)
Qwen3-235B-A22B (MoE)
- Aktiivsed parameetrid: 22B (kokku 235B)
- Videomälu neljandas kvartalis: ~28 GB
- kontekstis: 32K natiivset, 131K YaRN-iga
- Tugevused: Matemaatika, kodeerimine, mitmekeelne (119 keelt)
- Parim: Üldotstarbeline, kodeerimine, uurimistöö
DeepSeek R1 70B
- Parameetrid: 70B
- Videomälu neljandas kvartalis: ~42 GB
- kontekstis: 128K
- Tugevused: Arutluskäik, mõtteahel, kodeerimine
- Parim: Komplekssete probleemide lahendamine, uurimistöö
Laama 4 70B
- Parameetrid: 70B
- Videomälu neljandas kvartalis: ~42 GB
- kontekstis: 128K
- Tugevused: Üldised võimed, juhiste järgimine
- Parim: Mitmekülgsed rakendused
2. tase: professionaalsed mudelid (16–24 GB videomälu)
Qwen3-32B
- Parameetrid: 32B
- Videomälu neljandas kvartalis: ~19 GB
- kontekstis: 128K
- Tugevused: Kodeerimine (vastab GPT-4o-le), arutluskäik
- Parim: Üks RTX 5090/4090, arendus
DeepSeek R1 destilleerimispulber 32B
- Parameetrid: 32B
- Videomälu neljandas kvartalis: ~19 GB
- Tugevused: Suuremast mudelist destilleeritud arutluskäik
- Parim: Kulutõhus arutluskäik
Gemma 3 27B
- Parameetrid: 27B
- Videomälu neljandas kvartalis: ~16 GB
- kontekstis: 128K
- Tugevused: Tõhus, Google'i kvaliteediga, multimodaalne
- Parim: RTX 5080/5070 Ti versioonid
3. tase: Tarbijamudelid (8–16 GB videomälu)
Qwen3-14B
- Parameetrid: 14B
- Videomälu neljandas kvartalis: ~8.4 GB
- kontekstis: 128K
- Tugevused: Suurepärane suuruse ja võimekuse tasakaal
- Parim: RTX 5070 Ti, 4070 Ti, üldkasutatav
Qwen3-8B
- Parameetrid: 8B
- Videomälu neljandas kvartalis: ~4.8 GB
- kontekstis: 32K natiivne, 131K laiendatud
- Tugevused: Kiire, võimekas, sobib kõikjale
- Parim: Algtaseme versioonid, reaalajas rakendused
DeepSeek R1 destilleerimislahus 14B (Qwen baasil)
- Parameetrid: 14B
- Videomälu neljandas kvartalis: ~8.4 GB
- Tugevused: Tugev arutluskäik destilleerimisest
- Parim: Programmeerimisassistendid, probleemide lahendamine
Laama 4 8B
- Parameetrid: 8B
- Videomälu neljandas kvartalis: ~4.8 GB
- Tugevused: Kiire, mitmekülgne
- Parim: Igapäevased ülesanded, vestlusrakendused
4. tase: serv/sisseehitatud (4–8 GB videomälu)
Qwen3-4B
- Parameetrid: 4B
- Videomälu neljandas kvartalis: ~2.4 GB
- Tugevused: Rivaalide Qwen2.5-7B jõudlus
- Parim: Sülearvutid, integreeritud graafikakaardid, servaseadmed
Phi-4 (Microsoft)
- Parameetrid: 14B
- Videomälu neljandas kvartalis: ~8.4 GB
- Tugevused: Erakordse suurusega, STEM-fookusega
- Parim: Hariduslikud, tehnilised rakendused
Qwen3-0.6B
- Parameetrid: 0.6B
- Videomälu neljandas kvartalis: <1 GB
- Tugevused: Töötab kõikjal
- Parim: Asjade internet, mobiil, ülimadala ressursiga keskkonnad
Mudeli valiku vooskeem
What's your primary VRAM capacity?
├─ 32GB+ (RTX 5090, Dual 3090s)
│ └─ Qwen3-235B-A22B or DeepSeek R1 70B @ Q4
│
├─ 24GB (RTX 4090, 3090)
│ └─ Qwen3-32B @ Q4 or DeepSeek R1 32B @ Q4
│
├─ 16GB (RTX 5080, 5070 Ti, 4080)
│ └─ Qwen3-14B @ Q4 or Gemma 3 27B @ Q4
│
├─ 12GB (RTX 5070, 4070 Ti)
│ └─ Qwen3-8B @ Q4 or Llama 4 8B @ Q4
│
└─ 8GB (RTX 4070, 3070)
└─ Qwen3-4B @ Q4 or Phi-4 @ aggressive quant
7. osa: Täielikud süsteemi loomise soovitused
1. ehitis: sisenemispunkt (1,200–1,500 dollarit)
Kasutusjuhtum: Isiklik tehisintellekti assistent, kodeerimisabi, katsetamine
| Komponent | Soovitus | märkused |
|---|---|---|
| GPU | RTX 5070 Ti (16 GB) | Parim hinna ja kvaliteedi suhe 16 GB mälumahuga |
| Protsessor | AMD Ryzen 7 9700X | 8 südamikku, PCIe 5.0 |
| RAM | 32GB DDR5-6000 | Mudeli laadimise puhver |
| Säilitamine | 2TB NVMe PCIe 4.0 | Kiire mudeli laadimine |
| PSU | 750W 80+ kuld | Piisav pearuum |
| Emaplaat | B650 koos PCIe 5.0-ga | Tulevikukindla |
Saab joosta:
- Qwen3-14B @ Q4 (~8.4 GB) — suurepärane
- DeepSeek R1 14B @ Q4 — suurepärane
- Qwen3-32B @ Q3 (agressiivne) — võimalik, aga pingeline
- Mitu 8B mudelit samaaegselt
Eeldatav jõudlus: 35–50 žetooni sekundis 14B mudelitega
2. ehitus: tarbijatele parim valik (3,500–4,500 dollarit)
Kasutusjuhtum: Professionaalne areng, uurimistöö, sisu loomine
| Komponent | Soovitus | märkused |
|---|---|---|
| GPU | RTX 5090 (32 GB) | Maksimaalne ühe GPU videomälu |
| Protsessor | AMD Ryzen 9 9950X | 16 südamikku, kõrge ühekeermeline protsessor |
| RAM | 64GB DDR5-6400 | Suured kontekstiaknad |
| Säilitamine | 4TB NVMe Gen4 | Mudeliteek |
| PSU | 1000W 80+ kuld | Nõutav 575W graafikakaardi jaoks |
| Emaplaat | X670E | Täielik funktsioonide komplekt |
Saab joosta:
- Qwen3-32B @ Q4 — mugav 13 GB salvestusruumiga
- DeepSeek R1 32B @ Q6 — kõrgem kvaliteet
- Qwen3-235B-A22B @ Q4 — pinges, aga töötab
- Igasugune kvaliteetne alla 32B mudel
Eeldatav jõudlus: 50–80 žetooni sekundis 32B mudelitega
3. versioon: Kohalik tehisintellekti server (7,000–10 000 dollarit)
Kasutusjuhtum: Meeskonna järeldusserver, mudelieksperimenteerimine, tootmiskoormused
| Komponent | Soovitus | märkused |
|---|---|---|
| GPU | 2× RTX 5090 (kokku 64 GB) | Tensorparalleelsus on valmis |
| Protsessor | AMD keermestaja 7960X | 24 südamikku, 48 rada |
| RAM | 128 GB DDR5-5600 ECC | Veaparandus usaldusväärsuse tagamiseks |
| Säilitamine | 8 TB NVMe RAID 0 | Kiire mudelivahetus |
| PSU | 1600W 80+ titaan | Kahe GPU pearuumi |
| Emaplaat | TRX50 | Täielik PCIe raja tugi |
| Jahutus | Kohandatud tsükkel | Termoregulatsiooni |
Saab joosta:
- DeepSeek R1 70B @ Q4 — täisjõudlus
- Qwen3-235B-A22B @ Q4 — suurepärane
- Iga mudel alla 120B parameetrite
- Mitmed 32B mudelid A/B-testimiseks
Eeldatav jõudlus: 40–50 žetooni sekundis 70B mudelitega
4. ehitus: Eelarvelabor (kasutatud turg 2,000–2,500 dollarit)
Kasutusjuhtum: Õppiv, arenev, kuluteadlik entusiast
| Komponent | Soovitus | märkused |
|---|---|---|
| GPU | 2× RTX 3090 (kokku 48 GB) | NVLinki võimeline! |
| Protsessor | AMD Ryzen 9 5950X | Eelmine genereeritud väärtus |
| RAM | 64GB DDR4-3600 | Ikka veel võimeline |
| Säilitamine | 2 TB NVMe | Mudeli salvestamine |
| PSU | 1200W 80+ kuld | Kaks 350W graafikaprotsessorit |
| Emaplaat | X570 koos 2× x16-ga | NVLinki tugi |
| NVLinki sild | RTX 3090 NVLink | ~80 dollarit kasutatud |
NVLinki eelis: See on ainus tarbijale mõeldud konfiguratsioon, mis toetab NVLinki, pakkudes tõelist VRAM-i koondamist kiirusega 112.5 GB/s, võrreldes PCIe ~32 GB/s-ga.
Saab joosta:
- Qwen3-32B @ Q8 (kõrgem kvaliteet) — mugav
- DeepSeek R1 32B @ FP16 — hoolika kontekstihaldusega
- 70B mudelid agressiivses Q3-s — võimalik
Eeldatav jõudlus: 25–35 žetooni sekundis 32B mudelitega (NVLinki tõttu oodatust kiirem)
5. versioon: kaasaskantav jõujaam (sülearvuti)
Kasutusjuhtum: Mobiilse tehisintellekti arendus, liikvel olles tehisintellekti järeldused
| Spec | Soovitus |
|---|---|
| GPU | RTX 5090 mobiilseade (24 GB) |
| Protsessor | Intel Core Ultra 9 / AMD Ryzen 9 |
| RAM | 64GB |
| Säilitamine | 2 TB NVMe |
| Ekraan | 16 "2560 × 1600 |
Märkimisväärsed mudelid:
- ASUS ROG Strix SCAR 18 (2026)
- Razer Blade 18 (2026)
- MSI Titan GT78 (2026)
Saab joosta:
- Qwen3-14B @ Q4 — suurepärane
- DeepSeek R1 14B @ Q4 — suurepärane
- Qwen3-32B @ Q4 — pinges, aga toimib
Märge: Mobiilsel RTX 5090-l on 24 GB (mitte 32 GB) mälu ja madalam TDP. Eeldatav jõudlus on ~70% lauaarvuti omast.
8. osa: Tarkvarapaketi soovitused
Olulised tööriistad
Ollama — Lihtne nupp
# Install
curl -fsSL https://ollama.ai/install.sh | sh
# Run Qwen3 8B
ollama run qwen3:8b
# Run with specific quantization
ollama run qwen3:14b-q4_K_M
# Multi-GPU (automatic)
CUDA_VISIBLE_DEVICES=0,1 ollama run qwen3:32b
Parim: Alustamine, lihtsad juurutused, API teenindamine
LM Studio — GUI-kogemus
- Visuaalse mudeli brauser
- Allalaadimine ühe klõpsuga
- Sisseehitatud vestlusliides
- Kvantimise valik
Parim: Mitte-tehnilised kasutajad, mudeli uurimine
llama.cpp — Maksimaalne kontroll
# Build with CUDA
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release
# Run with multi-GPU
./llama-server -m qwen3-32b-q4_k_m.gguf \
-ngl 99 \
--tensor-split 0.5,0.5 \
-c 8192
Parim: Edasijõudnud kasutajad, kohandatud juurutused, maksimaalne jõudlus
vLLM – tootmisteenindus
# Install
pip install vllm
# Serve with tensor parallelism
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3-32B \
--tensor-parallel-size 2 \
--dtype auto
Parim: Suure läbilaskevõimega teenindus, API lõpp-punktid, tootmine
Mudeli allikad
| allikas | URL | märkused |
|---|---|---|
| Kallistav nägu | huggingface.co | Ametlikud väljaanded |
| Ollama raamatukogu | ollama.com/raamatukogu | Eelkvantiseeritud, lihtne |
| TheBloke (HF) | huggingface.co/TheBloke | GGUF-kvantiseerimised |
| LM Stuudiokeskus | lmstudio.ai | Kureeritud valik |
9. osa: Optimeerimisnõuanded
VRAM-i optimeerimine
- Kasutage Q4_K_M kvantiseerimist — Parim tasakaal suuruse ja kvaliteedi vahel
- Konteksti pikkuse piiramine — 8K 32K asemel säästab ~40% videomälu
- Keela KV vahemälu ühekordsete käskude jaoks
- Kasutage välklambi tähelepanu 2 — Vähendab mälumahtu pikkade kontekstide korral
- Mälusäästliku järelduse lubamine vLLM-is
Kiiruse optimeerimine
- Maksimeeri GPU mälu ribalaiust — Kiirem RAM = kiiremad märgid
- Kasutage 8. raamprogrammi, kui see on saadaval — 2–3x kiirendus RTX 50 seerial
- Spekulatiivse dekodeerimise lubamine — Kasutage suurte kiirendamiseks väikest mudelit
- Paketttaotlused — Suurem läbilaskevõime serveerimiseks
- Kasutage pidevat partiide töötlemist (vLLM) — dünaamiline päringute käsitlemine
Mitme GPU optimeerimine
- GPU mudelite vastendamine — Vältige põlvkondade segunemist
- Kontrollige NUMA topoloogiat — Sama sõlm = madalam latentsusaeg
- Kasutage vähemalt 8 sõidurada — x4 tekitab kitsaskohti
- Monitor nvidia-smi abil — Jälgige tasakaalustamata kasutamist
- Testige erinevaid TP/PP konfiguratsioone — Optimaalne varieerub mudeliti
10. osa: Levinud probleemide tõrkeotsing
"CUDA mälu on otsas"
Põhjused:
- Mudel on videomälu jaoks liiga suur
- Kontekstiaken on liiga pikk
- KV vahemälu kasv
Lahendused:
- Kasutage agressiivsemat kvantiseerimist (Q4 → Q3)
- Vähenda konteksti pikkust
- Vähenda partii suurust
- Välgu tähelepanu lubamine
- Jaga mitme GPU vahel
Aeglane žetoonide genereerimine
Põhjused:
- Mälu ribalaius on piiratud
- Protsessori koormuse vähendamine aktiivne
- Termiline drossel
Lahendused:
- Veenduge, et mudel mahub täielikult videomälusse
- Kontrollige graafikakaardi temperatuuri (sihtväärtus <85 °C)
- Kasutage väiksemat mudelit
- Luba GPU jõudlusrežiim
- Parandage korpuse õhuvoolu
Mitme GPU skaleerimine pole võimalik
Põhjused:
- PCIe ribalaiuse kitsaskoht
- Vale kihtide jagamine
- NUMA kauguse probleemid
Lahendused:
- Vaata
nvidia-smi topo -mtopoloogia jaoks - Reguleeri tensori jaotussuhteid
- Tagage x8+ PCIe iga graafikakaardi kohta
- Kaalu NVLinki (RTX 3090)
- Kasutage tensori asemel torujuhtme paralleelsust
Järeldus: õige valiku tegemine
Kohaliku tehisintellekti süsteemi loomine on 2026. aastal kättesaadavam kui kunagi varem. Siin on kokkuvõte:
Kiired soovitused:
| Eelarve | Parim valik | Peamine kasu |
|---|---|---|
| $ 500-800 | Kasutatud RTX 3090 | 24 GB videomälu, NVLinki tugi |
| $ 750-1000 | RTX 5070 Ti | Uus, 16 GB, tõhus |
| $ 1000-1500 | RTX 5080 | 16 GB, kiirem |
| $ 2000 + | RTX 5090 | 32 GB, lipulaev |
| $ 4000 + | Kahekordne RTX 5090 | 64 GB, 70B mudelid |
Kuldsed reeglid:
- Videomälu > Kõik muu — Rohkem mälu = rohkem mudelivalikuid
- Kvantimine on sinu sõber — Q4_K_M on magus punkt
- Mitme GPU-ga kaasneb vähenev tootlus — Ilma NVLinkita on kahe graafikakaardi puhul oodata ~1.6x
- Mälu ribalaius on oluline — Eriti suurte mudelite puhul
- Alusta väikeselt, suurenda — Enne investeerimist testige oma töökoormust
Avatud lähtekoodiga tehisintellekti ökosüsteem areneb kiiresti. Mudelid, mis kaks aastat tagasi vajasid 100 000 dollarit maksvat riistvara, töötavad nüüd 2000 dollarit maksvatel süsteemidel. Ükskõik, mida te täna ehitate, muutub mudelite tõhusamaks muutudes ainult võimekamaks.
Tere tulemast isikliku tehisintellekti ajastusse.
Riistvara soovituste ja saadavuse kohta külastage Kentino.com
Lisa: Kiirviitetabelid
Mudeli VRAM-i nõuded (Q4_K_M)
| MUDEL | parameetrid | Videomälu Q4-s | Minimaalne graafikakaart |
|---|---|---|---|
| Qwen3-0.6B | 0.6B | ~0.5 GB | mistahes |
| Qwen3-4B | 4B | ~2.4 GB | GTX 1650 |
| Qwen3-8B | 8B | ~4.8 GB | RTX 3060 |
| Qwen3-14B | 14B | ~8.4 GB | RTX 4070 |
| Qwen3-32B | 32B | ~19 GB | RTX 4090 |
| Qwen3-235B-A22B | 235B (22B aktiivne) | ~28 GB | RTX 5090 |
| DeepSeek R1 70B | 70B | ~42 GB | 2× RTX 5090 |
| Laama 4 405B | 405B | ~243 GB | 8× RTX 5090 |
GPU võrdlus tehisintellekti jaoks
| GPU | VRAM | Bandwidth | AI ÜLES | TDP | MSRP |
|---|---|---|---|---|---|
| RTX 5090 | 32GB | 1,792 GB / s | ~ 3,400 | 575W | $1,999 |
| RTX 5080 | 16GB | 960 GB / s | ~ 1,801 | 360W | $999 |
| RTX 5070 Ti | 16GB | 896 GB / s | ~ 1,406 | 300W | $749 |
| RTX 5070 | 12GB | 672 GB / s | ~ 988 | 250W | $549 |
| RTX 4090 | 24GB | 1,008 GB / s | ~ 1,300 | 450W | $1,599 |
| RTX 3090 | 24GB | 936 GB / s | ~ 285 | 350W | ~800 dollarit kasutatud |
Viimati värskendatud: jaanuar 2026 Artikli koostas Kentino tehniline meeskond