Oma tehisintellekti süsteemi loomine: täielik 2026. aasta juhend tarbijale mõeldud GPU-riistvara kohta kohalikele õigusteaduse spetsialistidele

Oma tehisintellekti süsteemi loomine: täielik 2026. aasta juhend tarbijale mõeldud GPU-riistvara kohta kohalikele õigusteaduse spetsialistidele

Põhjalik ülevaade VRAM-i piirangutest, mitme GPU koondamise süsteemist, PCIe piirangutest ja ujukomaarvude jõudlusest

Kentino.com tehnilise meeskonna poolt | jaanuar 2026


Sissejuhatus: Miks ehitada oma tehisintellekti süsteem?

Tehisintellekti revolutsioon ei toimu enam ainult andmekeskustes. Kuna avatud lähtekoodiga mudelid nagu DeepSeek R1, Qwen 3, Llama 4 ja Gemma on saavutanud enneolematuid võimalusi, on võimsa tehisintellekti lokaalne käitamine muutunud mitte ainult võimalikuks, vaid ka praktiliseks.

Aga siin on konks, mida keegi sulle ei räägi: Videomälu on kuningas ja kõik muu on kompromiss.

See juhend aitab teil segaduses GPU ostjast saada teadlikuks tehisintellekti süsteemiarhitektiks. Käsitleme kõike alates ühe GPU-ga konfiguratsioonidest, mis käitavad 8B parameetriga mudeleid, kuni mitme GPU-ga konfiguratsioonideni, mis on võimelised hakkama saama enam kui 70B parameetriga hiiglastega. Olenemata sellest, kas ehitate kodeerimisassistenti, uurimistööjaama või privaatset tehisintellekti serverit, on see juhend teile abiks.


1. osa: VRAM-i mõistmine – tehisintellekti valuuta

Miks VRAM on olulisem kui miski muu?

Suurte keelemudelite (LLM) käitamisel on teie GPU VRAM (video muutmälu) kõige olulisem spetsifikatsioon. Erinevalt mängudest, kus VRAM salvestab peamiselt tekstuure ja kaadripuhvreid, vajavad tehisintellekti töökoormused VRAM-i järgmiseks:

  1. Mudeli kaaludMiljardid parameetrid, mis määratlevad tehisintellekti teadmisi
  2. KV vahemäluMälu, mis kasvab koos vestluse pikkusega (kontekstiaken)
  3. AktiveerimismäluAjutised arvutused järeldamise ajal
  4. Süsteemi üldkuludCUDA tuumad, mäluhaldus, käitusaja puhvrid

Kuldne valem:

Required VRAM (GB) = (Parameters in Billions × Precision in Bytes) × 1.2

Examples:
- 8B model @ FP16 (2 bytes):   8 × 2 × 1.2 = ~19.2 GB
- 8B model @ Q4 (0.5 bytes):   8 × 0.5 × 1.2 = ~4.8 GB
- 70B model @ FP16 (2 bytes):  70 × 2 × 1.2 = ~168 GB
- 70B model @ Q4 (0.5 bytes):  70 × 0.5 × 1.2 = ~42 GB

Kvantimise revolutsioon

Kvantiseerimine on tehnika, mis võimaldab käitada suuri mudeleid tarbijariistvaral. Mudeli kaalude täpsuse vähendamisega 16-bitiselt (FP16) 4-bitisele (Q4) saab käitada mudeleid, mis muidu nõuaksid ettevõtte riistvara.

Kvantiseerimine Bitid parameetri kohta Mälu vähendamine Mõju kvaliteedile
FP16 16 bitti (2 baiti) Baseline 100%
Q8_0 8 bitti (1 bait) 50% ~ 99%
Q5_K_M 5 bitti (0.625 baiti) 68% ~ 97%
Q4_K_M 4 bitti (0.5 baiti) 75% ~ 95%
Q3_K_M 3 bitti (0.375 baiti) 81% ~ 90%

Magus külg: Q4_K_M kvantiseerimine pakub 75% mälusäästu vaid ~5% kvaliteedikaoga – muutes selle 2026. aastal tarbijatele juurutamise kuldstandardiks.


2. osa: 2026. aasta GPU maastik

NVIDIA RTX 50 seeria — uus standard

NVIDIA Blackwelli arhitektuur toob tehisintellekti töökoormuste jaoks olulisi täiustusi:

RTX 5090 — lipulaevkoletis

spetsifikatsioon RTX 5090 RTX 4090 (eelmine põlvkond)
VRAM 32 GB GDDR7 24 GB GDDR6X
Mälu ribalaius 1,792 GB / s 1,008 GB / s
CUDA südamikud 21,760 16,384
Tensori tuumad 680 (5. põlvkond) 512 (4. põlvkond)
AI TOPS (INT8) ~ 3,400 ~ 1,300
TDP 575W 450W
PCIe 5.0 x16 4.0 x16
MSRP $1,999 $1,599

Mida 32 GB videomälu sulle annab:

  • Qwen3-32B @ Q4_K_M — mugavalt
  • DeepSeek R1 32B @ Q4_K_M — konteksti arvestamiseks ruumi
  • Llama 4 8B @ FP16 — täielik täpsus
  • 70B mudelid @ Q4_K_M — agressiivsete kontekstipiirangutega

RTX 5090 ribalaiuse 78% paranemine võrreldes 4090-ga tähendab kiiremat tokeni genereerimist, mis on eriti oluline suuremate mudelite puhul, kus mälu ribalaius muutub pudelikaelaks.

RTX 5080 — praktiline valik

spetsifikatsioon RTX 5080
VRAM 16 GB GDDR7
Mälu ribalaius 960 GB / s
CUDA südamikud 10,752
Tensori tuumad 336 (5. põlvkond)
AI TOPS (INT8) ~ 1,801
TDP 360W
MSRP $999

Mida 16 GB videomälu sulle annab:

  • Qwen3-14B @ Q4_K_M — suurepärane sooritus
  • DeepSeek R1 14B @ Q4_K_M — suurepärane kodeerimiseks
  • Laama 4 8B @ Q8_0 — kõrge kvaliteet
  • 32B mudelid agressiivse kvantiseerimise korral — võimalik, aga kitsas

RTX 5070 Ti – taskukohane AI tööhobune

spetsifikatsioon RTX 5070 Ti
VRAM 16 GB GDDR7
Mälu ribalaius 896 GB / s
CUDA südamikud 8,960
Tensori tuumad 280 (5. põlvkond)
AI TOPS (INT8) ~ 1,406
TDP 300W
MSRP $749

RTX 5070 Ti pakub sama 16 GB videomälu kui 5080, kuid 25% madalama hinnaga – mis teeb sellest vaieldamatult parima hinna ja kvaliteedi suhte spetsiaalse tehisintellektiga töötamise jaoks, kui toores tokeni kiirus pole kriitilise tähtsusega.

RTX 5070 — sisenemispunkt

spetsifikatsioon RTX 5070
VRAM 12 GB GDDR7
Mälu ribalaius 672 GB / s
CUDA südamikud 6,144
TDP 250W
MSRP $549

12 GB probleem: Kuigi RTX 5070 hind on ahvatlev, tekitab 12 GB videomälu olulisi piiranguid. 14 GB+ mudelite ja pikemate kontekstiakendega jõuad vastuollu. Mõtle 5070 Ti lisa 4 GB-le kui hädavajalikule kindlustusele.

Eelmine põlvkond on endiselt elujõuline

RTX 4090 — endiselt võistleja

24 GB videomäluga RTX 4090 on tehisintellekti jaoks endiselt suurepärane. Kui leiate hea hinnaga sellise, saab see hakkama järgmisega:

  • 14B mudelid kõrge kvantisatsiooniga
  • 32B mudelid Q4_K_M-is (kitsas)
  • Mitu 8B mudelit samaaegselt

RTX 3090 / 3090 Ti — Budget Kings

24 GB videomäluga (sama mis 4090) on need vanemad kaardid tehisintellekti jaoks uskumatult väärtuslikud:

  • Aeglasem ribalaius (936 GB/s)
  • Vanemad tensortuumad (3. põlvkond)
  • Aga sama 24 GB mahutavusega

Kui puhas videomälu on kiirusest olulisem (nt partiitöötluse või arenduse puhul), siis tehisintellekti töökoormuste puhul edestab kasutatud 3090 hinnaga 700–900 dollarit uut 5070 hinnaga 549 dollarit.


3. osa: PCIe piirangute mõistmine

PCIe ribalaiuse reaalsus

PCIe (perifeersete komponentide ühenduskiir) on kiirtee teie graafikakaardi ja ülejäänud süsteemi vahel. Siin on see, mida peate teadma:

PCIe versioon Ribalaius raja kohta x16 Kokku x8 Kokku x4 Kokku
PCIe 3.0 ~ 1 GB / s ~ 16 GB / s ~ 8 GB / s ~ 4 GB / s
PCIe 4.0 ~ 2 GB / s ~ 32 GB / s ~ 16 GB / s ~ 8 GB / s
PCIe 5.0 ~ 4 GB / s ~ 64 GB / s ~ 32 GB / s ~ 16 GB / s

Millal PCIe on oluline (ja millal mitte)

PCIe on oluline järgmistel juhtudel:

  • Esialgne mudeli laadimine (suurte mudelite puhul säästetud minutit)
  • Mitme GPU kommunikatsioon (kriitiline tensorparalleelsuse jaoks)
  • Segatud protsessori/graafikaprotsessori järeldused (kui mudel levib muutmälule)

PCIe-l pole eriti tähtsust järgmistel juhtudel:

  • Ühe GPU järeldamine pärast mudeli laadimist
  • Väikese mudeli järeldus
  • Pikad seansid, mille laadimisaeg on tühine

Praktilised juhised:

  • Üks GPU: PCIe 4.0 x8 on tavaliselt piisav
  • Kahekordne graafikakaart: soovitatavalt PCIe 4.0 x16/x16 või x8/x8
  • Neljakordne graafikakaart: soovitatav on PCIe 5.0 või ettevõtte platvormid

Protsessori liinide piirangud platvormi järgi

Platvorm PCIe radade koguarv Tüüpiline konfiguratsioon
Intel 14. põlvkond (lauaarvuti) 20 protsessorilt + 4 kiibistikult 1 GPU x16 + NVMe
AMD Ryzen 9000 24 protsessorilt 1 GPU x16 + NVMe
AMD Threadripper PRO 128 rada 4 GPU-d x16 igaüks
Intel Xeon W 64–112 rada 2–4 GPU-d x16 igaüks

Tarbijaplatvormi kitsaskoht: Enamik tarbijatele mõeldud protsessoreid (Intel Core, AMD Ryzen) pakuvad protsessorilt ainult 16–24 PCIe-rada. See tähendab:

  • Esimene graafikakaart saab täis x16
  • Teise graafikakaardi lisamine sunnib mõlemad sageli x8/x8 peale
  • Kolmas ja neljas graafikakaart võivad töötada kiirusel x4

Tõsise mitme GPU-ga tehisintellekti töö jaoks kaaluge Threadripper PRO või HEDT platvorme.


4. osa: Mitme GPU konfiguratsioonid – videomälu ühiskasutus

Unistus vs. reaalsus

Unistus: Kombineeri 4× RTX 5090 graafikakaarti 128 GB ühtse videomälu saamiseks ja käita suurimaid mudeleid nagu H100-l.

Reaalsus: See on keeruline, aga üha enam võimalik.

Kuidas multi-GPU töötab õigusteaduse magistrantide jaoks

On kaks peamist lähenemisviisi:

Tensorparallelism (TP)

Jagab üksikud toimingud (näiteks maatriksite korrutamised) mitme GPU vahel. Nõuab GPU-de vahelist suure ribalaiusega sidet.

Parim on: Suure läbilaskevõimega järeldused, latentsustundlikud rakendused Nõuded: Eelistatud on NVLink, minimaalne PCIe 4.0 x8 graafikakaardi kohta Toetaja: vLLM, TensorRT-LLM, DeepSpeed

Torujuhtme paralleelsus (PP)

Jagab mudeli järjestikusteks etappideks, kus iga GPU käsitleb erinevaid kihte.

Parim on: Suurte mudelite sobitamine, partiitöötlus Nõuded: Mõõdukas GPU-devaheline ribalaius Toetaja: llama.cpp, Ollama, enamik raamistikke

NVLink vs. PCIe — karm tõde

NV link pakub otsest GPU-devahelist suhtlust kiirusega ~900 GB/s (NVLink 4.0 jaoks). See võimaldab tõelist mälu ühiskasutust, kus GPU-d saavad otse üksteise videomälule juurde pääseda.

Probleem: Tarbijatele mõeldud RTX-kaardid ei toeta enam NVLinki. Viimased NVLinki-toega tarbijatele mõeldud graafikakaardid olid RTX 3090/3090 Ti (NVLink 3.0 @ 112.5 GB/s kahesuunaline).

Ilma NVLinkita kasutab mitme GPU-ga side PCIe-d:

  • Palju aeglasem (~32–64 GB/s vs 900 GB/s)
  • Suurem latentsus
  • VRAM-i ei saa otse koondada

Praktiline mõju:

konfiguratsioon Eeldatav jõudlus
1× RTX 5090 (32 GB) Baseline
2× RTX 5090 PCIe kaudu ~1.6–1.8x (mitte 2x)
2× RTX 3090 NVLinki kaudu ~1.8–1.9x
Ettevõte NVLinkiga ~1.95x+

Mitme GPU toimima panemine ilma NVLinkita

Vaatamata piirangutele on tarbijariistvara mitme GPU-ga seadistused üha praktilisemad:

Soovitatav tarkvara:

  • call.cppSuurepärane mitme GPU tugi, jagab kihid kaartide vahel
  • OllamaLihtne seadistamine, automaatne kihtide jaotus
  • vLLMSuure jõudlusega serveerimine, tensorparalleelsuse tugi
  • exllama2Optimeeritud mitme GPU järeldamiseks

Konfiguratsiooni näpunäited:

  1. Veenduge, et mõlemad GPU-d oleksid samal NUMA-sõlmel (kontrollige nvidia-smi topo -m)
  2. Kahe GPU puhul kasutage vähemalt x8/x8 PCIe
  3. komplekt CUDA_VISIBLE_DEVICES õigesti
  4. GPU mudelite sobitamine võimaluse korral (põlvkondade segamine toimib, aga võib olla ebaefektiivne)

Mitme GPU konfiguratsiooni näited

Kahekordne RTX 5090 (kokku 64 GB)

Models supported:
- Qwen3-70B @ Q4_K_M (needs ~42GB) ✓
- DeepSeek R1 70B @ Q4_K_M ✓
- Llama 4 70B @ Q4_K_M ✓
- Any 32B model @ FP16 ✓

Performance: ~40-50 tokens/sec on 70B models
Cost: ~$4,000 (GPUs only)
Power: 1,150W peak (GPUs only)

Neljakordne RTX 5090 (kokku 128 GB)

Models supported:
- Qwen3-235B-A22B (MoE, ~22B active) ✓
- Any 70B model @ Q8_0 ✓
- 120B+ dense models @ Q4_K_M ✓

Performance: Variable, depends heavily on PCIe topology
Cost: ~$8,000 (GPUs only)
Power: 2,300W peak (GPUs only)
Requires: HEDT/Server platform (Threadripper, Xeon)

Eelarveversioon: Kasutatud kahekordne RTX 3090 (kokku 48 GB)

Models supported:
- Qwen3-32B @ Q4_K_M ✓
- DeepSeek R1 32B @ Q4_K_M ✓
- 70B models @ aggressive Q3 quantization (marginal)

Performance: ~20-30 tokens/sec on 32B models
Cost: ~$1,400-1,800 (GPUs used)
Advantage: NVLink support!

5. osa: Ujukomaarvu jõudluse süvaanalüüs

Täppisvormingute selgitus

Kaasaegne tehisintellekt kasutab erinevaid numbrilise täpsusega vorminguid:

vorming Bitti Valik Kasuta Case'it
FP32 32 ±3.4×10^38 Treening, ülitäpne
FP16 16 ± 65,504 Järeldus, tasakaalustatud
BF16 16 ±3.4×10^38 Treening, kaasaegsed graafikaprotsessorid
FP8 8 ±448 (E4M3) Kiire järeldus
INT8 8 -128 et 127 Kvantiseeritud järeldus
INT4 4 -8 et 7 Agressiivne kvantiseerimine

Blackwelli FP4 ja FP8 eelised

RTX 50 seeria tutvustab Tensor Core'ides natiivset FP4 tuge:

Täpsus RTX 4090 TOPS RTX 5090 TOPS speedup
FP16 330 418 1.27x
FP8 660 ~ 1,700 2.6x
FP4 N / A ~ 3,400 Uus
INT8 660 ~ 3,400 5.1x

Mida see tähendab:

  • FP8 ja FP4 järeldused on RTX 50 seerias oluliselt kiiremad
  • FP8 jaoks optimeeritud mudelid näevad tohutut kiirendust
  • Tensor Core'i põlvkonnad on sama olulised kui CUDA tuumad

Mälu ribalaius — teine ​​​​pudekohasus

Suurte mudelite puhul on mälu ribalaius sageli olulisem kui arvutusvõimsus:

Žetoonide arv sekundis on piiratud järgmisega:

Max Tokens/s = Memory Bandwidth (GB/s) / Bytes per Parameter

RTX 5090 with 70B Q4_K_M model:
1,792 GB/s / 35 GB = ~51 tokens/s theoretical maximum

RTX 4090 with same model:
1,008 GB/s / 35 GB = ~29 tokens/s theoretical maximum

RTX 5090 ribalaiuse 78% paranemine tähendab otseselt kiiremat genereerimist suurte mudelite puhul.


6. osa: Avatud lähtekoodiga mudelimaastik – mida käivitada

1. tase: lipulaevamudelid (soovitatav on 32 GB+ videomälu)

Qwen3-235B-A22B (MoE)

  • Aktiivsed parameetrid: 22B (kokku 235B)
  • Videomälu neljandas kvartalis: ~28 GB
  • kontekstis: 32K natiivset, 131K YaRN-iga
  • Tugevused: Matemaatika, kodeerimine, mitmekeelne (119 keelt)
  • Parim: Üldotstarbeline, kodeerimine, uurimistöö

DeepSeek R1 70B

  • Parameetrid: 70B
  • Videomälu neljandas kvartalis: ~42 GB
  • kontekstis: 128K
  • Tugevused: Arutluskäik, mõtteahel, kodeerimine
  • Parim: Komplekssete probleemide lahendamine, uurimistöö

Laama 4 70B

  • Parameetrid: 70B
  • Videomälu neljandas kvartalis: ~42 GB
  • kontekstis: 128K
  • Tugevused: Üldised võimed, juhiste järgimine
  • Parim: Mitmekülgsed rakendused

2. tase: professionaalsed mudelid (16–24 GB videomälu)

Qwen3-32B

  • Parameetrid: 32B
  • Videomälu neljandas kvartalis: ~19 GB
  • kontekstis: 128K
  • Tugevused: Kodeerimine (vastab GPT-4o-le), arutluskäik
  • Parim: Üks RTX 5090/4090, arendus

DeepSeek R1 destilleerimispulber 32B

  • Parameetrid: 32B
  • Videomälu neljandas kvartalis: ~19 GB
  • Tugevused: Suuremast mudelist destilleeritud arutluskäik
  • Parim: Kulutõhus arutluskäik

Gemma 3 27B

  • Parameetrid: 27B
  • Videomälu neljandas kvartalis: ~16 GB
  • kontekstis: 128K
  • Tugevused: Tõhus, Google'i kvaliteediga, multimodaalne
  • Parim: RTX 5080/5070 Ti versioonid

3. tase: Tarbijamudelid (8–16 GB videomälu)

Qwen3-14B

  • Parameetrid: 14B
  • Videomälu neljandas kvartalis: ~8.4 GB
  • kontekstis: 128K
  • Tugevused: Suurepärane suuruse ja võimekuse tasakaal
  • Parim: RTX 5070 Ti, 4070 Ti, üldkasutatav

Qwen3-8B

  • Parameetrid: 8B
  • Videomälu neljandas kvartalis: ~4.8 GB
  • kontekstis: 32K natiivne, 131K laiendatud
  • Tugevused: Kiire, võimekas, sobib kõikjale
  • Parim: Algtaseme versioonid, reaalajas rakendused

DeepSeek R1 destilleerimislahus 14B (Qwen baasil)

  • Parameetrid: 14B
  • Videomälu neljandas kvartalis: ~8.4 GB
  • Tugevused: Tugev arutluskäik destilleerimisest
  • Parim: Programmeerimisassistendid, probleemide lahendamine

Laama 4 8B

  • Parameetrid: 8B
  • Videomälu neljandas kvartalis: ~4.8 GB
  • Tugevused: Kiire, mitmekülgne
  • Parim: Igapäevased ülesanded, vestlusrakendused

4. tase: serv/sisseehitatud (4–8 GB videomälu)

Qwen3-4B

  • Parameetrid: 4B
  • Videomälu neljandas kvartalis: ~2.4 GB
  • Tugevused: Rivaalide Qwen2.5-7B jõudlus
  • Parim: Sülearvutid, integreeritud graafikakaardid, servaseadmed

Phi-4 (Microsoft)

  • Parameetrid: 14B
  • Videomälu neljandas kvartalis: ~8.4 GB
  • Tugevused: Erakordse suurusega, STEM-fookusega
  • Parim: Hariduslikud, tehnilised rakendused

Qwen3-0.6B

  • Parameetrid: 0.6B
  • Videomälu neljandas kvartalis: <1 GB
  • Tugevused: Töötab kõikjal
  • Parim: Asjade internet, mobiil, ülimadala ressursiga keskkonnad

Mudeli valiku vooskeem

What's your primary VRAM capacity?

├─ 32GB+ (RTX 5090, Dual 3090s)
│   └─ Qwen3-235B-A22B or DeepSeek R1 70B @ Q4
├─ 24GB (RTX 4090, 3090)
│   └─ Qwen3-32B @ Q4 or DeepSeek R1 32B @ Q4
├─ 16GB (RTX 5080, 5070 Ti, 4080)
│   └─ Qwen3-14B @ Q4 or Gemma 3 27B @ Q4
├─ 12GB (RTX 5070, 4070 Ti)
│   └─ Qwen3-8B @ Q4 or Llama 4 8B @ Q4
└─ 8GB (RTX 4070, 3070)
    └─ Qwen3-4B @ Q4 or Phi-4 @ aggressive quant

7. osa: Täielikud süsteemi loomise soovitused

1. ehitis: sisenemispunkt (1,200–1,500 dollarit)

Kasutusjuhtum: Isiklik tehisintellekti assistent, kodeerimisabi, katsetamine

Komponent Soovitus märkused
GPU RTX 5070 Ti (16 GB) Parim hinna ja kvaliteedi suhe 16 GB mälumahuga
Protsessor AMD Ryzen 7 9700X 8 südamikku, PCIe 5.0
RAM 32GB DDR5-6000 Mudeli laadimise puhver
Säilitamine 2TB NVMe PCIe 4.0 Kiire mudeli laadimine
PSU 750W 80+ kuld Piisav pearuum
Emaplaat B650 koos PCIe 5.0-ga Tulevikukindla

Saab joosta:

  • Qwen3-14B @ Q4 (~8.4 GB) — suurepärane
  • DeepSeek R1 14B @ Q4 — suurepärane
  • Qwen3-32B @ Q3 (agressiivne) — võimalik, aga pingeline
  • Mitu 8B mudelit samaaegselt

Eeldatav jõudlus: 35–50 žetooni sekundis 14B mudelitega


2. ehitus: tarbijatele parim valik (3,500–4,500 dollarit)

Kasutusjuhtum: Professionaalne areng, uurimistöö, sisu loomine

Komponent Soovitus märkused
GPU RTX 5090 (32 GB) Maksimaalne ühe GPU videomälu
Protsessor AMD Ryzen 9 9950X 16 südamikku, kõrge ühekeermeline protsessor
RAM 64GB DDR5-6400 Suured kontekstiaknad
Säilitamine 4TB NVMe Gen4 Mudeliteek
PSU 1000W 80+ kuld Nõutav 575W graafikakaardi jaoks
Emaplaat X670E Täielik funktsioonide komplekt

Saab joosta:

  • Qwen3-32B @ Q4 — mugav 13 GB salvestusruumiga
  • DeepSeek R1 32B @ Q6 — kõrgem kvaliteet
  • Qwen3-235B-A22B @ Q4 — pinges, aga töötab
  • Igasugune kvaliteetne alla 32B mudel

Eeldatav jõudlus: 50–80 žetooni sekundis 32B mudelitega


3. versioon: Kohalik tehisintellekti server (7,000–10 000 dollarit)

Kasutusjuhtum: Meeskonna järeldusserver, mudelieksperimenteerimine, tootmiskoormused

Komponent Soovitus märkused
GPU 2× RTX 5090 (kokku 64 GB) Tensorparalleelsus on valmis
Protsessor AMD keermestaja 7960X 24 südamikku, 48 rada
RAM 128 GB DDR5-5600 ECC Veaparandus usaldusväärsuse tagamiseks
Säilitamine 8 TB NVMe RAID 0 Kiire mudelivahetus
PSU 1600W 80+ titaan Kahe GPU pearuumi
Emaplaat TRX50 Täielik PCIe raja tugi
Jahutus Kohandatud tsükkel Termoregulatsiooni

Saab joosta:

  • DeepSeek R1 70B @ Q4 — täisjõudlus
  • Qwen3-235B-A22B @ Q4 — suurepärane
  • Iga mudel alla 120B parameetrite
  • Mitmed 32B mudelid A/B-testimiseks

Eeldatav jõudlus: 40–50 žetooni sekundis 70B mudelitega


4. ehitus: Eelarvelabor (kasutatud turg 2,000–2,500 dollarit)

Kasutusjuhtum: Õppiv, arenev, kuluteadlik entusiast

Komponent Soovitus märkused
GPU 2× RTX 3090 (kokku 48 GB) NVLinki võimeline!
Protsessor AMD Ryzen 9 5950X Eelmine genereeritud väärtus
RAM 64GB DDR4-3600 Ikka veel võimeline
Säilitamine 2 TB NVMe Mudeli salvestamine
PSU 1200W 80+ kuld Kaks 350W graafikaprotsessorit
Emaplaat X570 koos 2× x16-ga NVLinki tugi
NVLinki sild RTX 3090 NVLink ~80 dollarit kasutatud

NVLinki eelis: See on ainus tarbijale mõeldud konfiguratsioon, mis toetab NVLinki, pakkudes tõelist VRAM-i koondamist kiirusega 112.5 GB/s, võrreldes PCIe ~32 GB/s-ga.

Saab joosta:

  • Qwen3-32B @ Q8 (kõrgem kvaliteet) — mugav
  • DeepSeek R1 32B @ FP16 — hoolika kontekstihaldusega
  • 70B mudelid agressiivses Q3-s — võimalik

Eeldatav jõudlus: 25–35 žetooni sekundis 32B mudelitega (NVLinki tõttu oodatust kiirem)


5. versioon: kaasaskantav jõujaam (sülearvuti)

Kasutusjuhtum: Mobiilse tehisintellekti arendus, liikvel olles tehisintellekti järeldused

Spec Soovitus
GPU RTX 5090 mobiilseade (24 GB)
Protsessor Intel Core Ultra 9 / AMD Ryzen 9
RAM 64GB
Säilitamine 2 TB NVMe
Ekraan 16 "2560 × 1600

Märkimisväärsed mudelid:

  • ASUS ROG Strix SCAR 18 (2026)
  • Razer Blade 18 (2026)
  • MSI Titan GT78 (2026)

Saab joosta:

  • Qwen3-14B @ Q4 — suurepärane
  • DeepSeek R1 14B @ Q4 — suurepärane
  • Qwen3-32B @ Q4 — pinges, aga toimib

Märge: Mobiilsel RTX 5090-l on 24 GB (mitte 32 GB) mälu ja madalam TDP. Eeldatav jõudlus on ~70% lauaarvuti omast.


8. osa: Tarkvarapaketi soovitused

Olulised tööriistad

Ollama — Lihtne nupp

sisse lööma
# Install
curl -fsSL https://ollama.ai/install.sh | sh

# Run Qwen3 8B
ollama run qwen3:8b

# Run with specific quantization
ollama run qwen3:14b-q4_K_M

# Multi-GPU (automatic)
CUDA_VISIBLE_DEVICES=0,1 ollama run qwen3:32b

Parim: Alustamine, lihtsad juurutused, API teenindamine

LM Studio — GUI-kogemus

  • Visuaalse mudeli brauser
  • Allalaadimine ühe klõpsuga
  • Sisseehitatud vestlusliides
  • Kvantimise valik

Parim: Mitte-tehnilised kasutajad, mudeli uurimine

llama.cpp — Maksimaalne kontroll

sisse lööma
# Build with CUDA
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

# Run with multi-GPU
./llama-server -m qwen3-32b-q4_k_m.gguf \
  -ngl 99 \
  --tensor-split 0.5,0.5 \
  -c 8192

Parim: Edasijõudnud kasutajad, kohandatud juurutused, maksimaalne jõudlus

vLLM – tootmisteenindus

sisse lööma
# Install
pip install vllm

# Serve with tensor parallelism
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3-32B \
  --tensor-parallel-size 2 \
  --dtype auto

Parim: Suure läbilaskevõimega teenindus, API lõpp-punktid, tootmine

Mudeli allikad

allikas URL märkused
Kallistav nägu huggingface.co Ametlikud väljaanded
Ollama raamatukogu ollama.com/raamatukogu Eelkvantiseeritud, lihtne
TheBloke (HF) huggingface.co/TheBloke GGUF-kvantiseerimised
LM Stuudiokeskus lmstudio.ai Kureeritud valik

9. osa: Optimeerimisnõuanded

VRAM-i optimeerimine

  1. Kasutage Q4_K_M kvantiseerimist — Parim tasakaal suuruse ja kvaliteedi vahel
  2. Konteksti pikkuse piiramine — 8K 32K asemel säästab ~40% videomälu
  3. Keela KV vahemälu ühekordsete käskude jaoks
  4. Kasutage välklambi tähelepanu 2 — Vähendab mälumahtu pikkade kontekstide korral
  5. Mälusäästliku järelduse lubamine vLLM-is

Kiiruse optimeerimine

  1. Maksimeeri GPU mälu ribalaiust — Kiirem RAM = kiiremad märgid
  2. Kasutage 8. raamprogrammi, kui see on saadaval — 2–3x kiirendus RTX 50 seerial
  3. Spekulatiivse dekodeerimise lubamine — Kasutage suurte kiirendamiseks väikest mudelit
  4. Paketttaotlused — Suurem läbilaskevõime serveerimiseks
  5. Kasutage pidevat partiide töötlemist (vLLM) — dünaamiline päringute käsitlemine

Mitme GPU optimeerimine

  1. GPU mudelite vastendamine — Vältige põlvkondade segunemist
  2. Kontrollige NUMA topoloogiat — Sama sõlm = madalam latentsusaeg
  3. Kasutage vähemalt 8 sõidurada — x4 tekitab kitsaskohti
  4. Monitor nvidia-smi abil — Jälgige tasakaalustamata kasutamist
  5. Testige erinevaid TP/PP konfiguratsioone — Optimaalne varieerub mudeliti

10. osa: Levinud probleemide tõrkeotsing

"CUDA mälu on otsas"

Põhjused:

  • Mudel on videomälu jaoks liiga suur
  • Kontekstiaken on liiga pikk
  • KV vahemälu kasv

Lahendused:

  1. Kasutage agressiivsemat kvantiseerimist (Q4 → Q3)
  2. Vähenda konteksti pikkust
  3. Vähenda partii suurust
  4. Välgu tähelepanu lubamine
  5. Jaga mitme GPU vahel

Aeglane žetoonide genereerimine

Põhjused:

  • Mälu ribalaius on piiratud
  • Protsessori koormuse vähendamine aktiivne
  • Termiline drossel

Lahendused:

  1. Veenduge, et mudel mahub täielikult videomälusse
  2. Kontrollige graafikakaardi temperatuuri (sihtväärtus <85 °C)
  3. Kasutage väiksemat mudelit
  4. Luba GPU jõudlusrežiim
  5. Parandage korpuse õhuvoolu

Mitme GPU skaleerimine pole võimalik

Põhjused:

  • PCIe ribalaiuse kitsaskoht
  • Vale kihtide jagamine
  • NUMA kauguse probleemid

Lahendused:

  1. Vaata nvidia-smi topo -m topoloogia jaoks
  2. Reguleeri tensori jaotussuhteid
  3. Tagage x8+ PCIe iga graafikakaardi kohta
  4. Kaalu NVLinki (RTX 3090)
  5. Kasutage tensori asemel torujuhtme paralleelsust

Järeldus: õige valiku tegemine

Kohaliku tehisintellekti süsteemi loomine on 2026. aastal kättesaadavam kui kunagi varem. Siin on kokkuvõte:

Kiired soovitused:

Eelarve Parim valik Peamine kasu
$ 500-800 Kasutatud RTX 3090 24 GB videomälu, NVLinki tugi
$ 750-1000 RTX 5070 Ti Uus, 16 GB, tõhus
$ 1000-1500 RTX 5080 16 GB, kiirem
$ 2000 + RTX 5090 32 GB, lipulaev
$ 4000 + Kahekordne RTX 5090 64 GB, 70B mudelid

Kuldsed reeglid:

  1. Videomälu > Kõik muu — Rohkem mälu = rohkem mudelivalikuid
  2. Kvantimine on sinu sõber — Q4_K_M on magus punkt
  3. Mitme GPU-ga kaasneb vähenev tootlus — Ilma NVLinkita on kahe graafikakaardi puhul oodata ~1.6x
  4. Mälu ribalaius on oluline — Eriti suurte mudelite puhul
  5. Alusta väikeselt, suurenda — Enne investeerimist testige oma töökoormust

Avatud lähtekoodiga tehisintellekti ökosüsteem areneb kiiresti. Mudelid, mis kaks aastat tagasi vajasid 100 000 dollarit maksvat riistvara, töötavad nüüd 2000 dollarit maksvatel süsteemidel. Ükskõik, mida te täna ehitate, muutub mudelite tõhusamaks muutudes ainult võimekamaks.

Tere tulemast isikliku tehisintellekti ajastusse.


Riistvara soovituste ja saadavuse kohta külastage Kentino.com


Lisa: Kiirviitetabelid

Mudeli VRAM-i nõuded (Q4_K_M)

MUDEL parameetrid Videomälu Q4-s Minimaalne graafikakaart
Qwen3-0.6B 0.6B ~0.5 GB mistahes
Qwen3-4B 4B ~2.4 GB GTX 1650
Qwen3-8B 8B ~4.8 GB RTX 3060
Qwen3-14B 14B ~8.4 GB RTX 4070
Qwen3-32B 32B ~19 GB RTX 4090
Qwen3-235B-A22B 235B (22B aktiivne) ~28 GB RTX 5090
DeepSeek R1 70B 70B ~42 GB 2× RTX 5090
Laama 4 405B 405B ~243 GB 8× RTX 5090

GPU võrdlus tehisintellekti jaoks

GPU VRAM Bandwidth AI ÜLES TDP MSRP
RTX 5090 32GB 1,792 GB / s ~ 3,400 575W $1,999
RTX 5080 16GB 960 GB / s ~ 1,801 360W $999
RTX 5070 Ti 16GB 896 GB / s ~ 1,406 300W $749
RTX 5070 12GB 672 GB / s ~ 988 250W $549
RTX 4090 24GB 1,008 GB / s ~ 1,300 450W $1,599
RTX 3090 24GB 936 GB / s ~ 285 350W ~800 dollarit kasutatud

Viimati värskendatud: jaanuar 2026 Artikli koostas Kentino tehniline meeskond

ブログに戻る