AI mudeli VRAM-i nõuded erinevate GPU konfiguratsioonide jaoks
Jaga
See tabel annab ülevaate ligikaudsetest mudelisuurustest (miljardites parameetrites), mida saab kasutada erinevates VRAM-i konfiguratsioonides, koos näidetega tuntud mudelitest. Pange tähele, et need on hinnangulised ja võivad konkreetsete rakenduste, arhitektuuride ja optimeerimiste põhjal erineda.
| VRAM (GB) | FP32 | FP16/BF16 | INT8 | INT4 | INT2 | Näidismudelid |
|---|---|---|---|---|---|---|
| 16 | 3-4B | 6-8B | 12-16B | 24-32B | 48-64B | GPT-2 (1.5B), BERT-Large (340M) |
| 24 | 5-6B | 10-12B | 20-24B | 40-48B | 80-96B | GPT-J (6B), BLOOM-7B1 |
| 48 | 10-12B | 20-24B | 40-48B | 80-96B | 160-192B | T5-11B, BLOOM-7B1 (FP32) |
| 80 | 18-20B | 36-40B | 72-80B | 144-160B | 288-320B | GPT-NeoX-20B, BLOOM-176B2 |
| 96 | 22-24B | 44-48B | 88-96B | 176-192B | 352-384B | BLOOM-176B2, Jurassic-1 Jumbo (178B)2 |
| 128 | 30-32B | 60-64B | 120-128B | 240-256B | 480-512B | GPT-3 175B2, PaLM 540B2 |
| 160 | 38-40B | 76-80B | 152-160B | 304-320B | 608-640B | PaLM 540B2, Megatron-Turing NLG 530B2 |
| 192 | 46-48B | 92-96B | 184-192B | 368-384B | 736-768B | BLOOM-176B (FP16) |
| 256 | 62-64B | 124-128B | 248-256B | 496-512B | 992-1024B | GPT-3 175B (INT8), LLaMA 2 70B (FP32) |
| 320 | 78-80B | 156-160B | 312-320B | 624-640B | 1248-1280B | Chinchilla 70B (FP32) |
| 384 | 94-96B | 188-192B | 376-384B | 752-768B | 1504-1536B | PaLM 540B (INT8) |
| 512 | 126-128B | 252-256B | 504-512B | 1008-1024B | 2016-2048B | GPT-3 175B (FP16), BLOOM-176B (FP32) |
Märkused:
- Saab töötada täie täpsusega (FP32)
- Nõuab kvantiseerimist või muid optimeerimistehnikaid
Täiendavad kaalutlused:
- Need hinnangud eeldavad, et kogu VRAM on mudeli jaoks saadaval, mis praktikas sageli nii ei ole raamistiku, operatsioonisüsteemi ja muude protsesside kasutatava mälu tõttu.
- Mudeli paralleelsus ja muud täiustatud tehnikad võimaldavad veelgi suuremate mudelite käitamist, jaotades need mitme GPU vahel.
- Järeldus nõuab tavaliselt vähem mälu kui treenimine, nii et väiksemate VRAM-i konfiguratsioonide puhul saab järelduste tegemiseks sageli kasutada suuremaid mudeleid.
- Täpsed suurused võivad varieeruda sõltuvalt mudeli arhitektuurist, rakendamise üksikasjadest ja kasutatud konkreetsetest optimeerimistest.
Võtmehoidjad:
- 16–24 GB VRAM: sobib enamiku tarbijatele mõeldud tehisintellekti ülesannete ja väiksemate uurimismudelite jaoks.
- 48–96 GB VRAM: võimaldab töötada keskmise kuni suuremahuliste mudelitega, mida kasutatakse sageli professionaalsetes ja uurimistöös.
- 128–256 GB VRAM: võimaldab käitada mõningaid suurimaid avalikult saadaolevaid mudeleid koos erinevate optimeerimistega.
- 320–512 GB VRAM: pakub mahutavust suurimatele praegustele mudelitele ja tulevastele arendustele, mida sageli saavutatakse mitme GPU seadistustega.
See tabel näitab kvantiseerimise ja muude optimeerimistehnikate olulist mõju, mis võimaldab suurematel mudelitel töötada piiratud VRAM-iga. Kuna AI areneb jätkuvalt, võime oodata täiendavaid uuendusi mudelite tihendamise ja mälutõhusate arhitektuuride vallas, mis neid piire veelgi nihutavad.
Ja pidage kinni ... See ei lõpe trafodega...