TurboQuant: KV vahemälu tihendamise läbimurde lugemine

Lugemisaeg: 10 minutit | Kuidas Google'i 3-bitine tihendus muudab pika kontekstiga õigusteaduse magistriõppe odavamaks ja mida see meile järgmise 18 kuu tehisintellekti järelduste kohta räägib

KV vahemälu tihendamine — TurboQuanti kaheastmelise torujuhtme ülevaade

Igas pikas vestluses suure keelemudeliga on peidus vaikne probleem ja see on põhjus, miks need vestlused kalliks lähevad. Seda nimetatakse KV vahemäluks ja pikkade kontekstipikkuste korral võib see tarbida rohkem mälu kui mudel ise. 24. märtsil avaldas Google Researchi meeskond ... TurboQuant, mis tihendab vahemälu kolmeks bitiks väärtuse kohta ilma mõõdetava täpsuse kadumise ja peenhäälestamiseta. Kuus korda vähem mälu. Kuni kaheksa korda kiirem tähelepanu H100-l. Seda tasub korralikult mõista, sest KV vahemälu tihendamine on praegu üks enimkasutatavaid tehisintellekti probleeme ja TurboQuant on seni selgeim avalik signaal, et see valdkond on pöördepunkti teinud.

Ma juhin Kentinot. See hõlmab osaliselt selliste artiklite hoolikat lugemist, et meie kliendid – kaevurid, ehitajad, uudishimulikud eurooplased, kes jälgivad tehisintellekti ja krüptovaluutade arengut – ei peaks seda tegema. See artikkel on minu katse selgitada, mida TurboQuant tegelikult teeb, kuidas see paigutub laiemasse 2025.–2026. aasta KV vahemälu tihendamise uuringute lainesse ja mida mõistlik inimene peaks järgmise pooleteise aasta jooksul ootama.

KV vahemälu probleem, ausalt öeldes

Kui transformaator genereerib teksti, siis iga uus märk käsitleb kõiki eelmisi märke. Selleks, et vältida nende varasemate märkide võtme- ja väärtustensorite uuesti arvutamist igal sammul, salvestab mudel need. See salvestuskoht on KV vahemälu.

Vahemälu kasvab konteksti pikkusega lineaarselt. Kahekordne vestlus, kahekordne vahemälu. Keskmise suurusega 8B mudeli puhul, mis käitab 128k-tokeni konteksti FP16, võib KV vahemälu ühe seansi jooksul kergesti ulatuda kümnete gigabaitideni. Kaalud võivad olla kuusteist. Vahemälu on neist suurem.

Sellest tulenevad kolm praktilist tagajärge.

Esiteks on pika kontekstiga järeldamine enne arvutusvõimsusega seotud olekut mäluga seotud. Videomälu saab otsa ammu enne, kui FLOP-id otsa saavad.

Teiseks, teenindamise kulud skaleeruvad halvasti. Igal samaaegsel kasutajal on vaja oma vahemälu. Graafikaprotsessor, mis muidu suudaks pakendada viiskümmend lühikest vestlust, võiks hakkama saada viie pikaga.

Kolmandaks, seadmes ja servas tehtavad järeldused jäävad kättesaamatuks mudelite jaoks, mis seal tegelikult kasulikud oleksid, sest vahemälu, mitte kaalud, on see, mis keeldub sobimast.

KV vahemälu hea tihendamine – see tähendab agressiivne, odav ja väljundkvaliteeti kahjustamata – ei ole seega väike optimeerimine. See muudab, millised töökoormused on elujõulised ja millised mitte. See on probleem, millega TurboQuant tegeleb.

Mida TurboQuant tegelikult teeb

TurboQuant on kaheastmeline algoritm. Mõlemad etapid on treeningvabad ja andmetest sõltumatud, mis tähendab, et pole vaja peenhäälestust, kalibreerimisandmestikku ega mudelipõhist häälestamist. Rakendad seda ja see töötab. Ausalt öeldes on see olulisem kui tihendussuhe, sest just see võimaldab meetodil hõõrdumiseta olemasolevasse järelduspinu sukelduda.

Esimene etapp: PolarQuant

Esimene etapp on PolarQuant, sama töörühma eraldi artikkel (Zandieh, Mirrokni jt, AISTATS 2026). Idee on pigem struktuurne kui statistiline.

Kõrgmõõtmeliste vektorite kvantiseerimine ristkoordinaatides on kohmakas. Loomulik samm – normaliseerida ühiksfäärile ja seejärel suuna kvantiseerimine – osutub kalliks, sest iga vektori normi arvutamine on pudelikael, millest püüti pääseda. Varasemad meetodid maksid selle hinna eest, kuid kaotasid ikkagi täpsust madalate bitilaiuste korral.

PolarQuant teeb lõksu vältimiseks kahte asja. Esmalt rakendab see juhuslikku pöörlemist, mis mõnevõrra vastuoluliselt muudab vektorjaotuse geomeetria ennustatavamaks ja paremini hallatavaks. Seejärel teisendab see polaarkoordinaatideks – raadius suuruse ja nurk suuna jaoks – ning kaardistab need ringikujulisele võrgule, mida saab kvantiseerida ilma normaliseerimisetapita. Tulemuseks on iga vektori puhas, madala bitiarvuga esitus, mis säilitab selle olulise geomeetria.

KV vahemälu tihendamine — PolarQuanti pöörlemine ja polaarkoordinaatide ruudustik

Teine etapp: QJL

Ainult PolarQuant jätab järelejäänud vea. Teine etapp, kvantiseeritud Johnson-Lindenstraussi meetod (QJL), parandab selle ühe lisabitiga iga väärtuse kohta.

Johnsoni-Lindenstraussi teisendus on klassikaline tulemus: saate projitseerida kõrgmõõtmelisi vektoreid palju madalamamõõtmelisse ruumi juhusliku lineaarse kaardiga ja säilitada ligikaudsed paarikaupa vahemaad. QJL viib selle veelgi kaugemale, säilitades iga projitseeritud koordinaadi ainult märgibiti – pluss üks, miinus üks, mitte midagi muud. Lisaks bitile endale pole salvestusruumi lisakulu.

Matemaatiliselt pakub QJL tähelepanu skooride erapooletut hindajat. See korrigeerib PolarQuanti jääki, ilma et see taaskehtestaks eelarvamusi, mille all naiivsed madala bitiarvuga skeemid kannatavad. See ongi nipp. Ühest hoolikalt valitud märgibitist piisab esimese etapi vea kõrvaldamiseks.

Numbrid

Kahe etapi kokkuvõttes on iga väärtus kolm bitti, kuus korda väiksem kui FP16 baasjoon. NVIDIA H100-l töötab tähelepanu logi arvutamine 4-bitisel kiirusel kuni kaheksa korda kiiremini kui 32-bitil. Google testis Gemmat, Mistralit ja Llama-3.1-8B-Instructi LongBenchi, Needle In A Haystacki, ZeroSCROLLSi, RULERi ja L-Evali platvormidel. Täpsus säilis kõigis viies pika kontekstiga võrdlusaluses. GloVe-200-l tehtud vektorotsingu kõrvaltest näitas paremat 1@k tagasikutsumist ka PQ ja RabbiQ baasjoonte suhtes, mis viitab sellele, et meetod üldistab spetsiifiliselt KV vahemäludest kaugemale.

TurboQuanti pealkirja mõõdikud
meetriline Väärtus
Bitid vahemällu salvestatud väärtuse kohta 3 bitti
KV vahemälu vähendamine 6 ×
H100 tähelepanu kiirendus (4-bitine vs 32-bitine) kuni 8 ×
Vajalik on peenhäälestus mitte ükski
Vajalikud kalibreerimisandmed mitte ükski
Mõõdetud täpsuse kadu Null üle LongBenchi, NIAH, ZeroSCROLLS, RULER, L-Eval
Testitud mudelid Gemma, Mistral, Llama-3.1-8B-Juhend

Täielik kirjutis on lehel Google Researchi ajaveebTurboQuanti esitletakse ICLR 2026-l Rio de Janeiros.

Laiem laine

TurboQuant pole ainus. See on kiiresti arenevas uurimisvaldkonnas kõige silmapaistvam hiljutine uurimus ja selle lugemine ilma kontekstita liialdab selle uudsusega. Mitmed teised 2025. aasta lõpu ja 2026. aasta alguse meetodid ründavad sama kitsaskohta erinevate nurkade alt.

2025–2026 KV tihendusmeetodid
Meetod Tegevuskoht Lähenemine Peamine tulemus
TurboQuant ICLR 2026 PolarQuant + QJL, võrgupõhine järeldamine 3 bitti, 6 × mälu, kuni 8 × tähelepanu kiirenemine, täpsuse kadu null
KVTC (NVIDIA) ICLR 2026 Teisenduskodeerimine — PCA + adaptiivne kvantimine + entroopiakodeerimine Kuni 20-kordne tihendus võrguühenduseta vahemälu salvestamiseks ja taaskasutamiseks
ChunkKV OpenReview, september 2025 Semantilise tüki tihendusüksus Kuni +8.7% täpsus sama tihendusastme juures
PM-KVQ 2025 Progressiivne segatäpsus arutlusmudelite jaoks 2.73–5.18× läbilaskevõime vs FP16, +8% arutlusoskuste võrdlusalustel
KVPress (NVIDIA) Avatud raamistik Võrdlusanalüüsi ja juurutamise rakmed Võimaldab praktikutel neid meetodeid skaalal testida

Igaüks neist on suunatud erinevale nišile. KVTC on mõeldud võrguühenduseta taaskasutamiseks – ühe vestluse vahemälu salvestamine ja selle laadimine teise, kus saate endale lubada raskemat kodeerimistööd palju suurema tihenduse eest. ChunkKV on mõeldud juhtudeks, kus on vaja agressiivselt tihendada, kuid säilitada semantiline tähendus, mis on oluline ülesannete puhul, kus märgi kaotamine teeb rohkem haiget kui täpsusnumbri kaotamine. PM-KVQ on häälestatud pikkade mõtteahelate töökoormuste jaoks, mida arutlusmudelid tekitavad. KVPress on torustik, mis võimaldab meil kõiki neid ausalt võrrelda.

TurboQuanti eripäraks on treeninguvaba toimimise, online-järelduste sobivuse ja tõestatavalt erapooletu hindaja kombinatsioon. See on see, mis tõenäoliselt jõuab esimesena tootmisraamistikesse just seetõttu, et see ei küsi mudeli operaatorilt midagi.

Mida see avab

Astudes sammu tagasi paberilt ja mõeldes, kuhu see välja viib: praktilisi tagajärgi on lihtsam nimetada kui mõõta.

Pika konteksti järeldamine muutub oluliselt odavamaks. Kui teie KV vahemälu on kuus korda väiksem, saate samale GPU-le rohkem kasutajaid pakkida või sama eelarve piires pikemaid kontekste teenindada või mõlemat teha. Igaüks, kes käitab järeldamisteenust, tunneb seda oma kasumimarginaalides veerandi jooksul integratsioonist.

Servajuurutamine muutub teostatavaks mudeliklasside puhul, mis varem olid kättesaamatud. Tööjaama GPU-l pika kontekstiga 8B mudel või sülearvutil 3B mudel muutub "vaevu võimalikust" "rutiinseks", kui vahemälu selle teguri võrra väheneb. Sarnase tõuke saab ka kohapealne juurutamine ettevõtetele, kes ei saa andmeid pilve API-desse saata – juriidiline, meditsiiniline, tööstuslik telemeetria.

Riistvaralugu järgneb otsekoheselt ja siinkohal lakkab see olemast abstraktne. TurboQuanti sarnane tihendamine ei muuda seda, millised GPU-d on olemas; see muudab seda, milliseid töökoormusi see sisaldab. sobima – ja praegu on need töökoormused, mida inimesed tegelikult kohapeal käivitada tahavad, Hiina avatud kaaluga piirimudelid, mis on vaikselt SOTA koha haaranud kuni 2026. aasta esimese kvartalini.

Praegust tootevalikut tasub otseselt nimetada, sest just selle kohta kliendid meilt küsivadki. Kimi K2.5 Moonshot AI-lt — 1T koguparameetrid, 32B aktiivne, Keskkonnaministeerium, 256K kontekst, MIT litsents – avaldati 27. jaanuaril ja on avatud kaaludega testide seas juhtival kohal koodi ja matemaatika võrdlusaluste seas. GLM-5 Z.ai-lt — 744 miljardit kokku / 40B aktiivne, 204K kontekst, MIT-litsentsiga — praegu avatud kaaludega Intelligence Indexi tipus ja SWE-bench Verified. MiniMax M2.5 - 229 miljardit kokku / 10B aktiivne, 200K kontekst — ilmus 12. veebruaril, agressiivse hinnaga, 80%+ SWE-tasemel. Qwen3-Coder-Next Alibabalt — 80 miljardit kokku / 3B aktiivne, 256K kontekst natiivne, laiendatav kuni 1M koos YaRN — pluss laiem Qwen3 perekond tihedast 0.8B – 27B läbi 397B-A17B MoE. Kõik kaalud on lahtised. Kõik täna saadetavad.

Me ehitame masinaid aadressil Kentino just selle töökoormuse jaoks, seega lubage mul matemaatika osas konkreetne olla. Meie lipulaev järeldusserver on 4 × NVIDIA RTX 4090 ehitama — 96 GB ühendatud VRAM-ist AMD EPYC 7542 kohta ASRock Rack ROMED8-2T, 256 GB of DDR4-2666 ECC RDIMM, 2 TB NVMe, kahekordne 2 kW toiteplokid, sees 24U riiulSelle peale ehitame 4× RTX 5090 ja 8× RTX 5090 konfiguratsioonid (128 GB ja 256 GB ühendatud videomälu) ja andmekeskuse tasemel 4× L40 / L40S (192 GB ühendatud ECC) ettevõtteklassi püsiva koormuse ja ööpäevaringse tootmisteenuse tagamiseks.

Mida TurboQuant selles pildis muudab, on KV vahemälu termin. Kaasaegsed MoE mudelid kasutavad juba tihendatud tähelepanu (MLA-stiilis varjatud tähelepanu Kimi puhul, GQA Qwen3-s), seega on nende KV vahemälu tokeni kohta alguses väiksem kui vanemate Llama-klassi numbrite puhul. Rakenda peale TurboQuant ja saad veel ~6 ×Praktiline efekt seisneb selles, et kontekstiaken, mida antud kast saab tegelikult teenida – mitte reklaamida – hüppab tähendusrikkalt. kaalud ei liikunud. Pudelikael liikus.

Kentino server × mudel × TurboQuant
Kentino serveri ehitus Ühendatud videomälu Mugavalt istuv mudel TurboQuant KV kompressiooniga
4× RTX 4090 (AMD EPYC 7542, 256 GB ECC) 96 GB Qwen3-Coder-Next 80 miljardit kokku (FP8), Qwen3 tihe 27B (FP16) Qwen3-Coder-Next @ 256K kontekst natiivne üksikkasutaja või 80B @ 128K ~3-4 samaaegse kasutaja jaoks
4× RTX 5090 128 GB Qwen3-Coder-Next pearuumiga, Qwen3 32B (FP16), Keskkonnaministeeriumi 100B-klass (INT4) Qwen3-Coder-Next @ 1M konteksti kaudu YaRNvõi 80B @ 256K samaaegsel
8× RTX 5090 256 GB MiniMax M2.5 (FP8, ~ 230 GB), Qwen3 397B-A17B (INT4), GLM-5 (INT4) MiniMax M2.5 täisvõimsusel 200K kontekst tootmisserver või Qwen3 397B @ 128K samaaegsel kasutamisel
4× L40 / L40S 192 GB ECC MiniMax M2.5 (INT4), Qwen3-Coder-Next tootmine ööpäevaringselt Ettevõtte tasemel teenindus koos ECC pikas perspektiivis, püsiv koormus

Kaks ausat hoiatust. Esiteks, Kimi K2.5 ja GLM-5 täielikult FP8 (1T ja 744 miljardit kokku kaalud) ületavad ikkagi nende kastide mahutatust – nende jaoks, keda vaadeldakse klastrina või kes aktsepteerivad agressiivseid INT4 kvantiseerimine. Teiseks, täpsed märgipiirangud sõltuvad partii suurusest, mudeli spetsiifilisest tähelepanu konfiguratsioonist ja raamistikust (vLLM, SGLang, TensorRT-LLM kõik rakendavad madala bitiga KV-d erinevalt). Kuid oluline on suund: a 4× RTX 4090 kast, mis aasta tagasi tundus mõistlik 13B tihedate mudelite jaoks, on nüüd õige vastus Qwen3-Coder-Next täies ulatuses 256K kontekst. 4× RTX 5090 käepidemed 80B aktiivne-klassi kodeerimismudel, mis pakub mugavat ruumi samaaegsetele kasutajatele. 8× RTX 5090 or 4× L40S avaneb MiniMax M2.5 ja suuremad Qwen3 MoE variandid tootmismahus. Riistvara ei muutunud suuremaks; töökoormus vähenes.

Ja iga järelduste töökoormus, mis pidevalt töötab operatiivse telemeetria abil, saab proportsionaalselt kasu. Kaevanduspargi optimeerimine on üks reaalne näide: operaatorid nagu OneMiners käitavad tehisintellektil põhinevaid efektiivsussüsteeme tuhandetes ASIC-kiipides ja nende süsteemide all olev järelduskiht skaleerub otseselt vastavalt sellele, kui palju konteksti iga mudel odavalt mahutada suudab. See uurimisklass ei muuda selliseid töökoormusi üleöö, kuid see nihutab taskukohase hinna kõverat.

Aus prognoos on järkjärguline. 6 × Mälu vähendamine ühe kitsaskoha puhul ei loo uut maailma. See loob veidi odavama, veidi pikema kontekstiga ja veidi paremini juurutatava versiooni maailmast, mis meil juba on. See on ikkagi suur summa raha ja inseneritöö kokkuhoidu, mis on koondatud kogu tööstusharu peale.

Mida vaadata aastatel 2026–2027

Mõned konkreetsed asjad ligikaudses tõenäosuse järjekorras.

KV vahemälu tihendusmeetodite võrdlus 2025.–2026. aasta uuringutes

Raamistiku integreerimine. vLLM, TensorRT-LLMja SGLang omandab TurboQuanti stiilis meetodid mõne kuu jooksul, tõenäoliselt läbi KVPress võrdlusaluse kihina. Google'i meeskonna avaldatud avatud lähtekoodiga Tritoni implementatsioon muudab selle peaaegu mehaaniliseks.

Riistvara tasemel tugi. NVIDIA on nii KVTC kui ka KVPressi kaudu näidanud üles huvi madala bitiarvuga tähelepanuprimitiivide vastu. Eeldatavasti käsitleb Blackwelli põlvkonna tööriistad 3-4-bitiseid KV-vorminguid esmaklassiliste, mitte eksperimentaalsete versioonidena.

Meetodite konsolideerimine. Ülaltoodud viis lähenemisviisi lahendavad kattuvaid probleeme. Tõenäoliseks lõpp-punktiks on ühtne pinu – PolarQuanti stiilis geomeetriline tihendamine võrgus tähelepanu jaoks, KVTC stiilis entroopiakodeerimine võrguühenduseta salvestamiseks ja ChunkKV stiilis semantiline rühmitamine esiotsa jaoks. Ükski artikkel ei jõua selleni; pinu moodustab üle aasta kestnud integratsioonitöö.

Reaalsed kulude vähendamised serveerimisel. 2026. aasta lõpuks peaksid pika kontekstipõhiste järelduste teeninduskulud olema praegusest märgatavalt madalamad, kusjuures suurem osa kasust tuleb pigem tihendamisest kui uue räni tootmisest. See on kõige selgem viis ennustada selle töösuuna edu.

lähedal

TurboQuant on tõeline edasiminek tõelise kitsaskoha lahendamisel ning see saabus uurimislaine keskel, mis lahendab probleemi korraga mitmest küljest. Peamised numbrid on juba iseenesest muljetavaldavad – kolm bitti, kuus korda, kaheksa korda –, kuid olulisem omadus on see, et see ei nõua mudeli operaatorilt midagi. Kasutusele võetakse treeninguvabad ja andmetest mittesõltuvad meetodid.

Kui te teete pika kontekstipõhist järeldust mis tahes skaalal, on seda väärt jälgida. Kui te seda ei tee, on see ikkagi mõistmist väärt, sest mudelite majanduslik külg, mida te lõpuks kasutate, määratakse vaikselt selliste artiklite abil.

Ressursid

G
Google Researchi ajaveebTurboQuanti kirjutis
N
NVIDIA KVPressKV tihendamise võrdlusanalüüsi raamistik
K
Kentino mitme GPU-ga järeldusserverid4× / 8× RTX 5090, 4× RTX 4090, L40 / L40S
B
Kentino blogiRohkem analüüsi- ja ehitusjuhendeid
See artikkel on tehniline analüüs ja kommentaar. Viidatud võrdlusnäitajad pärinevad viidatud väljaannetest (TurboQuant, KVTC, ChunkKV, PM-KVQ, KVPress) ja Google Researchi ajaveebist. Riistvarakonfiguratsioonid kirjeldavad Kentino järeldusserveri versioone kirjutamise ajal pakutavas olekus; täpsed spetsifikatsioonid ja saadavus võivad muutuda. Mudeli parameetrite arv, konteksti pikkus ja väljaandmiskuupäevad kajastavad vastavate avatud kaaludega mudeliperekondade avalikult avaldatud andmeid. 
Tagasi blogisse