Nvidias Fermi-arkitektur siktar mot superdatorer

0

Fermi bygger om och utökar

Nvidiahävdar att man med Fermi gjort de största förändringarna i sin grafikkretsutveckling sedan lanseringen av G80-arkitekturen och man är inte sen med att jämföra Fermi med båda sina äldre GPU-arkitekturer, GT200 samt G80. Redan med GT200 lade Nvidia ribban ganska högt för antalet transistorer och som vi såg på föregående sida kommer Fermi bli en ganska svulstig krets, men med en effektiv 40nm teknik finns är det ingen risk att man gör om samma misstag som med sin första GT200 GPU, GeForce GTX 280. Denna krets tillverkades med 65nm teknik och var både för stor och för strömslukande, med Fermi hoppas Nvidia att man hittat en bra balans mellan transistorantal och tillverkningsteknik.

Men vad har man då använt dessa extra 1,6 miljarder transistorer till, vi kikar närmare på hur Fermi står sig mot just Nvidias tidigare arkitekturer.

Först och främst har Nvidia mer än fördubblat antalet shader processorer, som man numera vill kalla CUDA Cores. Från 240 stycken i GT200 till 512 stycken i Fermi. Men Nvidia har även gjort flera andra förändringar i arkitekturen och även om den bygger på samma grundstenar som den man använda i GT200 är det även mycket nytt.


Fermis GPU-arkitektur med 16 streaming multiprocessors som huserar 32 CUDA-kärnor vardera. De gröna fälten är CUDA-kärnor, de ljusblå fälten är register och L1-cache.

Förutom ett ökat antal CUDA-kärnor ser vi att man utökat kretsens beräkningskapacitet vid flyttal, vilket är grunden till hög prestanda vid GPU-beräkningar. Samtidigt har Nvidia utökat grafikkretsens delade minne och faktiskt även integrerat både L1 och L2-cache i Fermi. Detta är något vi annars mest brukar se i vanliga processorer, CPUer, och är ytterligare ett tecken på Nvidias framtidsplaner.

Nvidia har gjort förbättringar i sin SM-arkitektur sedan tidigare generationer och det är just här man fokuserat på att utöka prestandan vid flyttalsberäkningar. Detta genom att bland annat utrusta SM-enheterna med cacheminne och att ge flyttalsenheten stöd för IEEE 754-2008 standarden. Resultatet är att man genom effektivare hantering av 64-bit flyttalsberäkningar kunnat öka prestandan särskilt mycket i double precision.

AMD skröt om hur Radeon HD 5870 kunde erbjuda flyttalsprestanda på 544 GFLOPS i double-precision vilket man jämförde med 78 GFLOPS i Nvidias GT200-arkitektur. Med sina optimeringar i Fermi har Nvidia mångdubblat flyttalsprestandan och de siffror som tidigare i veckan visar att Fermi kan komma att erbjuda runt 750 GFLOPS i double-precision. Detta om man håller klockfrekvenserna på sina CUDA-kärnor i samma område som på deras GT200-arkitektur. Den exakta prestandan är alltså inte spikad ännu utan beror på kretsens klockfrekvenser, men det finns numera flyttalsprestanda så det räcker och blir över.

Contents

Subscribe
Notifiera vid
0 Comments
äldsta
senaste flest röster
Inline Feedbacks
View all comments