Nvidia Pascal: Arkitekturen

Arkitekturen Pascal

Pascal är kodnamnet på Nvidias nya grafikarkitektur som är uppföljaren till fjolårets grafikarkitektur Maxwell, som har hängt med sen GTX 700-serien (första generation Maxwell) och GTX 900-serien (andra generation Maxwell) grafikkort. Med Pascal fortsätter Nvidia på samma framgångsrecept som med Maxwell arkitekturen men man går steget längre och integrerar fler förbättringar, vilka ökar prestandan samtidigt som det förbättrar strömförbrukningen. Nvidia lyckas förbättra prestanda per watt från generation till generation och med Pascal sätter man ribban högt.

Med ett relativt lågt effektvärde för den nya grafikkretsen GP104 och betydligt högre prestanda undrar man hur Nvidia har gått tillväga. En förklaring till den låga effektförbrukningen är den nya tillverkningstekniken som TSMC står för, på 16 nanometer Fin-FET.Nvidia_GTX_1080_launch_1

Likt vid lanseringen av Maxwell finns det väldigt lite information att tillgå om själva arkitekturen Pascal – förutom reklammässiga informationsblad är det nästintill tomt på data. Tittar vi på den faktiska Pascal kretsen, GP100, som sitter i beräknings- och industrikortet Tesla P100, hittar vi lite mer information om arkitekturen, men hur mycket som kommer över till konsumentvarianten GP104 är oklart.

GeForce_GTX_1080_SM_Diagram_FINAL_1463443993_1463484496En av de finesser Nvidia lyfter för GP100 är den större mängden delat minne mellan Streaming Multiprocessor (SM) enheterna, och enklare ”datapath organization” som kräver mindre kretsyta. Det menar man på Nvidia leder till mindre effektförbrukning vid dataöverföring inom varje SM enheter. Det är en av många finslipade funktioner som Nvidia har arbetat för att förbättra effektförbrukningen.

Pascal bjuder på många nyheter men det ter sig svårt att jämföra en ny generation grafikarkitektur med den föregående utan faktiska grafikkort.

Nvidia Pascal GP104 och Geforce GTX 1080

Det var nog på tiden att vi lämnade strömförbrukning och energieffektivitet bakom oss, det som lockar de flesta entusiaster är faktiskt prestanda – och prestanda ska ni få! Grafikkretsen som presenteras med den nya arkitekturen är GP104 och är entusiastgrafikkortet Geforce GTX 1080.  Kretsen GP104 är indelad i fyra kluster (Graphics Processing Cluster, GPC), där varje kluster består av fyra Streamin Multiprocessor (SM) enheter.GeForce_GTX_1080_Block_Diagram_FINAL_1463443988_1463484495

Varje SM har i sin tur två block av 64 CUDA kärnor och fyra texturenheter (Texture Mapping Unit, TMU). Med lite enkel matematik räknar vi det till totalt 2 560 CUDA kärnor och 160 texturenheter för GP104. Antalet renderingsenheter (Render Output Pipeline, ROP) stannar kvar på 64 enheter, likt föregångaren GM204 i GTX 980, men är mindre än de 96 enheter som finns i GTX 980 Ti. Beräkningskapaciteten, eller mer korrekt flyttalsoperationer, för GP104 är upp till 8,9 teraflop (miljarder flyttalsoperationer per sekund).

Ser vi till den faktiska kretsen hittar vi (inte med blotta ögat) 7,2 miljarder transistorer på en 314 kvadratmillimeter stor kretsyta. Jämfört med GM204 i GTX 980 på 5,2 miljarder transistorer på en 398 kvadratmillimeter kretsyta ser vi enkelt att den nya tillverkningstekniken möjliggör Nvidia med konststycket att placera fler transistorer på en mindre kretsyta. Räknar vi antalet transistorer per kvadratmillimeter för GM204 får vi 13,1 miljoner transistorer per kvadratmillimeter, samma siffra för GP104 är 22,9 miljarder transistorer.

Vi fortsätter med GTX 1080 på nästa sida där vi tittar lite närmare på klockfrekvenserna.

4
Leave a Reply

Please Login to comment
2 Comment threads
2 Thread replies
1 Followers
 
Most reacted comment
Hottest comment thread
2 Comment authors
MorkulKaffiMann Recent comment authors
  Subscribe  
senaste äldsta flest röster
Notifiera vid
KaffiMann
Medlem
KaffiMann

Fra nederst på side 2:

”Räknar vi antalet transistorer per kvadratmillimeter för GM204 får vi 13,1 miljoner transistorer per kvadratmillimeter, samma siffra för GP104 är 22,9 miljarder transistorer.”

Fra 13,1 million til 22,9 milliard transistorer/mm2 altså. Ganske høye tall, spesielt siden hele kretsen er på 314mm2 og har 7,2 milliard transistorer totalt. 🙂

Morkul
Medlem
Morkul

Nu har jag inte tittat så noga men det jag har sått hittills så ser det ut som om alla vräkt på med full kantutgämning på alla tester, även 4K trots att det är helt onödigt. Förstår inte varför det ska hålla på med det då man ändå inte vill använda det och 4K testerna blir totalt poänglösa.

KaffiMann
Medlem
KaffiMann

Enig. Min personlige mening er at AA og diverse andre ”optimaliserings” algoritmer har ingen nytteverdi på oppløsninger fra full hd og oppover. Det er vel utelukkende på grunn av den ekstra belastningen at det blir brukt i tester? En del av standard oppsettene i spill endrer vel også disse tingene. Må alltid velge custom oppsett og fikle litt med div innstillinger før jeg blir fornøyd, har aldri forstått hvordan de vurderer hvilke innstillinger som skal være i de standard oppsettene.

Morkul
Medlem
Morkul

Men saken är den att när man ska testa ett grafikkort så är det inte extra belastning som testaren bör vara ute efter utan faktiska användbara exempel.