Intel har nyligen släppt sin nya processorarkitektur Core i7, tidigare känd som Nehalem. Vi har gett chipgigantens nya flaggskepp, Intel Core i7 Extreme Edition Q965, chansen att visa sin föregångare vart skåpet ska stå.


Tick, tock, tick, tock, Cedarmill (tick), Merom (tock), Penryn (tick)… Intels lanseringsklocka tickar på i ett för dom själva behagligt tempo. Det Intel kallar ”Tock” är en ny processorarkitektur medans ”Tick” är en benämning på mindre förändringar, som till exempel byte av tillverkningsprocess. Conroe lanserades i Juni 2006 som en tock och i enlighet med legenden Moore var det dags för tick 18 månader senare, nämligen Penryn. Kalendermässigt kunde man inte förvänta sig nästa steg förrän några månader in i 2009, men nu blev det inte sämre än att Intel är tidigt ute med sin nästa lansering.






Det som innefattas i en tick är oftast mindre tillägg till instruktionsuppsättningen, mer cache i olika former men framförallt en övergång till en ny processteknik. Merom krymptes från 65nm till 45nm och döptes till Penryn. En stor anledning till att man bara gör små förändringar vid en processövergång är att man inte har fullständig kunskap om hur de nya och mindre transistorerna kommer att bete sig. Det är då en god idé att krympa en design som är helt karaktäriserad. Samma resonemang gäller för en tock men med den skillnaden att man nu ändrar arkitekturen och använder en process som man behärskar. Intel känner förtroende för sin 45nm-process och det är nu dags för nästa generations mikroarkitektur: Nehalem.

Nehalem synad in på bara kislet.






Nehalem står för ett systemskifte som inte bara innefattar processorn utan även delar vi tidigare har sett som självklara grundstenar i en dator. Den lösning som varit mest betydande sen persondatorns uppkomst är illustrerad till vänster i bilden ovan. Den bygger på en nordbrygga som agerar nav ur ett systemperspektiv. Den kommunicerar med processor, minne, grafikkort och sydbryggan, som i sin tur knyter samman ett antal mindre delsystem som nätverk och periferienheter. Här ses processorn mer som en hjälpreda till nordbryggan. Ett problem med denna lösning är att processorer går till att vara mer och mer data-hungriga och således kräver högre och högre minnesbandbredd. Allt informationsbyte mellan processor och minne måste alltså gå via nordbryggan. En lösning på detta är att koppla minnesbankerna direkt till processorn genom att flytta minneskontrollern från nordbryggan till processorn. En skiss på denna lösning ser vi i bilden ovan till höger.







Dessa förändringar leder oavkortat till behovet av att ändra socketen för de nya signalbanorna. När man ändå var i farten med att ändra upplägget passade man på att lägga till en extra DDR3-kanal. Processorn stödjer numera alltså tre kanalers minne. En markant fördel med minneskontrollern integrerad i nordbryggan har varit flexibilitet för olika minneskonfigurationer. Till Socket 775 plattformen har vi sett både DDR1, DDR2 och DDR3, vilket definitivt inte kommer att bli fallet för den nya processorn. I praktiken krävs i stort sett en ny socket för att stödja nya minnesarkitekturer.







Ytterligare en fysisk förändring är distansen mellan monteringshålen för kylaren som nu är 80mm istället för 72mm hos Socket 775. Vi står oss frågande till varför man har gjort denna förändring som innebär att ett flertal eftermarknadskylare kommer att bli oanvändbara. Flera tillverkare jobbar dock på att kunna erbjuda nya monteringsdetaljer där så är möjligt.


Vi kikar närmare på Nehalems arkitekturmässiga förändringar.



Översikt

Grundtanken för nehalem var att skapa en modulär arkitektur som med små modifikationer går att anpassa till flertalet produktområden. Grundstenarna består av en minneskontroller, gemensam cache, blandade in/utgångar, QPI-anslutningar och själva beräkningskärnorna. Beroende på om målet är att skapa en energisnål processor för inbyggda system eller en processor för maximal beräkningskraft kan man alltså till exempel variera antalet beräkningskärnor och mängden cache.


Cache-struktur

En viktig prestandaparameter i moderna processorer är mängden cache, hur den är distribuerad och dess egenskaper. En sak som inte gör det hela lättare är när flera kärnor vill ha tillgång till samma data. När Intel gick över till monolitiskt kisel i dubbelkärniga processorerna passade man också på att designa en cache-nivå som båda kärnorna hade tillgång till. De fyrkärniga modellerna bestog fortfarande av två delar kisel och alla kärnor hade inte direkt tillgång till all cache. Nehalem tar nu detta ett steg längre och låter alla fyra kärnor dela på stora cachen.






Anledningen till att man har olika nivåer är att man vill ha både snabb och stor mängd cache, vilket är svårt att lösa med en homogen cache. Första nivåns cache, L1, är minst, men också snabbast. I Merom och Penryn var sedan andra nivåns cache, L2, bryggan mellan RAM-minne och L1-cachen. Nehalem har dock fått en extra nivå där L2 kan ses som en utökad L1 medans L3 motsvarar den tidigare delade L2-cachen. L1 och L2 tillhör varje kärna exklusivt och kan inte nås utan att gå genom L3-cachen.


Minneskontroller

Minneskontrollern som sköter all kommunikation med RAM-minnet har fått flytta från nordbryggan och in i processorn. Detta gör att man slipper ett mellanled som innebär fördröjningar och lägre prestanda. Just till LGA1366, som är Nehalems nya socket, har man alltså valt att utöka antalet minneskanaler från två till tre. För maximal prestanda krävs således tre stycken minnesmoduler. Minneskontrollern i sig och dess extra minneskanal är en stor bidragande faktor till det kraftigt ökade antalet pinnar i socketen.



Processorkärnan

Vid en närmare granskning av själva processorkärnorna i Nehalem inser man snabbt att Intel inte har gjort några exceptionella förändringar. I grunden är det en lätt modifierad Core-kärna, vilket definitivt inte är en nackdel. Den mest markanta skillnaden är att varje kärna nu stödjer Hyper Threading (HT) som har återuppstått från P4-eran. Varje fysisk kärna uppfattas av operativsystemen som två logiska kärnor. För att HT ska fungera effektivt krävs en en effektiv front end som med god framförhållning kan förse kärnorna med data. En stor del av förändringarna ligger därför i hur data förbereds inför exekveringsenheterna och hopp-predikering. Hopp-predikering innebär att processorn med hjälp av statistik helt enkelt gissar vad utfallet av hopp ska leda till. Ett exempel på ett hopp är de vanliga if-satserna i programeringsspråk, där nästa instruktion beror på if-satsens villkor.






Ytterligare förändringar innebär främst justering av bufferstorlekar som också är en följd av implementeringen av HT. Instruktionsuppsättningen har fått några tillägg som samlas under namnet SSE4.2. Core-kärnan införde en ny metod för att slå ihop makro-operationer för att öka genomströmningen av små instruktioner, så kallade Makro-OP Fusion. Ett tillkortakommande i den lösningen var att det inte fanns stöd för detta i 64-bitarsläge vilket nu är löst i och med Nehalem.



Quick Path Interconnect

Som vi nämnde tidigare tar Nehalem steget ifrån kommunikation med omvärlden via nordbryggan till att istället direkt kommunicera med andra komponenter. Dels genom att man pratar direkt med minnet via den inbyggda minneskontrollern men också andra enheter via det nyutvecklade Quick Path Interconnect (QPI). I vanliga konsumentmaskiner används till exempel en QPI-kanal för att kommunicera med nordbryggan. I servrar med flera processorer används QPI för att processorerna ska kunna prata direkt med varandra. Detta är ett stort lyft från tidigare där alla processorer var tvungna att kommunicera med varandra via nordbryggan.


Vi går från teori till praktik och kikar lite på hårdvaran.

















Som vi kan se på dessa bilder är Nehalem betydligt större än dess föregångare. En betydande anledning till detta är det större antalet pinnar som processorn numera huserar. Till en början kommer tre stycken fyrkärniga modeller som tydligt är inriktade på prestandasegmentet. Alla plattformar stödjer triple channel DDR3-minne och det finns möjlighet att använda grafikkort med SLI och Crossfire-lösningar. Under 2009 kan vi förvänta oss att se modeller för andra marknadssegment, så även bärbart.



Moderkortet som kommer att användas genom hela artikeln är ASUS P6T Deluxe. Designen skiljer inte mycket från tidigare generationer frånsett en extra uppsättning DDR3-portar. Vi bjuder på en uppsättning bilder.


























































Asus P6T Deluxe – Specifikationer
Processor support Intel Socket 1366: Core i7
Chipset Intel X58 / ICH10R
Systembuss Intel QPI 6400MT/s
Minne 6st 240-pin DIMM
Trippla DDR3 1600/1333/1066 kanaler
Maximalt 12GB
Expansionsplatser 3st PCI-Express x16 (1×16 eller 2×8)
1st PCI-Express x1
2st PCI
Lagring 1st Diskettstation
1st Ultra DMA 133/100/66/33 IDE
7st SATA 3G (RAID 0/1/0+1/5/JBOD) (varv en extern)
2st SAS (RAID 0/1)
Interna anslutningar 3st USB
1st IEEE 1394 (Firewire)
1st COM-port
1st FrontAudio
1st CD/AUX-ingång
Externa anslutningar 1st PS/2 Tangentbord
2st S/PDIF Ut (Koaxial + optisk)
1st IEEE 1394 (Firewire)
1st SATA
6st 2.5mm ljudanslutningar (7.1)
2st RJ-45 (10/100/1000Mbit)
8st USB
Storlek 305 x 244mm
Pris ~2800kr


Ett helt fullproppat kort som troligen tillgodoser de flesta behoven för en Core i7 plattform. Förutom trådlöst LAN som ASUS brukar ha för vana att stoppa på de flesta Deluxe-kort, men som saknas på detta kort, så kan vi inte komma på något annat som saknas.







I jakt efter komponenter till denna artikel visade det sig inte vara helt lätt att få tag på någon kylanordning som passar de nya hålen. Det som dök upp efter en lång tids eftersökningar var ett vattenblock från Swiftech, tätt följt av en kylfläns från Thermalright. Innan vi går vidare till testsystemet presenterar vi några bilder på dessa, som en teaser inför kommande jämförelse.







Vi går vidare och kikar på testsystemen.













































Testsystem
Hårdvara
Moderkort ASUS P6T Deluxe
ASUS P5E3 Premium
Processorer Intel Core 2 Extreme QX9770 (2x6MB)
Intel Core i7 Extreme Edition Q965
Minne Corsair Dominator TR3X6G1600C8D (3x2048MB)
Corsair Dominator TR3X3G1866C8D (3x1024MB)
Grafikkort Asus Radeon 4870X2
Nätaggregat Corsair HX1000
Mjukvara
Operativsystem Windows Vista x64
Drivrutiner Intel Chipet Driver 9.1.0.1005
Catalyst 8.10
Testprogram EVEREST Ultimate Edition 4.60
wPrime 1.52
Cinebench 9.5
Cinebench 10
WinRAR 3.80
3DMark03 3.6.0

3DMark05 1.3.0

3DMark06 1.1.2

3DMarkVantage 1.0.1

PCMark05 1.2.0




Med så fundamentalt olika system är det inte helt lätt att fastställa en konfiguration som är direkt jämförbar. Som referens för Core 2 systemet använde vi oss av ett ASUS P5E3 Premium moderkort tillsammans med en Core 2 Extreme QX9770. Minneskonfigurationen på Core i7 bestog av 3x2GB corsair dominator 1600C8-minnen. Till Core 2 systemet använde vi oss av 2x2GB + 2x1GB för att få samma minnesmängd. Här användes också Corsair Dominator minnen som kördes med samma inställningar på båda systemen.












Det första vi börjar med att jämföra är effektutvecklingen.



Att jämföra effektutvecklingen mellan processorer är inte alltid helt lätt, speciellt inte när det skiljer så fundamentalt mycket mellan systemen.
Siffror utan belastning är inga större problem att mäta då det endast är frågan om att göra så lite som möjligt. Vad som däremot räknas som full belastning kan vara en intressant fråga. Det som är full belastning på en processor kanske inte utnyttjar en annan fullt ut. Vid full belastning kan en processor dra lite mer ström, men ge mycket högre prestanda, så vad är ett lämpligt mått?


Vi upptäckte rätt snart att det skiljde rätt mycket mellan olika belastningar och dess energiförbrukning mellan de två systemen. Därför har vi valt att kika på några olika belastningar som visar på olika egenskaper hos systemen. Till en början studerar vi effektutvecklingen vid låg belastning.

Effektutveckling – Ingen belastning
Processor Ström +12V Effekt
Core i7 965 0.787A 12.05V 9.5W
Core 2 QX9770 2.63A 11.45V 30.1W






Det är inget snack om att Intel har gjort framsteg när det kommer till effektutveckling. Enligt presentationer har man arbetat med att implementera transistorer med extra lågt läckage i serie med transistorer med högt läckage. Det fungera så att när processor känner av att den har lite att göra stänger dessa low leakage-transistorer av strömmen till high leakage-transistorerna. Anledningen till att man inte alltid kör med low leakage modellen är för att dessa är långsamma att växla mellan till och från. Man använder sig alltså av det bästa av de två olika typerna av transistorer. Naturligtvis kan man fråga sig varför man inte alltid har använt sig av denna teknik. Ett svar är att dessa extra transistorer dels tar mer yta, men också att det krävs extra logik för att styra dessa på ett effektivt sätt.


Vi går vidare och kikar på hur effektutvecklingen är vid Folding@Home och dess SMP-klient. Dessvärre visar det sig att denna klient endast kan utnyttja fyra trådar, men vi kan trots detta avslöjja att prestandan är bättre än hos QX9770. Hur är då effektutvecklingen?

Effektutveckling – Folding@Home
Processor Ström +12V Effekt
Core i7 965 5.47A 11.18V 61.2W
Core 2 QX9770 7.12A 10.76V 76.6W






Det visar sig att trots att vi har bättre prestanda i Core i7-processorn så förbrukar den mindre energi. Med 20% lägre energiförbrukning än QX9770 vid liknande belastningsgrad har vi en solklar vinst för Core i7. Hur ser det då ut när vi kan utnyttja kärnorna maximalt? Vi testar med Cinebench 10.

Effektutveckling – Cinebench 10
Processor Ström +12V Effekt
Core i7 965 8.23A 10.27V 84.5W
Core 2 QX9770 7.47A 10.65V 79.6W






Om man bara stirrar sig blind på effektsiffrorna så visar det sig att Core i7 drar mer ström än QX9770, men Core i7 har nu tack vare sina 8 logiska trådar potential att prestera bättre. Så hur är det med prestandan då? Vi kommenterar prestanda/effektutveckling under prestandatesterna.


Nu är det dags att börja kika på hur Core i7 beter sig vid lite beräkningar.



Några testfall som är klart intressanta på den nya arkitekturen är minnestester. Eftersom man har gått från 2 till 3 kanaler och samtidigt flyttat in minneskontrollern i processorn kommer vi troligen att se rejäla skillnader i bland annat bandbredd. Så här presterar Core i7 i Everest jämfört med Core 2 QX9770.















Det är knappast något snack om saken, Core i7 presterar extremt bra i minnestester.







Föga förvånande så har vi mycket kortare fördröjningar för Core i7 eftersom ingen information måste passera genom nordbryggan längre.


Vi kikar på några fler Everest-tester.



















Det är inga tveksamheter att man har gjort framsteg när det kommer till beräkningskraften i själva processorn. I dessa tester har vi allt från knappa 7% till nästan 50% i övertag från tidigare generationer.


Härnäst kikar vi på SiSoft Sandra.















SiSoft Sandra verifierar Everests siffror att Core i7 är extremt kompetent när det kommer till minnestester.


Vi kikar på Sandras CPU-tester.



















Scenariot upprepar sig, Core i7 fortsätter plocka prestandapokaler undantaget detta kryptografitest i SiSoft Sandra. Vad som är anledningen till detta är svårt att säga, men det är troligt att algoritmen inte är speciellt beroende av minnesbandbredd eller korta fördröjningar.


Vi tittar på Cinebench och WinRAR























Cinebench är intressant i den aspekten att vi kan köra samma test med en kärna eller med alla tillgängliga kärnor och på så sätt dels jämföra enkeltrådad prestanda och hur passa effektiv processorn är när flera kärnor används. Core i7 presterar bättre både i det enkeltrådade som det flertrådade fallet. Vi ser även att prestandan skalar runt 10% bättre mellan de två fallen jämfört med QX9770. WinRAR är erkänt beroende av minnesbandbredd och mycket riktigt sopar man mattan med förra generationens processorer.







Som vi nämnde tidigare så använde vi Cinebench i effektutvecklingstesterna och om vi jämför hur pass de olika processorerna presterar per watt så erhåller vi ovanstående diagram. Även fast Core i7 utvecklade mer värme så har den fortfarande över 10% bättre prestanda i förhållande till effektuvecklingen.

Vi kikar vidare på Futuremarks tester.



















Vi är knappast förvånade över resultaten vid det här laget. Core i7 har en betryggande ledning i samtliga tester, även de som endast drar nytta av en kärna.


Vi detaljstuderar 3DMark Vantages CPU-test och PCMark härnäst.















Resultatet från processortestet i 3DMark Vantage skvallrar högt om kraftig flertrådning som också gör att Core i7s Hyper Threading kommer till god nytta.


Vi sammanfattar våra upplevelser av Nehalem i slutledningen.


Arkitekturen

Vi på redaktionen var påtagligt imponerade av Core arkitekturen när den kom för dryg två år sedan och det är minst sagt en liknande känsla vi har för Nehalem. Alla förändringar man har gjort på arkitekturen känns väl motiverade och det nya fokuset på energieffektivitet är ett stort kliv i rätt riktning. Övergången till tre kanalers minnesuppsättning gör att kärnorna har betydligt mer minnesbandbredd att tillgå vilket avspeglas i flertalet tester. På instruktionsnivå har man dels finslipat tidigare funktioner som kom i och med Core men man har också lagt till nya accelererade instruktioner för att snabba upp vissa beräkningar.


Prestanda

Core i7 sopar mattan med sin föregångare i så gott som alla prestandasegment, med endast ett undantag bland alla våra tester. Det är inte heller frågan om några små marginaler. Övertag på allt från 5% till 50% kan man förvänta sig beroende på vad för typ av tester som körs. Tester som drar nytta av korta fördröjningar och stor minnesbandbredd drar speciellt stor nytta av den nya arkitekturen.


Energiförbrukning

Inte nog med att processorn presterar avsevärt bättre än tidigare modeller så är den mer energisnål både utan belastning och vid jämförbara beräkningar. Med ett grundtänk att alla förändringar från tidigare generationer, oavsett storlek eller funktion, ska gå att motivera ur energisynpunkt har man lyckats mycket väl med att sänka energiförbrukningen i flera olika scenarion. Direkta lösningar innefattar låg-läckage transistorer på lägsta nivå, till mer exklusiva och avancerade strömsparfunktioner på mjukvarunivå.


Sammanfattning

Det är inte svårt att sammanfatta Core i7’s intåg på marknaden. Intel överlämnar stafettpinnen och lägger i en överväxel när det gäller prestanda, samtidigt som man effektiviserar energiåtgången. Något som vi hittills inte har tagit upp är prislappen och vi är knappast överraskade på denna front heller. Extreme edition-processorerna har inte direkt ett rykte av sig att vara budgetvänliga, så är också fallet den här gången. Denna recension är långt ifrån komplett och vi har för avsikt att grotta ner oss djupare i flertalet intressanta delar av den nya arkitekturen. Extrem överklockning har vi redan kikat på i en tidigare artikel. Överklockning med luft och vattenkylning pågår för fullt i labbet och hur Nehalem beter sig i spel med olika grafikkortskombinationer är också något vi kommer att kika mer på.











Intel Core i7 Extreme 965


Positivt

+ Hög enkel- och flertrådad prestanda

+ Kraftig ökning av minnesbandbredd
+ Olåsta multiplar


Negativt

– Nya monteringsdetaljer för eftermarknadskylare behövs
– Stor prislapp




Vi vill tacka Intel, ASUS, Corsair och Swiftech för att ha försett oss med utrustning till detta test.

Leave a Reply

Please Login to comment
  Subscribe  
Notifiera vid