HPC-Historie im RZ der RWTH

 

 
Welche Rechnersysteme waren in den letzten 50 Jahren im Rechen- und Kommunikationszentrum installiert?


Überblick

über die seit 1958 im Rechen- und Kommunikationszentrum installierten Rechner.

Flops = Arithmetische Fließkommaoperationen pro Sekunde

Größenordnungen:
      Megaflops :  106   ( 1.000.000 )
      Gigaflops :   109   ( 1.000.000.000 )
      Teraflops :   1012  ( 1.000.000.000.000 )
      Petaflops :   1015  ( 1.000.000.000.000.000 )


Zuse Z22 (Zuse KG, Bad Hersfeld)

1958 installierte das Rechenzentrum der RWTH seinen ersten elektronischen Hochleistungsrechner in Röhrentechnik mit damals beeindruckenden Leistungsdaten. Die beiden ersten von Zuse gebauten Z22-Rechner gingen an die RWTH Aachen und nach Berlin. Der Konstrukteur, Konrad Zuse, gilt als der Erfinder der frei programmierbaren Computer bei denen zwischen der Speicherung von Daten und Programmen nicht mehr prinzipiell unterschieden wurde.

Die in Ringkerntechnik realisierten Register entsprechen den Registern und zum Teil dem RAM heutiger Prozessoren. Der Ringkernspeicher hatte eine Kapazität von 15 Worten mit jeweils 38 Bit Breite, wobei einige Speicherzellen eine spezielle Funktion, z.B. als Akkumulator oder Rücksprungadresse hatten. Neben diesem "Schnellspeicher" hat die Zuse Z22 noch 8.192 Speicherworte in einem Trommelspeicher, die ebenso direkt adressiert werden können. Diese Trommelspeicheradressen bezeichnen Worte, die auf dem Magnettrommelspeicher der Zuse abgelegt sind. Eine Adresse sieht fünf höherwertige Bits für den Kernspeicher und 13 niederwertigere für den Trommelspeicher vor. Durch die Kombination der Adressen waren auch Adressumrechnung möglich.

Grundlage der Programmierung war eine lesbare Maschinensprache, darauf aufbauend existiert der Freiburger Code für mathematische Anwendungen und mit Algol die Möglichkeit der Nutzung einer höheren, kompilierten Programmiersprache! Zu dieser Zeit gab es zwar schon in Forschungsinstituten Computer - die Idee solche Systeme einer ganzen Hochschule als Serviceleistung zur Verfügung zu stellen, war allerdings neu und wurde in Aachen erstmalig realisiert.

Das System war bis Ende 1966 in Betrieb.

 Leistungsdaten des Systems:

  • Technik: 600 als Flipflops ausgeführte Röhren.
  • Taktfrequenz: etwa 3 kHz - elektronisch - mechanisch stabilisiert
  • Rechenleistung: Addition 0,6 ms; Multiplikation 10 ms; Division 60 ms; Wurzel 200 ms
  • Arbeitsspeicher: 15 Worte im Magnetkernspeicher
  • Massenspeicher: 8.192 Worte á 38 Binärstellen in  einem Trommelspeicher, mittlere Zugriffszeit: 5 msec
  • Ein-/Ausgabe: Lochstreifen, Fernschreiber, Direktausgabe  der Bits über Glimmlampen (für das Tracing!)
  • Stromversorgung: Drehstromanschluß mit 380V und 16A.
  • Leistungsaufnahme: Ca. 3500 Watt
  • Gewicht: Ca. 1000 kg
  • Preis: 150 TDM
  • Anzahl verkaufter Rechner: 50 im Inland, 5 im Ausland

 


Seit wann heißt übrigens in der Computertechnik ein Fehler "Bug" ?

Am 9. Sept. 1945 um 15:45 Uhr trat der erste „bug“ (engl.: Wanze oder Insekt) in der Computertechnik auf: eine Motte verklemmte sich zwischen einem Relais eines Mark II Rechners. Das System lieferte falsche Berechnungswerte! Die Zuse Z22 z.B. hatte u.a. zur Fehlerverfolgung oder zum "entwanzen" (engl.: to debug) die Möglichkeit die Bits über Glimmlampen direkt auszugeben.


Siemens 2002 (Siemens & Halske AG, Berlin/München)

  1959 wurde ein Transistorenrechner aus deutscher Produktion installiert. Das Rechenzentrum war damals in einem Gebäude in Nahe des Doms untergebracht. In der RWTH wurde eines der ersten von Siemens & Halske gefertigten Systeme eingesetzt. Die Deutsche Forschungsgemeinschaft war mit drei Systemen der erste Auftraggeber. Der Rechner ist von Siemens & Halske bis Mitte 1966 gefertigt und verkauft worden.  Das System war der erste in Serie hergestellte volltransistorisierte Universalrechner und als Rechner für den kommerziellen und technisch-wissenschaftlichen Einsatz konzipiert.

Die Schaltkreise waren als mit Transistoren bestückte, steckbare Baugruppen realisiert. Der Arbeitsspeicher war in Magnetkerntechnik ausgeführt und hatte eine Größe von 10.000 Worten (12 Dezimalziffern + Vorzeichen). Als Erweiterung diente ein zusätzlicher Trommelspeicher mit 10.000 Worten als "Zubringer-Speicher". Die peripheren Geräte waren über 4 parallele Kanäle angeschlossen. Das Peripherieangebot umfasste Lochstreifengeräte, Blattschreiber, Lochkartengeräte, Magnetbänder und Schnelldrucker. Ein Teil dieser Peripherie war von Siemens von Firmen wie IBM, Bull und Ampex zugekauft.

Der Betrieb der Anlage wurde vom Betriebssystem ORG 2002 gesteuert. Zur Programmierung konnten die Sprachen PROSA 2002, MAGNUS 2002 und in eingeschränktem Umfang auch ALGOL verwendet werden.

Das System war im Rechenzentrum der RWTH bis 1974 in Betrieb.

Technische Daten: 

  • Rechenleistung: 5.000 Operationen pro Sekunde
  • Arbeitsspeicher: 12.000 Worte á 12 Dezimalstellen im Kernspeicher, 100.000 Worte im Erweiterungsspeicher
  • Ein-/Ausgabe: Lochstreifen, Lochkarten, Magnetbänder, Fernschreiber und Tabelliermaschinen
  • Technik: Baugruppen in Transistortechnik, Magnetkernspeicher
  • Preis: 2,5 Mio DM

 

 

 

 


Was ist übrigens das "Moore'sche Gesetz"?

Als Gordon Moore 1965 Daten über die Steigerung von Speicherchipleistung grafisch darstellte, erkannte er eine Tendenz. Jeder neue Chip enthielt ungefähr die doppelte Kapazität seines Vorläufers und kam 18 bis 24 Monate nach dem vorherigen Chip auf den Markt. Moores Beobachtung, nun als Moore'sches Gesetz bekannt, beschrieb einen Trend, der sich fortsetzte und immer noch bemerkenswert genau ist. Dieses Gesetz, obwohl eigentlich für die Steigerung von Speicherleistung aufgestellt, wird oft als Grundlage für Leistungsvorhersagen bei Planungen benutzt.

Faustregel:

Die Leistungsfähigkeit von Rechnern verdoppelt sich alle 18 Monate.

Für parallele Hochleistungsysteme läßt sich sogar eine Verdoppelung alle 15 Monate beobachten, z.B. bei der Auswertung der TOP500 Liste über mehrere Jahre hinweg. Hier zeigt sich recht genau die durch das Moore'sche Gesetz erwartete exponentielle Steigerung, z.B. wenn man zeitlich die Leistung des Systems betrachtet, das sich jeweils auf einem bestimmten Rang befindet.


CDC 6400 (Control Data Corporation, USA

 Die Mflops-Barriere wurde 1966 erstmals mit einem Rechner der Firma CDC durchbrochen. Das System war bis 1982 in Betrieb. Neben dem Zentralprozessor verfügte das Gerät bereits über 10 periphäre Prozessoren die asynchron Aufgaben, z.B. die Ein-/Ausgabe auf den angeschlossenen Geräten erledigen konnten. Der Rechner wurde im jetzigen Gebäude des Rechen- und Kommunikationszentums installiert.  Backplaneverdrahtung Baugruppen.

Auf das System konnte im Fernzugriff über 64 Fernschreib-Terminals zugegriffen werden

 Technische Daten:

  • Rechenleistung: 1 Mflops
  • Arbeitsspeicher: 98,304 Worte á 60 Binärstellen, 250 kWorte im Systemspeicheri
  • Ein-/Ausgabe: Lochstreifen, Lochkarte, Magnetbänder, Schnelldrucker
  • Preis: 15 Mio. DM

 

 


 Seit wann gibt es eigentlich Microprozessoren?

Richtige Mikroprozessoren gibt es seit dem Jahr 1971 . Der Prozessor vom Typ 4004 von der Firma Intel gilt als der erste wirklich funktionsfähige Mikroprozessor der Welt.

Interessantes Detail:
Zu der Zeit entwickelte Intel einen „Customer-Chip“ für den Japanischen Taschenrechnermarkt.

Leistungsdaten des 4004:

  • Anzahl Transistoren auf dem Chip: 2.250

  • Wortbreite: 4 bit

  • Geschwindigkeit: 60.000 Operationen pro Sekunde.
    Eine richtige Floating Point Unit hatte der Prozessor allerdings noch nicht.

 

Seit wann gibt es eigentlich Datenfernverkehrsnetze?

Im Jahr 1975 ging Telenet, das erste kommerzielle packet-switching Netzwerk, das zivile Äquivalent zum militärisch genutzten ARPANET (dem Vorkäufer aller modernen Datenfernverkehrsnetze) in Betrieb. Telenet verband Teilnehmer in 7 amerikanischen Städten. Es war das erste der sogenannten „VANs, Value-Added Networks“.

Das ARPANET selbst wurde 1970 zur Computer-Computer Kommunikation eingeführt. Die ersten vier Knoten des Netzes waren:

  • die Universität von California in Santa Barbara,

  • die Universität von California in Los Angeles,

  • das Stanford Research Institut,

  • die Universität von Utah.


CDC Cyber 175 (Control Data Corp.)

 Der Terminalbetrieb in der RWTH Aachen wurde im Jahr 1976 mit einem System CDC 175 ermöglicht.  Rechner dieses Typs wurden zu dieser Zeit in vielen wissenschaftlichen Hochschulrechenzentren Deutschlands eingesetzt. Bis zu 350 Dialogterminals und 30 weitere Rechner waren an das System angeschlossen.

Neben dem Zentralprozessor verfügte das Gerät über 20 periphäre Prozessoren. Im Jahre 1984 wurde noch eine zweite Maschine des selben Typs installiert.

 

 

 

 

 

Technische Daten:

  • Rechenleistung: 10 MIPS, 4-7 Mflops
  • Arbeitsspeicher: 450 kWorte, Wortlänge 60 bit
  • Ein-/Ausgabe: Lochstreifen, Lochkarte, Magnetbänder, Schnelldrucker
  • Betriebssystem: NOS (Network Operation System)
  • Preis: 18 Mio. DM

CYBER 205 (Control Data Corporation, Mineapolis, USA)

Der Vektorrechner CYBER 205 wurde 1982 als erster Landeshochleistungsrechner für die Hochschulen des Landes NRW an der Ruhr-Universität Bochum installiert. Als Vorrechner fungierte eine CYBER 855 die mit dem Vektorrechner über ein "Loosely Coupled Network" (LCN) verbunden war. Die Nutzung des Systems erfolgte Projekt-orientiert.

Die Institute der RWTH Aachen konnten das System über Direktverbindungen zum Datentransfer (X25-Protokoll, 48 kbaud) nutzen. Natürlich gehörten die Institute der RWTH zu den eifrigsten Nutzern in Bochum.

Die theoretische Leistung des Rechners betrug 100 bei voller (64 Bit) bzw. 200 MFlops bei halber Rechengenauigkeit. Die Programmierung des Vektorrechners erfolgte in der Programmiersprache Fortran. Der Compiler konnte Schleifen bzw. auch geschachtelte Schleifen erkennen und automatisch in Vektorbefehle umsetzen. Es bestand auch die Möglichkeit, dem Compiler durch Direktiven, die als Kommentarzeilen in das Programm eingefügt werden konnten, Anweisungen und Hilfestellungen zu geben. Außerdem konnten auch direkte Vektorbefehle in Form von Funktionsaufrufen, deren Namen stets mit Q8 anfingen, durch den Nutzer in das Programm eingefügt werden.

Die Effizienz der vektorisierenden Compiler und deren Fähigkeiten Programmcode zu analysieren wurde im Laufe der Zeit durch die Hersteller der Vektorrechner erheblich gesteigert, so dass das Abrollen von Schleifen, alternative Code-Ausführung, generierte Gather-Scather Anweisungen, Nutzung von Hilfsfeldern, Zusammenfassung von Schleifen usw. vom Compiler sehr effizient gehandhabt wurden und die "Hand-Vektorisierung" meist auch nicht zu schnellerem Code führte.


FPS 164 (Floating Point Systems, USA)

Angeschlossen an einen Host-Rechner des Typs VAX 11/789 des Herstellers Digital Equipment Corp. wurde 1983 ein FPS 164, ein sog. "Attached Floating Point Processor" installiert. Bei dem FPS handelte es sich um einen Rechner mit einer Pipeline-Architektur. Sämtlicher I/O wurde von der VAX übernommen.

Die Floating Point Systems, Inc., Portland/Oregon entwickelte speziell für die Berechnung umfangreicher technisch-wissenschaftlicher Probleme den FPS-164 Attached Prozessor. Primäre Anwendungen sind lange Programme mit große Datenmengen, sowie der Notwendigkeit erweiterter Genauigkeit und Gleitpunktdarstellung.

Der FPS-164 Attached Prozessor war ein Rechner mit Array Prozessor Architektur. In Verbindung mit einem Host Computer VAX 11/7xx von Digital Equipment bot der FPS-164 eine Rechenleistung bis zu zwölf Millionen Gleitpunkt-Operationen pro Sekunde bei gleichzeitiger Leistung von sechs Millionen Integer/Adressen-Operationen pro Sekunde. Die Genauigkeit beträgt aufgrund der 64-Bit-Gleitpunkt-Arithmetik um 15 Dezimalstellen. Bei Verwendung von 16K-Chips war der Speicher bis auf 1,5 Millionen Worte à 64 Bit ausbaufähig (beim Einsatz von 64K-Chips sechs Millionen Worte). Zusätzliche ECC-Bits (Error checking and correcting) sorgen dafür, daß ein-Bit-Fehler korrigiert und zwei-Bit-Fehler erkannt werden.

Das System arbeitet mit synchroner Arbeitsweise, mehrfach unabhängige parallele Datenpfade, getrennte Speicher und mehrere arithmetische Einheiten nach dem Pipeline-Prinzip. Die Parallelanordnung des FPS-164 ermöglichte, gleichzeitig Felder zu indizieren, Schleifen zu zählen und auf die Speicher zuzugreifen, während parallel dazu die arithmetische Verknüpfung der Daten durchgeführt werde.Das 64 Bit breite Instruktionswort konnte bis zu zehn Operationen in einem einzelnen Instruktionszyklus von 167 Nanosekunden steuern. Ein serieller Computer hätte somit etwa 60 Millionen Operationen pro Sekunde ausführen müssen, um eine vergleichbare Leistung zu erzielen. Der FPS-164 wurde mit einer Bibliothek von mathematisch-wissenschaftlichen Routinen sowie Entwicklungssoftware ausgeliefert. Für die Programmerstellung standen ein optimierender Fortran IV Compiler nach Ansi 77 sowie ein Assembler zur Verfügung.


IBM 3090-600S/VF (IBM, USA)

  Januar 1989 : Installation des Höchstleistungs-Universalrechners IBM 3090-600S/VF, eines SMP-Rechners mit sechs Prozessoren mit jeweils einer angeschlossenen, im Vergleich zum Vektorrechner allerdings nur moderat leistungsstarken Vektoreinheit.

Als Betriebssystem stand das IBM-Betriebssystem VM/CMS zur Verfügung. Dieses interaktive Betriebssystem stellte jedem einzelnen Nutzer eine eigene, unabhängige virtuelle Maschine zur Verfügung. Die Nutzung des Systems als Shared-Memory Parallelrechner (SMP) war mit einem parallelisierenden Fortran-Compiler von IBM zwar möglich, wurde aber in der Realität kaum genutzt.

Die Prozessorelemente waren auf Kupferplatten montiert und der Rechner wurde durch Wasser gekühlt. Dominerende Bauteile hinter den Blechtüren waren Wasserschläuche.

 

 

Leistungsdaten des Systems:

  • Rechenleistung: 800 Mflops (pro Prozessor: 17 (skalar) und 133 Mflops (vektoriell))
  • Speicher: 256 MByte und weitere 512 MByte in einem Erweiterungsspeicher
  • Betriebssystem: VM/CMS
  • Plattenkapazität: 50 GByte

SNI S600/20 (Siemens-Nixdorf, Deutschland)

Im Jahre 1990 wurde der erste Vektorrechner der Firma Siemens Nixdorf, eine VP200EX (Hersteller: Fujitsu Ltd., Japan) beschafft und im Rechenzentrum der RWTH installiert. Dieser wurde aufgrund eines Stufenplanes über einen S400/10 bis zu dem wesentlich leistungsfähigeren System SNI S600/20 (Fujitsu-Bezeichnung: VP2600) aufgerüstet. Dieses war zum Zeitpunkt der Installation mit 5 GFlops das leistungsstärkste in Deutschland installierte System. Aufgrund der vergleichsweise breiten Speicherpfade waren Vektorrechner in der Lage, einen hohen Prozentsatz der theoretischen Spitzenleistung zu erreichen. Sind bei Vektorrechnern 30-40% realistisch, gelten bei Cache-orientierten Prozessoren 7-10% als durchschnittlich erreichbar.

Als Betriebssystem wurde auf dem System VSP/S genutzt. Dies entsprach dem IBM Betriebssystem MVS, unterstützte aber die Vektorhardware der Maschine. Im April 1993 begann die Ablösung von VSP/S durch das Betriebssytem UXP/M, einem Unix System V Release 4 Derivat.

Der Vektorrechner verfügte über einen leistungsstarken Vektorprozessor mit einem konfigurierbaren Vektorregister von 256 KB. Der Vektorprozessor konnte von zwei Skalareinheiten durch periodisches umgeschalten genutzt werden. Durch extrem breite Datenpfade konnte für gut vektorisierte Programme ein großer Prozentsatz der theoretischen Leistung auch genutzt werden.

Das System war der zweite Landesvektorrechner für das Land NRW und wurde von Forschergruppen an allen Hochschulen in NRW genutzt.

Leistungsdaten des Systems:

  • Rechenleistung: 5 Gflops vektoriell, 2x37,5 Mflops skalar
  • Taktrate: 3,2 ns (Vektoreinheit), 6,4 ns (Skalareinheit)
  • Speicher: 1 GByte Hauptspeicher (MSU), 2 GByte Systemspeicher (SSU)
  • Plattenkapazität: 32,5 GByte
  • Betriebssystem: VSP/S (MVS), ab 1993 UXP/M (UVR4)

Rang 49 in der TOP500 Liste

In der im Juni 1993 veröffentlichten Top500 Liste (http://www.top500.org), der Rangfolge der 500 leistungsstärksten Rechnersysteme weltweit belegt der Vektorrechner SNI S600/20 im Rechenzentrum mit 4,09 GFlops den Platz 49.

Gemessen wird in dem der TOP500-Liste zugrunde liegenden Linpack-Benchmark die wirklich erreichte Rechengeschwindigkeit bei der Lösung eines sehr großen Gleichungssystemes.

 

 


 

Was ist überhaupt ein Vektorrechner?

Bei vektoriell arbeitenden Systemen werden sogenannte Vektoren verknüpft, d.h. es werden viele gleichartige Operationen auf eine möglichst große Anzahl Operanden ausgeführt. Diese sollten möglichst hintereinander, d.h. konsekutiv im Speicher liegen. Vektorrechner werden auch als Single Instruction Multible Data (SIMD) Rechner bezeichnet. Die Operanden werden als Strom aus dem Speicher geholt, in einem Vektorregister zwischengespeichert, als Datenstom in einer Verarbeitungspipeline (Fließbandverarbeitung) verarbeitet und in den Speicher zurückgespeichert oder im Vektorregister zur Weiterverarbeitung gehalten.

Bei dieser Art der Verarbeitung, und natürlich mit einem entsprechend breit ausgelegten Speicherzugriffspfad, ist es möglich, extrem hohe Datenübertragungsraten vom Speicher zur CPU zu realisieren. Ebenfalls tritt die Cacheproblematik von RISC-CPUs nicht auf.

 


Parsytec SuperCluster (Parsytec GmbH)

Im Jahr 1991 wurde im Rahmen des überregionalen DFG-Schwerpunktprogrammes "Strömungssimulation mit Hochleistungsrechnern" im Rechenzentrum der RWTH ein Parallelrechnersystem der Aachener Firma Parsytec installiert. Die Prozessoren, sog. Transputer (T800), hatten eine Adressbreite von 32-bit und waren eine Entwicklung des britischen Unternehmens INMOS (später von SGS Thomson aufgekauft). Der einzelne Transputer war für die damalige Zeit, u.a. durch einen Gleitkomma-Koprozessor mit 2,2 MFlops Rechenleistung, extrem schnell und verfügte pro Chip über jeweils vier DMA-fähige Network Communication Units (MCUs) für den schnellen seriellen Datenaustausch (jweils 1,6 MByte/s, mit 20 MHz getaktet) untereinander. Das Parsytec SuperCluster war der erste massiv-parallele Rechner im RZ.

Eine Besonderheit des SuperClusters war, dass über zusätzliche mehrstufige Cluster-NCUs untereinander softwaremäßig beliebige Verbindungstopologien vorab definiert und verschaltet werden konnten. Dazu wurde über eine "Resource Map" vorab das physikalische Netzwerk definiert, das möglichst auch der "Task Force", d.h. der Gruppe von zusammenhängenden Tasks die an einer Applikation arbeiten, entsprechen musste um eine entsprechende Transferleistung zu erreichen.

Zur Programmierung unter dem Betriebssystem Helios standen OCCAM (eine Hardware-nahe Programmiersprache für Transputer), sowie FORTRAN und C, jeweils mit Optionen zur Parallelverarbeitung, zur Verfügung.

Als Front-/End-Server diente eine Workstation Sun 4/330 die einen Multi-user Betrieb über 8 separate Eingänge zum Transputer-Cluster ermöglichte.

 

Leistungsdaten des SuperClusters:

  • Prozessoren: 256 * T800 Transputer mit einer Taktfrequenz von 30 MHz
  • Rechenleistung: 15 MIPS (Millionen Instruktionen pro Sekunde) bzw. 2,2 Mflops pro Prozessor,
  • Gesamtspitzenleistung des Systems: 560 MFlops
  • Prozessorcache: 4 kByte pro Transputer-Chip
  • Speicher: 4 MByte pro Prozessor, Gesamtkapazität 1 GByte
  • Plattenkapazität: 12 GByte
  • Betriebssystem: Helios (verteiltes Multiprozessor-Betriebssystem auf UNIX-Grundlage)

Vorgesehen war, das System in einer weiteren Ausbaustufe Anfang 1992 durch Rechner mit wesentlich leistungsfähigeren Prozessoren zu ersetzen. Diese T9000 genannten Prozessoren der Firma INMOS sollten mit 50 MHz getaktet sein und jeweils 25 Mflops bzw. 150 Mips liefern. Das Gesamtsystem sollte eine Leistung von 1,6 GFlops mit einem akkumulierten Speicher von einem GByte besitzen. Diese Prozessoren standen allerdings nie wirklich zur Verfügung, so dass der Rechner auch nicht installiert werden konnte.


Der Workstation-Cluster im RZ

Ergänzung des Rechners IBM 3090-600S/VF wurde 1994 -der Modernität von Unix folgend- der Workstationverbund im Rechenzentrum aufgebaut. Dieser bestand in der Anfangsphase aus sechs IBM RISC-Workstations, von den die leistungsstärksten Workstations immerhin schon eine Leistung von 240 MFlop/s, also ca. 1/4 der Leistung des IBM-Großrechners, erreichten. Dieser Cluster stellte den Ursprung des heutigen Rechner-Clusters dar.

Bereits damals wurden die Datenbereiche HOME und WORK als allen Clusterrechnern gemeinsames Dateisystem realisiert. Hier standen jeweils 2 Gbyte Plattenplatz zur Verfügung. Nach der Abschaltung des Rechners IBM 3090-600S/VF übernahm der Cluster die Versorgung der Hochschule mit Rechenleistung.

Im Laufe der Zeit wurde der Cluster erheblich ausgebaut und durch Hardware der Hersteller IBM, SGI, HP, Sun und Fujitsu ergänzt. Größte Systeme im Workstation-Cluster waren ein Monovektorprozessor (Fujitsu VX, beschafft 1996) und ein 16-Prozessorsystem von HP (HP9000 V-Class Server) aus dem Jahr 1998.

 

 

 

 

 


SNI VPP500/4 (Siemens-Nixdorf, Deutschland)

Als weltweit erstes System wurde in Aachen 1994 ein Vektor-Parallel-Prozessor SNI VPP500/4, ein Parallelsystem mit vier Vektorprozessoren, installiert. Hersteller des Systems war die Japanische Firma Fujitsu Ltd. Die Installation des Rechners erfolgte statt des vertraglich vereinbarten Speicherausbaus des Systems S600/20 und als Kompensation für die Tatsache, dass SNI die vertraglich vereinbarte Prozessortaktrate nicht ganz erreichen konnte.

Der Rechner verfügte über keine eigenen Platten oder I/O-Systeme. Als Front- / Endsystem wurde das System S600/20 genutzt. Der dazu notwendige Kontrollprozessor (CP) besaß eine Skalareinheit, eine Kommunikationseinheit (VCF) zum Erweiterungsspeicher des Vektorrechners S600/20, 128 MByte Hauptspeicher, sowie eine Datentransfereinheit (DTU) zu den Prozessorelementen.

Der funktionale Aufbau der Prozessorelemente (PE) entsprach dem der S600, allerdings ohne die zweite Skalareinheit. Die Skalareinehit war als RISC Prozessor ausgeführt und hatte eine theoretische Rechenleistung von 200 MFlops. Jedes Prozessorelement war über eine eigene Datentransfereinheit (DTU) mit dem Kontrollprozessor verbunden.

Das Netzwerk zwischen den Prozessorelementen realisierte ein "Virtual-global-memory Konzept". In jedem PE gab es globale und lokale Speicherbereiche. Auf die globalen Bereiche konnte über das Netzwerk von jedem anderen PE zugrgriffen werden. Der simultane Datentransfer erfolgte zwischen den PE und dem CP ohne Geschwindigkeitsverlust und ohne Beteiligung des Betriebssystems, gesteuert durch die DTU. Zur Synchronisation gab es im Netzwerk spezielle Synchronisationsregister für jeden PE.

Eine technische Besonderheit des VPP500 war, dass Teile aus Geschwindigkeitsgründen in Gallium-Arsenid-Technik (Ga/As) realisiert waren. Die 25.000 Gatter pro Chio hatten eine Schaltzeit von 60 ps. Die übrigen Bauteile waren in BiCMOS ausgeführt und hatten eine Schaltzeit von 200 ps.

Die Programmierung in FORTRAN77 kannte Compileranweisungen auf Kommentarebene, die sog. !XOCL-Zeilen zur Definition von parallelen Prozedurteilen, zur Behandlung von Daten (lokal, global oder verteilt) und für Synchronisationspunkte. Viele der Konstrukte sind heute in OpenMP ähnlich realisiert.

Leistungsdaten eines Prozessors:

  • Prozessoren: ein Vektorprozessor, eine Skalareinheit
  • Rechenleistung: 1,6 Gflops vektoriell, 37 Mflops skalar
  • Speicher: 0,25 GB Systemspeicher (MSU)
  • Zahlendarstellung: ANSI/IEEE 754

Parallelarbeit:

im System konnten fast alle der funktionalen Einheiten parallel ihre Aufgaben ausführen:

  • im System: alle PE und der CP
  • im PE: SU, VU und DTU
  • in den SU: 3 Operationen/Takt (Long Instruction Word)
  • in den VU: 5 der 6 Pipelines

Fujitsu-Siemens VPP300/8

 Beide Systeme, der SNI S600/20 und der SNI VPP500/4, wurden 1996 durch ein moderneres System in CMOS-Technologie von Fujitsu, einem Vektorparallelrechner SNI VPP300/8 mit acht Prozessoren abgelöst. Dieser hatte neben einer höheren Rechenleistung einen damals enorm großen Hauptspeicher von zwei GigaByte für serielle Programme und 16 GigaByte für Parallelprogramme.

Mit dem System war es aufgrund der breiten Speicherpfade durchaus möglich bei gut vektorisierten Programmen 30 bis 50% der theoretischen Rechnergeschwindigkeit zu erreichen. Die Realisierung von Vektorrechnern in vergleichsweise billiger CMOS-Technologie galt damals durchaus als bahnbrechend - eine Vermutung, die sich später allerdings nicht erfüllt hat.

Das System war bis Herbst 2001 im Produktionsbetrieb und wurde dann aus Kostengründen (Lizenzkosten der Software) stillgelegt.

Leistungsdaten des Vektorrechners: 

  • Prozessoren: 8 Vektoreinheiten
  • Leistung: 17,6 GFlop/s
  • Speicher: 16 GByte (2 GByte pro CPU)
  • Crossbar: 570 MB/s Transferleistung
  • Plattenkapazität: 108 GByte


Fujitsu-Siemens VX

 1996 wurde im Rechenzentrum ein Vektormonoprozessor SNI VX installiert. Der Einzelprozessor entsprach in Architektur, Leistung und Ausstattung dem der VPP300.

Der Rechner war Bestandteil des Workstation-Clusters des RZ und, im Gegensatz zum VPP300, für alle Nutzer aus der RWTH frei zugänglich.

Leistungsdaten des Vektorrechners:

  • Prozessoren: 1 Vektoreinheit
  • Leistung: 2,2 GFlop/s
  • Speicher: 2 GByte
  • Plattenkapazität: über Cluster-Fileserver

 

 

 

 


HP9000 V-Klasse

 1997 : Installation eines Shared Memory Parallelrechners (SMP). Der HP9000 V-Klasse Server von Hewlett-Packard basiert auf PA-8200 Reduced Instruction Set Computer (PA-RISC) Processoren. In Aachen wurde im September 1998 das Modell V2250 installiert mit sechzehn mit 240 MHz getakteten Prozessoren und einem 8 GByte großen gemeinsamen Speicher. Die 16 Prozessoren besitzen alle einen je 2 MB großen Daten- und Instruktionscache.
Das System wurde im Frühjahr 2004 abgeschaltet.

 
Speicherzugriffe bei SMP-Systemen

Leistungsdaten des Systems:

  • Prozessoren: 16 PA8200 (240 MHz)
  • Rechenleistung: 15,4 Gflops
  • Speicher: 8 Gbyte (16-fach verschränkt)
  • Cache: 2 MB lokaler Level1-Cache

Fujitsu-Siemens hpcLine

Im Jahr 1999 wurde ein PC-basierter Parallelrechner mit verteiltem Speicher und einer theoretischen Rechenleistung von ca. 25 Gflops installiert. Das hpcLine PC-Clusters enthält 16 Doppelprozessor PC-Boards bestückt mit 600 MHz (später durch 800 MHz ersetzt) Intel-Pentium III Prozessoren, 512 KB Level-2-Cache, 512 MB Hauptspeicher und 4 GB lokalem Plattenspeicher.

Die Prozessoren können sowohl über Switched Fast Ethernet, als auch über ein schnelles SCI-Netzwerk der Firma Scali miteinander kommunizieren. Das Kommunikationsnetz mit den SCI-Karten (Scalable Coherent Interface) des Herstellers Dolphin verbindet die Knoten mit einer Kommunikationsleistung von bis zu 90 MByte/s. Das SCI-Netzwerk ist als zweidimensionaler Torus konfiguriert.

Als Betriebssystem kommt Solaris-Intel und Linux zum Einsatz. Die parallele Nutzung ist Knoten-intern durch den parallelisierenden Compiler (C, C++, Fortran90) und knotenübergreifend durch Nutzung der mit dem MPI Standard konformen Message Passing Bibliothek ScaMPI der Firma SCALI möglich.

 


Sun Microsystems Sun Fire 6800

Die Vektorrechner wurden 2001 durch ein Parallelsystem (clustered SMP) der Firma Sun Microsystems abgelöst. Der einzelne Knoten besteht aus 24 Prozessoren und einen gemeinsamen Hauptspeicher von 24 Gbyte pro Knoten.
Jeweils vier Prozessoren und vier GByte Speicher befinden sich auf einem Systemboard. Die Boards sind untereinander durch einen Switch Cachekoherent verbunden, bilden also einen gemeinsamen Hauptspeicher. Die Datenleistung des Switches ist durch die Snoopingrate von 9,6 GByte/s limitiert.

Sechzehn Sun Fire 6800 Systeme stehen zur Verfügung, wobei jeweils 8 Systeme durch einen schnellen Interconnect, den Sun Fire Link, verbunden sind. Hiermit können Daten mit nahezu memory-Zugriffsgeschwindigkeit transferiert werden. Genutzt wird diese Verbindung durch parallele MPI-Programme.
Damit stehen pro Block jeweils 8*24=192 breitbandig und mit geringer Latenz untereinander verbundene Prozessoren für MPI-parallelisierte Programme zur Verfügung

Das System wurde in zwei Stufen (Mitte 2001, Ende 2001) installiert.

 

 

 

 

Leistungsdaten pro SF 6800 System:

  • Prozessoren:24 UltraSPARC III, 900 MHz
  • Rechenleistung:43 Gflops
  • Hauptspeicher (SMP): 24 Gbyte
  • Bandbreite des Datenbusses: 9,6 GByte/s
  • Summe L2-Caches: 192 Mbyte
  • akkumulierte Speicherbandbreite: 57,6 Gbyte/s
  • Bandbreite zum SAN: 200 Mbyte/s
  • lokale Platten: ca. 200 Gbyte
  • WildCat Vernetzung (MPI): 2,7 Gbyte/s
  • Netzanschlüsse: 1/2 x Gbit-Ethernet

Der UltraSPARC III Prozessor

  • Architektur:
    • 64-Bit SPARC Architektur VIS Instruction Set
    • VIS Instruktionssatz
    • 29 Millionen Transistoren
    • 4-fach Superscalar
    • 14-stufige nonstalling Pipeline
    • CMOS Technologie, 13 Micron
    • 1368 Pins
  • Taktfrequenz: 900 MHz
  • L1 Cache:
    • 64 KB 4-way Daten
    • 32 KB 4-way Instruktionen
    • 2 KB Write, 2 KB Prefetch
  • L2 Cache:
    • bis 86 MB extern
    • On-chip controller und Address tags
  • Memory Controller: On-chip Memory Controller mit bis zu 16 GB Hauptspeicher mit 2.4 GB/s adressierbar.

Sun Microsystems Sun Fire 15k

  Anfang 2002 wurde zusätzlich zu den 16 SunFire 6800 Systemen noch vier SunFire 15k installiert. Jedes der SMP-Systeme besteht aus 72 Prozessoren und einem gemeinsamen Hauptspeicher von 144 Gbyte.

Die Systemboards entsprechen den SunFire 6800 Systemen, sind aber über einen "directory-basierten" Crossbar miteinander verbunden. Vorteil: Solaris unterstützt das migrieren und replizieren von Daten. Wenn die Daten auf dem jeweiligen board liegen, wird der Zugriff nicht mehr durch Cache-Snooping verlangsamt und es ergibt sich im System eine theoretische akkumulierte Speicherbandbreite von 43,2 GigaByte/s.

Die Systeme sind ebenfalls durch einen Sun Fire Link für einen schnellen Datentransfer miteinander gekoppelt.

 

 

 

 

 

 

 

  Sun Fire 15k Systemdaten:

  • Speicher: 144 Gbyte (SMP)
  • Summe L2-Caches: 576 Mbyte
  • akkumulierte Speicherbandbreite: 172,8 Gbyte/s
  • theoret. Rechenleistung: 130 Gflops
  • Bandbreite zum SAN: 400 Mbyte/s
  • lokale Platten: ca. 400 Gbyte
  • WildCat Vernetzung (MPI): 2,7 Gbyte/s
  • Netzanschlüsse: 2 x Gbit-Ethernet

 

 


Rang 151 in der TOP500 Liste

In der im November 2003 veröffentlichten Top500 Liste (http://www.top500.org), der Rangfolge der 500 leistungsstärksten Rechnersysteme weltweit belegt der Sun-Cluster im Rechenzentrum den Platz 151. Mit dem Sun Fire Cluster, bestehend aus den vier Sun Fire 15k und den sechzehn Sun Fire 6800 Systemen (in Summe 672 Prozessoren) wurde ein sehr großes Gleichungssystem parallel auf allen Rechnern mit einer Rechenleistung von 891.4 GFlops (theoretisch waren in Summe 1209.6 GFlops erreichbar) gelöst.


Sun Microsystems UltraSPARC IV Prozessor

Die UltraSPARC IV Prozessoren unterscheiden sich von ihren Vorgängern unter anderem dadurch, dass sie zwei Verarbeitungseinheiten äquivalent zum UltraSPARC III Prozessor besitzen, die auf einen gemeinsamen L2 Cache zugreifen. Die theoretische Leistung des Prozessors wird daher verdoppelt. Die möglichen Konflikte im Datenzugriff der beiden Rechenkerne auf den gemeinsamen Cache bremsen den Prozessor im normalen Mischbetrieb nur sehr wenig aus.

UltraSPARC IV Architektur: 

  • binärkompatibel zum UltraSPARC III Chip
  • Chip multithreading (CMT) Prozessor mit zwei Threads pro Prozessor
  • basierend auf zwei UltraSPARC III Pipelines
  • 64-Bit SPARC Architektur VIS Instruction Set
  • 66 Millionen Transistoren
  • 4-fach Superscalar
  • 14-stufige nonstalling Pipeline
  • Taktfrequenz: 1.05 - 1.2 GHz
  • L1 Cache (pro Pipeline):
  • 4 KB 4-way Daten
  • 32 KB 4-way Instruktionen
  • 2 KB Write, 2 KB Prefetch
  • L2 Cache:
  • 16 MB extern (exklusiver Zugriff auf 8 MB pro Pipeline)
  • On-chip controller und Address tags
  • Memory Controller: On-chip Memory Controller mit bis zu 16 GB Hauptspeicher mit 2.4 GB/s adressierbar.

Sun Microsystems Sun Fire E2900

Im Juli 2004 wurden acht Parallelsysteme Sun Fire E2900 mit je 12 UltraSPARC IV Prozessoren und jeweils 48 GByte Hauptspeicher installiert. Jeweils zwei Sun Fire E2900 Systeme können in ein 19"-Rack eingebaut werden. Die Systeme sind binärkompatibel zu den restlichen Sun-Systemen. Die Datenkommunikation erfolgt über zwei Gbit-Ethernet Verbindungen zu einem zentralen Cisco Switch.

 

Leistungsdaten pro Sun Fire E2900 System:

  • Prozessoren:12 UltraSPARC IV mit einer Taktrate von 1,2 GHz
  • Rechenleistung: 57,6 Gflops
  • Cache pro Prozessor:
    • Level 1: 64-KByte Instruktion und 128-KB Daten on-chip
    • Level 2: 16-MByte external EEC Cache auf dem UltraSPARC IV Chip
  • System Interconnect: Datenbus mit 9.6 GByte/sec (Sun Fireplane)
  • Hauptspeicher: 48 Gbyte (SMP)
  • Netzanschlüsse: 2 x Gbit-Ethernet

Sun Microsystem Sun Fire V40z Opteron Cluster

Im September 2004 wurde im Rechen- und Kommunilationszentrum ein Cluster bestehend aus 64 Opteron-Prozessor basierten Systemen V40z der Firma Sun Microsystems installiert. Die einzelnen Knoten bestehen aus jeweils vier Opteron 848 Prozessoren der Firma AMD. Diese sind mir 2,2 GHz getaktet und untereinander über drei Links mit der sogenannten HyperTransport Technologie zur schnellen Datenkommunikation (pro Link 6,4 GByte/s) verbunden. Jeder Prozessor   hat über die HyperTransport Links mit einer theoretischen Bandbreite von ca. 19,2 GByte/s Zugriff auf den Systemspeicher. Im realisierten Ausbau beträgt dieser 8 Gbyte pro Knoten. Jedes System besitzt neben den vier Prozessoren noch zusätzlich einen Serviceprozessor.

Zwischen den einzelnen Knoten ist eine Vernetzung über Gbit-Ethernet installiert. Als zentraler Switch wird ein Cisco Catalyst 6500 mit einer hohen Backplanebandbreite  eingesetzt. Als Programmiermodell ist innerhalb der Knoten SMP oder MPI und zwischen den Knoten MPI bzw. Hybridprogrammierung möglich.

Die Opteron Prozessoren können gleichzeitig von Programmen im 32-bit oder im 64-bit Mode genutzt werden.   Somit sind auch die auf PCs üblichen 32-bit Programme neben den für eine Adressbreite von 64 bit kompilierten Programme lauffähig. Als Betriebssysteme sind Solaris, Linux und Windows, auch in der 64-bit Version, möglich.

 

 

 

 

 

 

 

 

 

 

Leistungsdaten pro System V40z:

  • Prozessoren: vier AMD Opteron Serie 800
  • Taktrate: 2,2 GHz
  • L2-Cache: 1 MByte pro Prozessor
  • Adressierung: 32 oder 64 bit
  • theoretische Leistung: 17,6 Gflops
  • Speicher: 8 Gbyte EEC memory
  • Speicherbandbreite: max. 19,2 Gbyte/s,
    drei 3,2 Gbit/s bidirektionale HyperTransport Links pro Prozessor

Sun Microsystems Sun Fire 25k und Sun Fire 6900

Ebenfalls im September 2004 wurden die schon installierten Parallelsysteme Sun Fire 15k und Sun Fire 6800 durch Tausch der Systemboards inklusive der Prozessoren aufgerüstet. Statt der bisherigen UltraSPARC III stehen danach die neueren UltraSPARC IV Prozessoren zur Verfügung. Pro CPU sind in allen SPARC-basierten Rechnern durchgängig vier GByte Speicher installiert. Die neuen Systeme heissen jetzt Sun Fire 25k bzw. Sun Fire 6900, sind aber ansonsten identisch mit den Ursprungssystemen. Die Peripherie wurde ebenfalls nicht geändert.

In Summe besitzt der Sun Fire Cluster jetzt eine theoretische Rechenleistung von 3,5 TFlops und 3,0 TByte Speicher. Die Systeme sind binärkompatibel zu den bisherigen Sun-Systemen und laufen unter dem Betriebssystem Solaris. Die 64 Opteron-basierten Rechner haben eine maximale Rechenleistung von 1,1 TFlops bei einem akkumulierten Speicher von 512 GByte. Über alles summiert, steht somit eine theoretische Rechenleistung von 4,6 Gflops und 3,5 Gbyte zur Verfügung.

Leistungsdaten des Sun-Clusters im Rechen- und Kommunikationszentrum:

 
Anzahl Systeme
ProzessorProzessoren pro SystemLeistung pro SystemSpeicher pro System
SunFire 25k
4
UltraSPARC IV
144
302 GFlops
288 GByte
SunFire 6900
16
UltraSPARV IV
48
115 GFlops
96 GByte
SunFire 2900
8
UltraSPARC IV
24
58 GFlops
48 GByte
SunFire V40z
64
Opteron 848
4
18 GFlops
8 GByte

Von 1958 bis 2004 - von der Z22 bis zum Sun Fire Cluster:

Der erste, im Jahr 1958 im Rechenzentrum der RWTH installierte Rechner, eine in Röhrentechnik realisierte Z22 (16 Flops, ca. 60 Byte) des Computerpioniers Conrad Zuse hätte für die Berechnungen die der Sun Fire Cluster in einer Sekunde durchführen kann, immerhin ca. 10.000 Jahre gebraucht. 3,5 Terabyte entsprechen in etwa dem Volumen von 20 modernen 180 Gbyte Magnetplatten bzw. der Menge von einer Milliarden beschriebene Textseiten die im Hauptspeicher gespeichert werden könnten.

Wie entwickelt sich die Rechnerleistung?

Wenn man die zeitliche Entwicklung der Platzierungen in der TOP500-Liste (die Liste der 500 weltweit leistungsstärksten Rechner) betrachtet, fällt auf, dass sich die Rechenleistung des Systems auf einem beliebigen Rang in der Liste (eingetragen sind die Plätze 1, 50, 200 und 500) alle 15 Monate verdoppelt.

Diese Tendenz ist in den letzten 10 Jahren bemerkenswert genau eingehalten worden. In der gewählten logarithmischen Darstellung bedeutet eine Gerade in der Trendlinie einen exponentiellen Zuwachs. Moore's Law spricht von einer Verdoppelung alle 18 Monate. D.h. im HPC-Bereich entwickelt sich die Geschwindigkeit, z.B. aufgrund der steigenden internen Parallelität in den Systemen, schneller.


 

Zum Vergleich ist die Entwicklung der theoretischen Leistungs von PC-Systemen, sowie die Rechenleistung der in Aachen im Rechen- und Kommunikationszentrum installierten Hochleistungsrechner (Vektorrechner, Sun SMP-Cluster) eingetragen.

 


Rang 172 in der TOP-500 Liste vom Juni 2005.

Mit dem Sun Fire Cluster, bestehend aus 20 SMP-Systemen, den vier Sun Fire 25k und 16 Sun Fire 6900 Systemen (772 dual core UltraSPARC IV CPUs, in Summe also 1.344 Prozessoren von denen 68 aussschließlich für Netzwerk- und Systemtasks genutzt wurden) wurde beim LINPACK-Benchmark, d.h. der Lösung eines sehr großen Gleichungssystems mit 499.200 Unbekannten eine Rechenleistung von 2.054,4 GFlops erreicht. Das sind 67 Prozent der theoretisch auf den Rechnern erreichbaren 3.000 GFlops. Der Benchmark belegte dabei in Summe 2 Terabyte Speicher. Interessant ist dabei, dass sowohl die verwendeten Maschinen (SF25k und SF6900) als auch die Vernetzung zwischen den Maschinen (Sun Fire Link sowie switched Gbit-Ethernet) heterogen sind. Für dieses sehr gute Resultat waren u.a. verantwortlich:

  • eine hochoptimierte mathematische Bibliothek (Sun Performance Library) für die Matixmultiplikation,
  • der extrem schnelle Dateninterconnect zwischen den Maschinen, der Sun Fire Link,
  • eine schnelle und "thread-safe" MPI-Implementierung (Message Passing Interface), die Teil des Sun HPC ClusterTools ist,
  • eine ausgeklügelte hybride Implementation (MPI+OpenMP) eines Lösers für Lineare Gleichungssysteme von Eugene Loh (Sun).
  • eine thread-ballancing Technik zum Ausgleich der unterschiedlichen Taktfrequenzen der genutzten UltraSPARC IV Processoren.

Entwicklung  

Im folgenden Schaubild wird die Entwicklung der Rechenleistung und des Speichervolumens der in Aachen installierten Systeme seit 1990 dargestellt. Die Größen entsprechen dabei dem Volumen(!) der Würfel.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Nutzerverwaltung (oder: HPC auf Knopfdruck)

Seit September 2005 wird der Hochleistungsrechner vom Identity Management System (TIM = Tivoli Identity Manger) provisioniert, d.h. die im TIM eingetragenen RWTH-Mitarbeiter können sich über TIM einen Account auf dem HPC-System selbst freischalten und dieser wird dann automatisch eingerichtet. Wird eine Person von der RWTH nicht mehr als Mitarbeiter geführt, erlischt selbständig nach einer Karenzzeit das Nutzungsrecht.

Neben den Personen aus der RWTH können ebenfalls von den anderen Hochschulen in NRW im Rahmen des Ressourcen-Verbundes NRW (RV-NRW) Personen definiert und als Nutzungsberechtigte per Datenimport in TIM eingespeist werden. Auch diese können sich dann den Dienst HPC selbst freischalten.

Neben den Unix-Systemen (Linux auf Opteron und Solaris auf UltraSPARC und Opteron) stehen im Cluster ebenfalls 4-Prozessor Opteron-Systeme unter 64-bit Windows 2003 zur Verfügung die auf die gleichen Datenbestände wie unter Unix zugreifen können. Die Accounts werden ebenfalls durch TIM eingerichtet und sind über Remotedesktop von Windows- und Linuxsystemen zugreifbar.

 

 


Sun Fire V40z mit Dual Core AMD Opteron-Prozessoren

Im November 2005 wurden im RZ vier weitere V40z-Systeme von Sun installiert. Diese Rechner besitzen ebenfalls vier Opteron-Prozessoren (2,2 GHz, 90nm-Technologie), die allerdings pro Chip zwei Rechenkerne (vgl. UltraSPARC 4) mit jeweils eigenem 1 MByte Level2-Cache aufweisen. Die beiden Prozesssorkerne teilen sich die Pfade zum Memory und den HyperTransport-Connect.

Die Prozessoren sind Pin-kompatibel mit den ein-Core Prozessoren, benötigen aber einen BIOS-update. Die Rechner besitzen jeweils 16 Gigabyte Speicher. Die nominelle Spitzenleistung des V40z-Systems beträgt 35,2 GigaFlops. Aus der Applikationssicht sieht eine V40z aus wie ein 8-Prozessor Shared Memory System. Kritisch ist aber bei der parallelen Nutzung das sogenannte memory placement, d.h. auf welchem der an jeweils einem der vier Prozessoren angeschlossenen Speicherchips sich die vom Programm benötigten Daten befinden. Einer dieser Speicherpfade kann saturieren wenn mehr als zwei Prozessoren bzw. cores gleichzeitig darauf zugreifen. Nur wenn die Daten über alle vier Speicher verteilt sind, können die Prozessoren optimal arbeiten. Das Betriebssystem Solaris10 verfügt, da es für große Mehrprozessorsysteme (siehe Sun Fire 25k) angepasst ist, über die Möglichkeit, die Daten entsprechend anzuordnen.

 

ProzessorAMD Opteron 875

Register

16 x   64-bit Integer
16 x 128-bit Fließkomma

Adressraum

48 bit virtuell
40 bit physikalisch

Taktfrequenz

2,2 GHz

L1 Cache (pro core)

Daten: 64 kByte, zwei 64-bit Operationen pro Takt, 3 Takte Latency

Instuktionen: 64 kByte

L2 Cache (pro core)

1 MByte, 2,2 GHz

Memory Controller (ECC)

128 bit DDR SDRAM
100,133, 166 und 200 MHz
bis zu 8 DIMMs

HyperTransport

1.000 Mhz

drei Links à 16 bit

jeweils 3,2 GB/s bidirektional
(Summe: 24 GB/s pro Prozessor)

Technologie

90nm

Spannung

1,3-1,35 V

Leistungsaufnahme

95 Watt

Sun Microsystems UltraSPARC T1 Prozessor

Im Rechen- und Kommunikationszentrum wurde im Dezember 2005 ein Sun Fire T2000 Server von Sun Microsystems mit einem T1 "Niagara" Prozessor mit 8 cores und einer Taktfrequenz von 1,2 GHz installiert. Der Server besitzt einen Hauptspeicher von 16 GByte und ist mit vier Gbit Ethernet-Adaptern ausgestattet.

Das System läuft unter dem Standard-Betriebssystem Solaris 10. Nach den dual core Ultra SPARC IV (installiert seit Mitte 2004) und den AMD Operon Prozessoren (seit 2005) mit ebenfalls zwei Cores, markiert der T1 Prozessor ein weitere Schritt zu einem neuen Typ von Microprozessoren mit hoher interner Parallelität in Form von vielen Rechenwerken auf einem Chip.

ProzessorUltra SPARC T1

Hersteller

Texas Instruments

Architektur

SPARC V9

Adessraum

48-bit virtual, 40-bit physikalisch

Cores

bis zu 8 cores mit jeweils 4 threads

Pipelines

8 jeweils 6-stufige Integer-Rechenwerke, wobei 4 threads eine Pipeline gleichzeitig nutzen können

Taktfrequenz

1.0 GHz oder 1.2 GHz

L1 Cache (pro Core):

16 KByte Instruction, 8 KB data cache (jeweils 4-way set-assoziativ)

L2 Cache

3 MByte on chip
12-way associativ, 4 Bänke

Memory Controler

vier 144-bit DDR2-533 SDRAM Interfaces
4 DIMMS pro Controller - 16 DIMMS total
Optional: 2-Kanal operation mode

JBUS Interface

3.1 GByte/sec Bandbreite (peak)
128 bit address/data bus
150 - 200 MHz

Technologie

CMOS, 90nm
9-Layer Cu Metal,

Leistungsaufnahme

72 Watt

Der UltraSPARC T1, Entwicklungs-Codename "Niagara" besitzt intern bis zu acht Rechenkerne (processor cores), die selbst jeweils simultan vier sog. leichtgewichtige Prozesse (threads) ausführen können. D.h. innerhalb des Prozessors können 32 Prozesse auf den acht 6-stufigen Integer-Pipelines gleichzeitig abgearbeitet werden. Ziel ist es dabei, auftretende Wartezeiten, bis die Daten aus dem Speicher geladen worden sind, durch rechenbereite threads auszunutzen. So sollen mehr als die bei konventionellen Prozessoren für Anwendungen üblichen 5% der theoretischen Spitzenleistung erreicht werden.

Gedacht ist dieser Prozessor, der nur über eine gemeinsam genutzte Fließkommaeinheit verfügt, z.B. für Web- oder Datenbank-Anwendungen, bei denen solche Operationen nicht oder nur sehr moderat vorkommen.

Der Chip ist binärkompatibel mit den konventionellen UltraSPARC Prozessoren. Jeder der Prozessor-Cores besitzt einen eigenen Instruktions- und Daten-Cache und kann über einen internen Daten-Crossbar über einen gemeinsamen L2-Cache auf den gemeinsamen Speicher zugreifen, besitzt also eine UMA (uniform memory archtiecture) oder "flache" Speicherarchitektur.

 

 

 

 


Sun Microsystems UltraSPARC T2 Prozessor

Im Jahr 2007 stellt die Firma Sun Microsystems den Nachfolgeprozessor des UltraSPARC T1, Entwicklungs-Codename "Niagara 2" vor. Der Prozessor besitzt intern bis zu acht Rechenkerne (processor cores), die selbst jeweils simultan acht sog. leichtgewichtige Prozesse (threads) ausführen können. D.h. innerhalb des Prozessors können 64 Prozesse auf den acht 8-stufigen Integer-Pipelines sowie acht 12-stufigen Fließkomma-Pipelines gleichzeitig abgearbeitet werden. Ziel ist es dabei, auftretende Wartezeiten, bis die Daten aus dem Speicher geladen worden sind, durch rechenbereite threads auszunutzen. So sollen mehr als die bei konventionellen Prozessoren für Anwendungen üblichen 5% der theoretischen Spitzenleistung erreicht werden. Zum Tragen kommt dies insbesondere bei Applikationen, die nicht zum großen Teil im Cache laufen können, sondern auf "langsame" Speicherzugriffe angewiesen sind.

Jeder der Prozessor-Cores besitzt einen eigenen Instuktions- und Daten-Cache und kann über einen internen Daten-Crossbar über einen gemeinsamen L2-Cache auf den gemeinsamen Speicher zugreifen, besitzt also eine UMA (uniform memory archtiecture) oder "flache" Speicherarchitektur. Ein einzelner Prozess erreicht max. 1,4 GFlops. Da ein Core nur zwei Fließkommaerebnisse pro Takt generieren kann, hat der Prozessor somit nur eine moderate Spitzenleistung von 11,2 GFlops. Seine Leistungsfähigkeit spielt der Niagara 2 dann aus, wenn viele threads aktiv sind und die enorme Bandbreite von über 60 GByte/s zum Speicher genutzt werden kann. Eine weitere Besonderheit des Niagara 2 ist, dass zwei 10/1 Gbit-Ethernet (bis 3,125 Gb/s), sowie ein PCI-Express x8 1.0A Port (2,5 Gb/s) "on Chip" untergebracht wurden.

 

Prozessor

Ultra SPARC T2 (Niagara2)

Hersteller

Texas Instruments

Architektur

SPARC V9

Adessraum

48-bit virtual, 40-bit physikalisch

Cores

8 cores mit jeweils 8 threads

Pipelines

2 Instructions-Pipelines,
8 jeweils 8-stufige Integer-Rechenwerke, sowie 8 jeweils 12-stufige Fließkomma-Rechenwerke, wobei 8 threads eine Pipeline gleichzeitig nutzen können,
1 Cryptographsche Processing Unit.

Taktfrequenz

1,2 GHz bis 1.4 GHz

L1 Cache
(pro Core):

16 KByte Instruction, 8 KB data cache
(jeweils 8-way set-assoziativ)

L2 Cache

4 MByte on chip
16-way assoziativ, 8 Bänke à 512 kByte

Memory Controller

Bis zu 64 FB-DIMMs, 4 dual-channel FB-DIMM Memory Controller
Bandbreite: 60 GB/s

Crossbar

8x9 non-blocking,
pro Kanal ca. 90 GB/s write und ca. 180 GB/s read

Technologie

CMOS, 65 nm
Die-Größe 342 mm2
Transistoren: 503 Millionen
Gehäuse: 1831 Pins

Leistungs-
aufnahme

95 Watt nominal, 123 Watt max. bei 1.4 GHz
Spannung: 1,2 V (Core), 1,5 V (Analog)

weiteres

on Chip:
zwei 10/1 Gbit-Ethernet (bis 3,125 Gb/s)
ein PCI-Express x8 1.0A Port (2,5 Gb/s)


Xeon basierter HPC-Cluster (Hersteller: Fujitsu Siemens)

 Im Januar 2008 wird im RZ ein Cluster bestehend aus 270 Rechenknoten des Typs RX200 S4/X installiert, die mit einem leistungsstarken InfiniBand Netzwerk der Firma Cisco verbunden sind. Hersteller der Rechner ist die Firma Fujitsu Siemens. Das System wurde von der Stuttgarter Firma Unicorner geliefert. Jeder der Knoten besitzt zwei Xeon Quadcore-Prozessoren E5450 von Intel. Insgesamt stehen somit über 2.100 sehr leistungsstarke Rechencores zur Verfügung. Betrieben werden die Systeme unter den Betriebssystemen Linux (Scientific Linux) und Windows HPC Server 2003/2008.

In einem mit einem Pre Release des Betriebssystems Windows HPC Server 2008 durchgeführten Benchmarklauf wurde bei der Lösung eines linearen Gleichungssystem mit 681.984 Unbekannten eine Rechenleistung von über 18 Teraflops (Linpack Benchmark) erreicht.

Bestandteil des HPC-Systems sind Rechner von Instituten und Exellenzclustern der RWTH, die im Rahmen des integrativen Hostingkonzeptes im HPC-Cluster vom RZ mit betrieben werden, aber den Instituten gehören und auch von diesen genutzt werden.

 

 

Leistungsdaten:

  • Prozessoren: Intel Xeon E5450 Quadcore, Taktung 3 GHz, Stromaufnahme 80 Watt
  • theoretische Leistung: 96 Gflops pro System, 25,8 TeraFlops aggregiert
  • Speicher:   16 Gbyte pro System, 4,3 Terabyte aggregiert.
  • Interconnect: Double data rate (DDR) InfiniBand über einen konfliktfreien 288-Port Switch

Cluster aus Niagara 2-basierenden Systemen (Hersteller: Sun Microsystems)

Im Februar 2008 werden im RZ zwanzig mit jeweils einem Niagara 2-Prozessor bestückte Systeme T5120 der Firma Sun Microsystems installiert.

Die Prozessoren haben eine Taktung von 1,4 GHz. Jedes System besitzt 32 GByte Speicher. Aus Anwendersicht sehen die Maschinen wie 64-fach Parallelsysteme aus. Im normalen Betrieb saturieren die Hauptkomponenten, die arithmetische Pipelines in den 8 cores und der Speicherpfad vom gemeinsamen Cache zum Memory, bei zwischen 32 und 64 gleichzeitig laufenden Prozessen.

Die Rechner werden unter dem Betriebssystem Solaris betrieben und ersetzen die älteren UltraSPARC IV basierten Sun Fire 6900 Systeme.

 

 


Entwicklung der Mikroprozessoren seit 1972

Seit dem ersten funktionsfähigen Mikroprozessor, dem Intel 4004 mit einer Rechenleistung von ca. 60.000 Operationen (nicht Flops, da diese Prozessoren noch keine Arithmetikeinheit hatten) pro Sekunde, hat sich die Rechenleistung auf ca. 50 GigaFlops erhöht. Die Anzahl der Transitoren pro Chip hat sich in der Zeit um etwa den Faktor 223.000 erhöht (von 2.250 auf 500.000.000 Transitoren beim 8-core UltraSPARC T2).


HPC-Cluster unter Windows auf Platz 100 in der TOP500-Liste vom Juni 2008

Der am Anfang des Jahres im RZ  installierte HPC-Cluster von Fujitsu-Siemens ist in der Ausgabe Juni 2008 der TOP500-Liste auf Platz  einhundert der schnellsten Rechnern der Welt verzeichnet.  256 Zweiprozessor-Knoten, zusammen 512 Intel Xeon Quad-Core Prozessoren mit einer Taktung von 3 GHz, erreichten bei der Lösung eines dicht besetzten Gleichungssystems (Linpack-Benchmark) mit 681.984 Unbekannten 18,81 Teraflops. Die theoretisch erreichbare Leistung der dabei verwendeten 256 Knoten des Clusters beträgt 24,58 Teraflops.

Der Benchmark wurde vom RZ unter Mithilfe von Microsoft unter einer Vorabversion des Betriebssystesm Windows HPC 2008 durchgeführt. Windows HPC 2008 hat somit unter Beweis gestellt, dass es bezüglich Performance mit den gängigen und im HPC-Bereich etablierten  Unix-Betriebssystemen durchaus mithalten kann.

Unter den ersten einhundert TOP500-Einträgen  befinden sich in Summe drei unter Windows betriebene Systeme mit Intel-Prozessoren.

  • Keine Stichwörter