Werbung

Direktor des schnellsten Supercomputers der Welt erklärt, wie sie es gemacht haben

Willkommen in der Zukunft der Computer.

Der Frontier-Supercomputer. OLCF bei ORNL

Der schnellste Supercomputer der Welt – Frontier genannt – saust in einem nationalen Labor in den Ausläufern von East Tennessee herum. Es ist die einzige Maschine der Welt, die jemals gezeigt hat, dass sie mehr als eine Quintillion das sind 1.000.000.000.000.000.000 Berechnungen pro Person durchführen kannzweitens. In der Sprache der Informatik nennt man das einen Exaflop.

Projektleiter von Frontier, Justin Whitt, erzählt IEdass er das Ausmaß der Leistung seines Teams am liebsten erklärt, indem er sich vorstellt, ob jeder einzelne Mensch auf der Erde einen Stift und Papier zücken und pro Sekunde eine einfache Rechenaufgabe lösen könnte. Wenn alle 7,8 Milliarden von uns Tag und Nacht arbeiten würden,Es würde vier Jahre dauern, um die Menge an Berechnungen durchzuführen, die Frontier in einer einzigen Sekunde ausführen kann.

Whitt begann seine Karriere als Fluiddynamiker: „Mein Hauptinteresse an Supercomputern bestand darin, sie zu verwenden, um schwierige Probleme der Fluiddynamik zu lösen, um Dinge wie Flugzeuge und Windturbinen zu entwerfen.“ Er kam 2009 zum Oak Ridge National Lab, um an Kraken zu arbeiten.der einst der drittschnellste Supercomputer der Welt war. 2018 wurde er für die Leitung des Frontier-Projekts gewonnen.

Interessante Technik | wissenschaft-x.com hat sich kürzlich mit Whitt zusammengesetzt, um mehr über Frontier zu erfahren und die Geschichte hinter dem schnellsten Computer der Welt zu erfahren.

Dieses Interview wurde aus Gründen der Länge und Klarheit bearbeitet.

IE: Ist ein Supercomputer nur ein wirklich großer Computer? Wo sind die charakteristischen Merkmale, die einen Supercomputer qualitativ anders machen?

Whitt: In gewisser Weise ja, Supercomputer sind sehr ähnlich zu normalen Computern wie Ihrem Desktop oder Laptop. Er hat viele gleiche oder ähnliche Komponenten.

Ein Supercomputer hat viele, viele zentrale Verarbeitungseinheiten und viele, viele grafische Verarbeitungseinheiten. Mit Frontier segmentieren wir dieses System in Knoten. Es gibt etwa 9.400 Knoten im Frontier-System. Jeder dieser Knoten hat eine zentrale Verarbeitungseinheit eine CPU und vier grafische Verarbeitungseinheiten das sind GPUs. Dieser Knoten ist also bereits viel leistungsfähiger als ein typischer Laptop oder Desktop.

Werbung

Weitere Updates zu dieser Geschichte und mehr mit Die Blaupause, unser täglicher Newsletter: Hier kostenlos anmelden.

Aber dann begannen sich die Unterschiede wirklich zu verschärfen, weil jeder dieser Knoten – jede Komponente auf dieser Platine – in der Lage sein muss, mit jeder anderen Komponente im System zu kommunizieren, denn im Grunde schreiben Sie Software, die ausgeht und all dies nutztHardware gleichzeitig, um ihre Berechnungen durchzuführen. Um die Dinge synchron zu halten, muss jede dieser Komponenten mit jeder anderen Komponente im System kommunizieren. Sie sind alle mit einem Hochgeschwindigkeitsnetzwerk verbunden. Das ist etwas, was ein typischer Computer tutnicht.

Wenn Sie an Computer denken, denken Sie normalerweise: "Nun, er hat eine Festplatte." Unser Computer hat keine Festplatte. Alle Daten werden auf ein separates Hochgeschwindigkeitsspeichersystem geschrieben, das ebenfalls angeschlossen istdieses Hochgeschwindigkeitsnetz.

Werbung

IE: Was ist die Verbindung zwischen den einfachen mathematischen Gleichungen, die die Maschine so schnell ausführt, und den Programmen, die sie für Wissenschaftler ausführt?

Whitt: Unabhängig von der Anwendung – ob Sie über die Modellierung und Simulation verschiedener physikalischer Phänomene sprechen oder über verschiedene Techniken für maschinelles Lernen oder für KI – die meisten dieser Programme beinhalten das Multiplizieren von Matrizen, insbesondere bei der Modellierung undSimulationsseite.

Im Grunde modellieren und simulieren Sie Gleichungssysteme. In einem Computer stellen Sie diese als diese sehr großen Matrizen dar. Wenn Sie Matrizen lösen, müssen Sie am Ende eine Matrix mit einer anderen multiplizieren. Viele derArbeit am System, diese Operationen pro Sekunde, durchlaufen und multiplizieren eine Matrix mit einer anderen. Wir leben und atmen lineare Algebra.

Werbung

IE: Wie hat Frontier angefangen?

Whitt: Computerprojekte des Energieministeriums beginnen mit der Feststellung, dass ein Bedarf an einem neuen Computer besteht. Sie sehen sich also an, was die Wissenschaftler und Ingenieure an den aktuellen Systemen tun. Es ist ein sehr formeller Prozess, bei dem das DOE ein Leitbild schreibtdas sagte "in diesem Zeitrahmen brauchen wir so viele und so viel mehr Rechenleistung."

Das geschah im Jahr 2018. Von da an fangen Sie an zu definieren, wie das aussieht und wie Sie es erfüllen. Was sind die verschiedenen Möglichkeiten, wie Sie dieses Bedürfnis erfüllen können, und was muss getan werden, um dies zu erreichen?

IE: Sobald das Ziel gesetzt ist, wie beginnt man mit dem Aufbau von etwas, das noch nie zuvor existiert hat?

Werbung

Whitt: Sie unterteilen es in viele wirklich große Schritte und diese dann in kleinere Schritte. Im Grunde finden Sie heraus, welche Experten Sie brauchen und auf welche Ressourcen Sie zurückgreifen können.

Zum Beispiel denken Sie vielleicht nicht, dass die Bereitstellung eines Supercomputers einen enormen Bauaufwand erfordert, aber bei Frontier war dies der Fall, da zur Erfüllung dieser Mission zusätzliche Strom- und Kühlinfrastruktur in das Rechenzentrum gebracht werden musste, in dem der Computer stehen würde. Also,Wir haben zusätzliche 30 Megawatt elektrische Leistung und 40 Megawatt Kühlleistung in das Gebäude gebracht, nur um das Frontier-System unterbringen zu können. All das begann später im Jahr 2018.

Ungefähr zur gleichen Zeit wie die Bautätigkeiten begannen wir mit verschiedenen wissenschaftlichen Teams zusammenzuarbeiten, um sicherzustellen, dass ihre Anwendungen – ihr wissenschaftlicher Code oder ihre wissenschaftliche Software – bereit waren, auf das System zu gehen, wenn es hier ankommt. Wir haben uns viel Mühe gegebenmit den wissenschaftlichen Teams zusammenzuarbeiten – sie mit Technologien zu versorgen, auf die sie ihre Anwendungen portieren können – um am ersten Tag des Betriebs bereit zu sein, echte Wissenschaft auf der Maschine zu betreiben. Zu diesem Zeitpunkt sind wir etwas mehr als drei Jahre altin das Projekt.

Werbung

IE: Was hat Ihr Team sonst noch getan, um den Start von Frontier vorzubereiten?

Whitt: Wir haben das Rechenzentrum renoviert. Wir haben unsere interne Infrastruktur gehärtet und darauf vorbereitet, den Computer anzuschließen, wenn er hier ankommt. Und dann haben wir mit dem Anbieter zusammengearbeitet, um das zu entwerfen und zu prototypisierenTechnologien für das System und testen Sie diese unterwegs.

IE: Welche Rolle spielen Anbieter in einem Projekt wie diesem?

Whitt: Diese Projekte werden normalerweise als öffentlich-private Partnerschaften durchgeführt. In diesem Fall haben wir uns nach einem Ausschreibungsverfahren für den Bau des Systems für Hewlett Packard Enterprise und seinen Subunternehmer Advanced Micro Devices AMD für die Zusammenarbeit entschieden. Hewlett Packard Enterpriseist für den Bau des Computers selbst verantwortlich, und AMD ist für die Herstellung der verschiedenen Prozessoren verantwortlich, die in den Computer eingebaut werden.

Werbung

Sie haben jeweils ihre Ingenieure, die an Entwürfen und Prototypen arbeiten, wir haben Materialexperten auf unserer Seite, die in einem Co-Design-Prozess mit ihnen zusammenarbeiten. Durch einen Prozess, der als einmaliges Engineering bezeichnet wird, können wir 'Wir bekommen Prototypen, wir testen sie, wir evaluieren sie und geben Feedback und Designänderungen währenddessen.

IE: Wie war es für Sie zu sehen, wie dieses Projekt von Papierkram zu einem Loch im Boden zum schnellsten Supercomputer der Welt wurde?

Whitt: Es war beeindruckend, es war unglaublich, ein Teil davon zu sein. Es kommt einem Mondschuss am nächsten, an dem ich je beteiligt war. Als wir anfingen, hatten wir nicht die Technologien. Wir hattendie Ziele, und wir begannen mit dem Aufbau. Am Anfang ist nicht klar, wie man zu diesem Endpunkt kommt, aber es braucht eine enorme Anzahl wirklich talentierter Leute, um es zu schaffen.

Ich denke nur an den Angebotsauswahlprozess zurück. Wir sagten, basierend auf den Anforderungen der Mission, dass dies die Art von Computer ist, die wir bauen, und diese Art von Dingen, die wir brauchen. Anbieter aus den ganzen USA kamen herein undsagte: „Nun, wir könnten diese Art von Computer bauen, wir könnten diese Art von Computer bauen." Wir mussten dann all diese hochtechnischen, hochkomplexen Angebote bewerten. Allein für dieses Treffen haben wir etwa 150 Fachexperten hinzugezogenaus dem gesamten Department of Energy-Komplex – aus sechs anderen DOE-Laboren –, um uns bei der Bewertung verschiedener Teile des Systems zu helfen und eine Empfehlung für den besten Weg nach vorne zu gebenOrte der Welt.

Dann hat jeder der Anbieter Armeen von Ingenieuren, die an verschiedenen Teilen des Systems arbeiten. Wir haben über 100 Leute im Oak Ridge National Lab, die an dem System arbeiten. Es erfordert einen enormen Aufwand und einen enormen Aufwandviele verschiedene, talentierte Leute, die diese Dinge durchziehen. Wenn Sie sich zurücklehnen und darüber nachdenken und anfangen, all die Leute zu zählen, die Teil des Systems waren, ist es wirklich eine atemberaubende Erfahrung.

IE: Wie verwaltet man ein so großes Projekt mit so vielen beteiligten Personen?

Whitt: Wir verwenden viele ziemlich standardmäßige Systementwicklungs- und Projektmanagementergebnisse. Wir verwenden Earned Value Management, um den Fortschritt des Projekts zu verfolgen, aber es kommt wirklich darauf an, die Komplexität zu managen. Es gibt viele verschiedene Dinge, die wir tunum die Komplexität zu bewältigen, wie diese Investitionen in ausgereifte Technologien zu tätigen und währenddessen zu bewerten. Das ist eine Möglichkeit, unsere komplexitätsbezogenen Risiken für das Projekt zu reduzieren.

Man könnte viele unserer unterschiedlichen Methoden als „früh scheitern“ zusammenfassen. Wenn Sie so viel Komplexität haben, müssen Sie so schnell wie möglich Ihren wahren Weg eingrenzen. Sie wollen also an jeder Front Dinge vorantreibenso früh wie möglich zu scheitern. Sie möchten diese Investitionen tätigen und diese Technologie so früh wie möglich bewerten lassen, um zu sehen, ob sie ausreicht oder nicht. Und das ist eines der Mantras, unter denen wir arbeiten: früh scheitern, früh anfangen.

IE: Können Sie mehr über diese Mentalität des frühen Scheiterns sagen?

Whitt: Wenn Sie mit diesen Systemen anfangen, sind sie so sexy wie nie zuvor, weil sie nur auf einer PowerPoint-Folie existieren – und sie sehen fantastisch aus. Viele, viele Komponenten, die zum Bau dieses Systems verwendet werden, sind Teile mit der Seriennummer eins. Sie sind die ersten Teile, die je hergestellt wurden und direkt von den Fließbändern kommen aus Technologien, die es nicht gibt wenn Sie anfangen. Auf der Softwareseite ist es dasselbe. Viele Ihrer Softwaretechnologien existieren nicht.

Die Systeme, die sie am Anfang vorschlagen, sind diese fantastischen Dinge, die all diese verschiedenen Grenzen überschreiten. Das merkt man nie ganz, wenn man Systeme dieser Größe und Komplexität einsetzt. Also sagen wir zum Beispiel bei unseren Investitionen, okay, das sind die Schlüsseltechnologien, die geschehen müssen, damit wir ein System haben, mit dem Forscher ihre Wissenschaft durchführen können, und wir investieren in diese Technologien, bringen sie im Grunde so früh wie möglich voran und richten Evaluierungen einder Weg.

Also im Grunde, wenn eine dieser Technologien ausfallen wird – wenn es nicht funktionieren wird – dann wissen wir es so schnell wie möglich, und wir haben die Möglichkeit, eine andere Technologie zu untersuchen oder eine Art Notfallplan zu erstellen.

IE: Könnten Sie ein Beispiel für eine Hardware in der Maschine geben, die nicht existierte, als Sie anfingen?

Whitt: Weder die CPU noch die GPUs, die sie im System verwenden, existierten. Diese wurden mehrere Jahre nach der eigentlichen Herstellung geplant. Das Hochgeschwindigkeitsnetzwerk verfügt im Wesentlichen über Netzwerksteckkarten auf der Platine und über Switches im System.Keines dieser Dinge existierte. Die Software für die Hochgeschwindigkeitsnetzwerk existierte nicht. All diese Dinge mussten im Laufe der Zeit erstellt werden.

Die Schränke, in denen all diese Komponenten untergebracht sind, existierten nicht. Sie haben ungefähr die Größe eines Kühlschranks, wir nennen sie Schränke, und sie sind mit Computerhardware gefüllt. Diese Schränke enthalten, wie Sie den Strom an alle verteilenverschiedene Computerkomponenten. Sie enthalten auch, wie Sie die Kühlung auf diese Computerkomponenten verteilen. Damit wir Computer so dicht bauen können, wie wir es tun, müssen Sie auf Platinenebene kühlen. Diese Gehäuse selbst sind also unglaublich komplex.Als wir anfingen, gab es die auch noch nicht. Sie mussten im Laufe der Zeit entwickelt und verfeinert werden.

IE: Dieses System muss eine enorme Menge an Wärme erzeugen. Können Sie das Kühlsystem erklären?

Whitt: Wir haben 40 Megawatt kühles Wasser, mit dem wir die Wärme aus dem System zurückholen. Das System verbraucht etwa 29 Megawatt Strom. Wenn Sie so viel Strom verbrauchen, müssen Sie so viel Wärme zurückbekommenaus, im Grunde. Es ist alles fertig mit Kühltürme, was es zu einem supereffizienten Rechenzentrum macht. Wir gehen davon aus, dass unsere Energieverbrauchseffizienz bei etwa 1,03 liegen wird, was es mit einigen der effizientesten Rechenzentren der Nation aufnehmen wird. Aber in diesem Zentrum, Siehaben Kühltürme, die an massive Pumpen und massive Wärmetauscher angeschlossen sind, die etwa 6.000 bis 10.000 Gallonen Wasser pro Minute zum System zirkulieren lassen, um diese Wärme wieder herauszuholen.

IE: Jetzt, da Frontier in Betrieb ist, für welche Art von Wissenschaft wird es verwendet werden?

Whitt: Als Department of Energy Lab konzentrieren wir uns natürlich auf Materialien und Energie. Sie werden viel Forschung betreiben müssen, um neue Materialien, neue Energiequellen, neue Energiespeichergeräte und dergleichen zu identifizierenDinge.

Wir haben auch ziemlich viel Arbeit im Gesundheitsbereich, einschließlich viel Forschung in der Wirkstoffforschung und Behandlungswirksamkeit. Wir machen viel Protein-Docking und andere Dinge, die wichtig sind für Arzneimittelentdeckung auf dem System, aber es ist wirklich eine breite Palette von Anwendungsbereichen.

Wir haben mit dem Ziel gearbeitet, am ersten Tag 24 verschiedene wissenschaftliche Anwendungen für die Nutzung des Systems bereit zu haben, und diese umfassen ein wirklich breites Spektrum verschiedener Wissenschaftsbereiche.

Folgen Sie uns auf

ERHALTEN SIE IHRE TÄGLICHEN NACHRICHTEN DIREKT IN IHREM INBOX

Bleiben Sie kostenlos mit den neuesten Nachrichten aus Wissenschaft, Technologie und Innovation auf dem Laufenden :

Durch das Abonnieren stimmen Sie unseren zuNutzungsbedingungen und Datenschutzerklärung. Sie können sich jederzeit abmelden.