Jeff Barr, Chief Evangelist w Amazon Web Services w swoim najnowszym artykule przekonuje, że warto budować wirtualne superkomputery w chmurze służące do obsługi wysokowydajnych systemów obliczeniowych HPC (high performance computing). Jako przykład podaje klienta AWS, firmę Descartes Labs, która współpracując z AWS wykorzystuje moce obliczeniowe HPC z chmury do obsługi olbrzymiej ilości danych, które pochodzą z czujników rozmieszczonych na ziemi, w wodzie i w przestrzeni kosmicznej. Firma od początku działa w chmurze i skupia się na aplikacjach geoprzestrzennych, które często obejmują petabajty danych.

Prognozowanie pogody, sekwencjonowanie genomu, geoanalityka, obliczeniowa dynamika płynów (CFD) i inne rodzaje zastosowań systemów HPC mogą wykorzystywać ogromne moce obliczeniowe. Tego typu obliczenia są często bardzo złożone i równoległe, a ponadto są wykorzystywane w sytuacjach, w których czas uzyskania wyników jest kluczowy.

(źr. AWS)

Rządy, organizacje badawcze dysponujące dużymi środkami finansowymi oraz firmy z listy Fortune 500 inwestują dziesiątki milionów dolarów w superkomputery, starając się uzyskać przewagę nad konkurencją. Budowa superkomputera klasy state-of-the-art wymaga specjalistycznej wiedzy, lat planowania i długoterminowego zaangażowania w projektowanie i wdrażanie odpowiedniej infrastruktury. Po zbudowaniu superkomputer musi być stale używany, aby inwestycja była uzasadniona. Zwiększanie mocy obliczeniowej i korzystanie z nowych technologii jest kosztowne i może być uciążliwe.

Chief Evangelist AWS argumentuje, że zamiast angażować dziesiątki milionów dolarów w ciągu dekady lub dłużej, można pozyskać potrzebne zasoby obliczeniowe z chmury wedle aktualnego zapotrzebowania. Nie trzeba też podejmować dziesięcioletnich zobowiązań wobec jednej architektury procesora i można łatwo zaadaptować nową technologię, gdy staje się ona dostępna. Można przeprowadzać eksperymenty w dowolnej skali bez długoterminowych zobowiązań i zdobywać doświadczenie w zakresie nowych technologii, takich jak procesory graficzne i specjalistyczny sprzęt do szkolenia i wnioskowania w dziedzinie uczenia maszynowego (ML – machine learning).

Superkomputer z chmury na 40. miejscu w Top500

Mike Warren, CTO i współzałożyciel Descartes Labs, uważa, żeby nigdy nie być ograniczonym przez moc obliczeniową. Na początku swojej kariery Mike pracował nad symulacjami wszechświata i zbudował wiele klastrów i superkomputerów, w tym Loki, Avalon i Space Simulator.

Po przejściu na emeryturę z Los Alamos National Lab, Mike został współzałożycielem Descartes Labs. W 2019 r. Descartes Labs wykorzystując rozwiązania AWS dostarczyło moc obliczeniową na poziomie 1,93 PFLOPS, lądując na 136 pozycji na liście TOP500 superkomputerów w czerwcu 2019 r. Wykorzystano wówczas serwery tworzące klaster o wielkości 41,472 rdzeni.

Po sukcesie tego przedsięwzięcia, Mike i jego zespół zdecydowali się na pracę nad jeszcze większym projektem w 2021 roku, z celem 7,5 PFLOPS. Współpracując z zespołem AWS EC2, uzyskali rezerwację pojemności EC2 On-Demand na okres 48 godzin na początku czerwca br. Po kilku “małych” próbach, podczas których wykorzystano tylko 1024 instancje naraz, byli gotowi do działania. Ostatecznie uruchomili 4096 instancji EC2 (C5, C5d, R5, R5d, M5 i M5d) z łączną liczbą 172 692 rdzeni. Ten wynik pozwolił na zajęcie Amazon EC2 Instance Cluster us-east-1a 40. pozycji na liście TOP500 wg stanu z czerwca 2021 r. i oznacza 417-proc. wzrost wydajności w ciągu zaledwie dwóch lat.

(grafika tytułowa źr. Pixabay)

Napisane przez Stefan Kaczmarek