Luka Gerzić: “HPC odlučuje o vremenskoj prognozi, vazduhu koji udišemo, bezbednosti vozila…“

Šta povezuje klimatske modele, personalizovanu medicinu, bezbednost vozila i veštačku inteligenciju? Odgovor je u tri slova koja malo ko razume, a sve češće odlučuju o tome kako izgleda naš svet – HPC, odnosno High Performance Computing.

16
Luka Gerzić: “HPC odlučuje o vremenskoj prognozi, vazduhu koji udišemo, bezbednosti vozila…“
- Sponzor članka -hikvision srbija

Visokoperformansko računarstvo, nekada rezervisano isključivo za naučne laboratorije i svemirske agencije, danas je osnova brojnih ključnih sistema – od zdravstva, energetike i finansija, pa sve do nacionalne bezbednosti. Ipak, uprkos globalnom značaju, ova oblast i dalje ostaje široj javnosti nekako nevidljiva, nejasna i često pogrešno shvaćena.

Upravo zato, razgovarali smo sa Lukom Gerzićem, HPC inženjerom kompanije ClusterVision, jednim od retkih stručnjaka iz regiona koji svakodnevno radi na projektovanju i implementaciji najnaprednijih superračunarskih sistema.

Ko je Luka Gerzić i šta znači biti HPC inženjer? Kako izgleda rad sa sistemima koji imaju desetine hiljada procesora i troše više struje nego manji grad? Da li su ovakvi sistemi bezbedni? I zašto bi svi mi – i kao građani, i kao stručnjaci – morali da znamo više o tehnologiji koja stoji iza svega, od vremenske prognoze do razvoja novih lekova?

Na ova i mnoga druga pitanja odgovara nam Luka Gerzić, i za SecuritySEE otkriva kako visokoperformansko računarstvo tiho, ali suštinski, menja naš svet.

1. Luka, vi radite u veoma specifičnoj i visokotehnološkoj oblasti, možete li nam ukratko približiti šta podrazumeva vaša uloga HPC inženjera?

Moja uloga HPC inženjera podrazumeva projektovanje, implementaciju i optimizaciju visokoperformansnih računarskih sistema koji se koriste za najzahtevnije naučne i istraživačke projekte.

Konkretno, bavim se arhitekturalnim dizajnom, što podrazumeva da projektujem kompleksne klaster sisteme sa desetinama hiljada procesorskih jezgara, GPU-ova i specijalizovanih akceleratora, uzimajući u obzir mrežnu topologiju, memorijsku hijerarhiju i skladištenje podataka. Optimizacijom performansi postižem poboljšanje efikasnosti paralelnih aplikacija, od raznih vrsta simulacija do mašinskog učenja, kako bi se pravilno i maksimalno iskoristili resursi sistema. Sistemskim inženjeringom, gde integrišem složene komponente kao što su InfiniBand mreže, Ceph i slični sistemi za čuvanje podataka, upravljam heterogenim okruženjima koja kombinuju različite arhitekture.

HPC je oblast gde se susreću najnaprednije tehnologije, od kvantnih simulacija do veštačke inteligencije, gde svaki procenat poboljšanja performansi može značiti razliku između mogućeg i nemogućeg naučnog otkrića.

2. Šta je zapravo HPC i u kojim sve oblastima danas ima ključnu primenu?

HPC (High Performance Computing) predstavlja korišćenje paralelnih računarskih tehnika za rešavanje najkompleksnijih računskih problema koji prevazilaze mogućnosti standardnih računara. Suštinski, HPC karakteriše masivno paralelno procesiranje hiljade do miliona procesorskih jezgara koji rade simultano na istom problemu u isto vreme, uz komunikaciju visokih performansi kroz specijalizovane mreže podataka, kao što su InfiniBand-i i petabajti podataka, koji se generišu i skladište sa izuzetno visokim brzinama pristupa.

01_nvidia_hpc_gpuNeke od ključnih oblasti primene danas su klimatske nauke i globalni klimatski modeli koji predviđaju vremenske promene, zahtevaju simulacije atmosfere tokom decenija. Medicina i farmacija, molekularne simulacije za dizajn lekova, analiza genoma, itd. Veštačka inteligencija, treniranje velikih jezičkih modela, kao što su npr. poznati GPT modeli, zahtevaju desetine hiljada GPU-ova i u nekim slučajevima više meseci besprekidnog rada. Inženjerstvo, aerodinamičke simulacije za avione, crash testovi vozila, simulacije nuklearnih reaktora, sve to zahteva rešavanje veoma složenih jednačina i analizu velike količine podataka. Takođe i kvantna fizika, simulacije kvantnih sistema, neophodnih za razvoj kvantnih računara i novih materijala. Finansije, različite analize stanja finansijskih tokova, analiza rizika, visokofrekventno trgovanje, i drugo.

HPC omogućava naučnicima i istraživačima da postavljaju pitanja na koja bez ovih tehnologija jednostavno ne bi bio moguć odgovor za tako kratak period.

3. Da li postoji pogrešna percepcija ili nedovoljno razumevanje ove oblasti kod šire publike – posebno u našem regionu?

Definitivno postoji nerazumevanje HPC oblasti, a posebno u našem regionu, što proizlazi iz nekoliko faktora. Najčešći faktor je pogrešna percepcija:

„To je samo brži kompjuter“ – ljudi često misle da je HPC jednostavno veći ili snažniji desktop računar, a ne razumeju da je to potpuno drugačija paradigma računanja, gde algoritmi moraju biti konceptualno razvijeni da iskoriste paralelizam i HPC infrastrukturu.

„Potrebno je samo programerima“ – ne razumeju da HPC direktno utiče na njihov svakodnevni život kroz vremenske prognoze, razvoj lekova, bezbednost vozila i druge vidove svakodnevnog života.

„Previše je skupo i komplikovano“ – postoji strah od investicija, iako povraćaj investicija može biti ogroman. Jedan dan simulacije može zameniti mesece eksperimenata.

Pored pogrešne percepcije, posebno bih istakao da u našem regionu najveći problem predstavlja ograničen pristup. Mali broj institucija i kompanija ima ozbiljne HPC resurse, pa mladi istraživači i inženjeri nemaju priliku da se susretnu sa ovim tehnologijama i steknu potrebno iskustvo.

Kao drugi problem bih istakao kratkoročno razmišljanje, fokus je često postavljen na brze rezultate umesto na fundamentalne infrastrukturne investicije koje donose dugoročne rezultate.

Kao treći problem bih naveo da najveći deo električne energije Srbija dobija iz uglja i to >60%, što doprinosi globalnom zagrevanju, utiče na kvalitet vazduha, zagađuje zemljište i vodotokove. HPC sistemi koriste veliku količinu električne energije, i fokus bi trebao da bude na korišćenju obnovljivih izvora energije. Srbija treba da izvrši dugoročno planiranje i tranziciju sa lignita na druge ekološki prihvatljive izvore energije.

Mislim da bi trebalo investirati i u problem nedostatka edukacije, u smislu da na fakultetima treba posvetiti posebnu pažnju HPC sistemima i njihovim mogućnostima. Osnovno pitanje koje bi trebalo postaviti: koji problem HPC infrastruktura može da reši za vas?

Pozitivna strana: vidim rastući interes, posebno oko ML/AI tehnologija. Univerziteti u Beogradu, Zagrebu i Ljubljani polako investiraju u HPC infrastrukturu. Ključno je povezivanje sa evropskim inicijativama kao što je EuroHPC JU (The European High Performance Computing Joint Undertaking) kako bi se omogućio pristup svetskim resursima i znanju. Srbija je već javni član ovog sistema iako naša zemlja nije članica EU.

4. Koliko je bezbednost važan aspekt u radu sa HPC sistemima, i kako se obezbeđuje integritet i poverljivost podataka u ovim kompleksnim arhitekturama?

Bezbednost je jedan od kritičnih aspekata HPC sistema, jer radimo sa najvrednjim institucionalnim podacima, od medicinskih istraživanja do državnih klasifikovanih projekata. Kompleksnost bezbednosnih izazova je široka. Pre svega bih izdvojio korisničko okruženje: desetine ili stotine različitih istraživača sa različitim nivoima bezbednosne svesti pristupaju deljenim resursima. Taj problem je posebno istaknut na većini univerziteta, kao i u nekim kompanijama. Zatim heterogena arhitektura, jer nekad kombinujemo različite vrste aplikacija i/ili hardverskih komponenata, što automatski stvara kompleksne bezbednosne zavisnosti.

Nabrojao bih nekoliko različitih pristupa rešavanju problema zaštite ovih složenih sistema. Mrežna segmentacija, što podrazumeva izdvojene mreže za upravljanje, računanje i skladištenje. Koristimo specijalne VPN-ove i “jump” servere za administrativni pristup. Kriptografija i end-to-end enkripcija podataka, kako u mirovanju tako i u tranzitu. Sva komunikacija između udaljenih čvorova koristi kriptovane kanale. Kontrola pristupa, gde implementiramo restriktivan RBAC (Role-Based Access Control) sa multi-faktor autentifikacijom i specijalnim hardverskim ključevima. Korisnici mogu pristupiti samo svojim podacima i dodeljenim resursima. Monitoring i revizije sistema, kontinuirano praćenje svih aktivnosti, algoritmi za detekciju anomalija, i detaljno logovanje svih operacija. Izolovana okruženja, kontejnerizacija aplikacija i sandbox izvršavanje za dodatnu izolaciju. Fizička bezbednost, data centri sa biometrijskim pristupom, redundantnim sistemima napajanja i hlađenja.

5. Koji su potencijalni bezbednosni rizici kada se radi sa velikim količinama podataka i distribuiranim procesima?

U vezi sa radom s velikim količinama podataka i distribuiranim procesima u HPC okruženjima postoji nekoliko kritičnih bezbednosnih rizika koje treba imati na umu. Neovlašćeni pristup podacima je posebno osetljiva stavka kod akademskih i istraživačkih podataka, koji mogu biti zakonodavno kontrolisani ili sadržavati lične informacije. Zatim, curenje podataka između procesa. Na sistemima koji dele memoriju u nekim slučajevima može doći do nenamerne razmene podataka između različitih korisnika i/ili aplikacija. Tu je i neadekvatno brisanje podataka, jer u slučaju privremenih podataka na tzv. scratch disk sistemima podaci često mogu ostati dostupni nakon završenog posla. Zatim imamo klasične eskalacije privilegija, gde zlonamerni korisnici sistema mogu da pokušaju da dobiju veće privilegije nad sistemom ili da neovlašćeno pristupe fajlovima drugih korisnika. Namerno ili nenamerno iscrpljivanje sistemskih resursa je takođe jedan od bezbednosnih rizika koji može uticati na stabilnost klastera. Iz ličnog iskustva tokom godina rada na ovakvim i sličnim sistemima, višeslojni sistem bezbednosti se pokazao kao najbolje rešenje.

6. Da li HPC sistemi imaju ulogu u infrastrukturi koja se može smatrati kritičnom – bilo u zdravstvu, energetici, finansijama ili nacionalnoj bezbednosti?

Apsolutno, HPC sistemi predstavljaju kritičnu infrastrukturu koja direktno utiče na nacionalnu bezbednost, ekonomiju i javno zdravlje. Moje iskustvo pokazuje da su ovi sistemi postali nezamenljivi deo državne infrastrukture u tehnološki razvijenim zemljama.

Kao primere možemo da navedemo pre svega zdravstvo. Kritična zavisnost u vidu epidemiološkog modelovanja, gde je npr. pandemija korona virusa pokazala da su HPC simulacije bile ključne za donošenje zdravstvenih politika. Radili smo na modelima predviđanja širenja virusa i zaštite stanovništva, zatim na simulacijama povezanim sa kreiranjem novih vakcina, koje su kasnije korišćene za zaštitu populacije. Personalizovana medicina, i analiza genomskih podataka u realnom vremenu za onkološke pacijente. Bez HPC-a, ova analize bi trajale predugo. Pronalasci novih lekova, simulacije molekularnih interakcija za razvoj novih lekova. HPC simulacije mogu zameniti godine laboratorijskih eksperimenata.

Potom energetika, kao strateška važnost. Smart grid optimizacije, upravljanje distribucijama električne energije u realnom vremenu zahteva kontinuirane HPC kalkulacije u naprednim infrastrukturnim projektima pametnih gradova. Nuklearna bezbednost, simulacije nuklearnih reaktora za prevenciju nesreća i optimizaciju performansi, i vojna nuklearna istraživanja. Prognoziranje obnovljivih izvora, predviđanje vetrovnih i solarnih kapaciteta za planiranje energetske mreže.

U nacionalnoj bezbednosti, možemo navesti prvo meteorološke prognoze za vojne i civilne sisteme koji se oslanjaju na HPC vremenske modele za operativno planiranje. Kriptografska analiza, i u domenu napadanja i u domenu odbrane modernih kriptosistema zahteva masivne HPC resurse. Seizmičke analize, za predviđanje zemljotresa i cunami upozorenja su apsolutno zavisni od HPC klastera.

7. Sa čim se najčešće susrećete kao izazov u radu – tehnološki, organizaciono, regulatorno?

Kroz više od 20 godina rada na različitim projektima, suočavam se sa različitim izazovima koji se često prepliću i direktno utiču na uspeh projekata.

Kad govorimo o tehnološkim izazovima, oni su stalno prisutni. Heterogena integracija je jedan od najvećih izazova danas. HPC klasteri se često unapređuju, poboljšavaju, i onda dolazimo do implementacije različitih tehnologija. Integracija Intel Xeon i AMD EPYC procesora, NVIDIA i AMD GPU- ova, kao i specijalizovanih namenskih akceleratora u jedan sistem, gde svaka grupa komponenata ima različite memorijske hijerarhije, programske modele i komunikacione protokole. Ponekad se preporuke ekspertskog tima na strani integratora ignorišu iz određenih razloga i to uvek pravi veliki izazov tokom integracije.

02_AMD-TurinSkalabilnost aplikacije je čest slučaj komplikacija, gde imamo situaciju da neke aplikacije koje rade odlično na 1000 jezgara često „padnu“ na 10.000 zbog određenih komunikacijskih uskih grla ili drugih problema koji se jave, najčešće zbog loše implementacije i/ili samog koda aplikacije.

Energetska efikasnost definitivno postaje najbitniji faktor za implementaciju. Radio sam na sa sistemima koji troše i do 8 MW električne energije, što je ukupna potrošnja grada do 20.000 stanovnika. Svaki procenat poboljšanja efikasnosti sistema i aplikacije može značiti ogromnu uštedu troškova na godišnjem nivou. Megavati električne energije i ogromna količina energije, potrebna za rad naprednih HPC klastera, eksponencijalno će rasti u narednim godinama. Veliki igrači sa najvećim HPC klasterima investiraju u sopstvene izvore obnovljive energije. Razlozi investicija u sopstvene izvore obnovljive energije leže u novim standardima koji se kreiraju. Google je na 2025. na Sastanku OCP EMEA najavio svoj predlog za skaliranje od 100kW do vrtoglavih i trenutno nezamislivih 1 megavat (MW) IT rekova kroz transformaciju sa 48 VDC na +/-400 VDC za isporuku napajanja. Nova rešenja pete generacije (projekat Deschutes) za hlađenje ovakvih enormnih potrošača u vidu tečnog hlađenja se trenutno dizajniraju.

03_google_cooling_conceptOrganizacioni izazovi su veoma često potcenjeni. Interdisciplinarnost je obavezna u HPC projektima jer, na primer, sarađujemo sa fizičarima koji razumeju kvantnu mehaniku, ali ne razumeju keširanje i optimizaciju memorije, ili sa biologom kome su potrebne molekularne simulacije, ali ne shvata da paralelizacija nije opciona za njihovu aplikaciju. Pored saradnje sa naučnicima, timovi ljudi koji rade na realizaciji i implementaciji projekata često su geografski razmešteni, što samo po sebi stvara dodatne izazove koordinacije i sinhronizacije. U organizaciji ovakvih projekata učestvuju timovi ljudi koji realizuju različite delove projekta, kao što su Arhitekta, Linux i mrežni inženjeri, projektni menadžeri, podrška, terenska služba i mnogi drugi. Kada se radi i projekat celog data centra, dodatne ekipe su angažovane na dizajniranju, implementaciji i testiranju složenih sistema napajanja, hlađenja, protivpožarne zaštite, fizičko-tehničke bezbednosti pristupa i nadzora, a u nekim slučajevima se angažuju i seizmolozi.

Regulatorni izazovi postaju sve kompleksniji, ali taj deo rade drugi timovi, uglavnom sa pravnog aspekta (GDPR, izvozne kontrole itd.), mada Evropska unija sada donosi i neke nove propise povezane sa energetskom efikasnošću koje HPC klasteri moraju da prate.

8. Koji su najvažniji trendovi koje trenutno pratite u domenu HPC infrastrukture i bezbednosti?

Trenutno pratim nekoliko ključnih trendova koji menjaju HPC, posebno u kontekstu bezbednosti i infrastrukture. Naveo bih Exascale computing i kvantne hibridne sisteme. Exascale je realnost, Frontier sistem je prešao 10^18 (Quintillion) operacija u sekundi još 2022. godine. Kvantno-klasična integracija je možda najzanimljiviji trend. Kvantni procesori postaju koprocesori za specifične algoritme, slično kao što su GPU-ovi bili pre više od 10 godina. AI konvergencija sa HPC označava spajanje tradicionalnih HPC radnih tokova sa AI/ML aplikacijama na istoj ili često novijoj infrastrukturi. Ovo znači da isti HPC sistemi koji su nekada služili isključivo za numeričke simulacije sada podržavaju i obuku dubokih neuronskih mreža, inferentiranje i hibridne radne tokove.

HPC

„Edge-Cloud“ hibridizacija je aktuelan trend, posebno u domenu auto-industrije i pametnih automobila, gde se procesuiranje video i lidar-podataka analizira direktno u kolima (Tesla, BYD i drugi) na posebnim NVIDIA čipovima, a zatim se ti podaci sinhronizuju za dalju analizu na velikim HPC klasterima.

Novi vid testiranja robota je takođe aktuelni trend, a NVIDIA je kreirala Isaac Sim referentnu aplikaciju, koja je izgrađena na NVIDIA Omniverse platformi, koja omogućava programerima da simuliraju i testiraju robotska rešenja pokretana veštačkom inteligencijom u virtuelnim okruženjima zasnovanim na fizičkim zakonima. Prednost Isaac Sim aplikacije u odnosu na tradicionalno programiranje robota je mogućnost bezbednog i neograničenog eksperimentisanja bez fizičkih ograničenja. Dok tradicionalno programiranje zahteva skupu fizičku opremu, dugotrajne testove i nosi rizik od oštećenja robota ili testnog okruženja, Isaac Sim omogućava programerima da istovremeno pokrenu hiljade simulacija u fotorealističnim okruženjima, gde mogu testirati ekstremne scenarije koji bi u stvarnosti bili opasni ili neizvodljivi. Ova platforma dramatično ubrzava razvoj, jer AI algoritmi mogu da uče i iteriraju daleko brže nego na fizičkim robotima, dok istovremeno generišu velike količine preciznih podataka potrebnih za dalju obuku.

05_nvidia-omniverseRezultat je razvoj robotskih sistema koji je od 10 do 100 puta brži i naravno jeftiniji, sa mogućnošću direktnog prenosa naučenih veština sa simulacije na stvarne robote zahvaljujući fotorealističnoj preciznosti Isaac Sim platforme.

Što se tiče bezbednosnih trendova, prvo „Zero Trust“ arhitektura, gde implementiramo mikro- segmentaciju: svaki čvor mora da se autentifikuje za svaku komunikaciju. Nema više „bezbedne interne mreže“ kao koncepta. Zatim homomorfična enkripcija: napredna kriptografska tehnika koja omogućava izvršavanje računskih operacija direktno nad enkriptovanim podacima, bez potrebe za njihovim dekriptovanjem. Kvantno-sigurna kriptografija, pripremamo se za post-kvantni svet. NIST je standardizovao algoritme koje implementiramo već sada.

9. Kako ocenjujete stanje i svest o važnosti HPC tehnologija u regionu Jugoistočne Evrope?

Stanje u našem regionu je, realno govoreći, fragmentirano sa značajnim razlikama između zemalja i institucija. Kroz moje iskustvo saradnje sa institutima i univerzitetima u regionu, vidim i pozitivne trendove, ali i ozbiljne izazove.

Ako govorimo o ozbiljnim izazovima, mislim da je vredno pomenuti nedostatak strateškog planiranja, jer čini mi se da većina zemalja razvija HPC ad-hoc, bez regionalne koordinacije. Dupliraju se istraživanja, rešavaju se isti problemi na više različitih mesta. Ne mogu a da ne pomenem odlazak mladih pametnih ljudi u inostranstvo. Lično poznajem desetine kolega koji su napustili region. Budžeti za HPC infrastrukturu su i do 50 puta manji od zapadnoevropskih. Teško je konkurisati uz slabe ili zastarele sisteme.

Mislim da bi deo ovih problema mogao biti unapređen ili rešen sa regionalnom saradnjom. Federacija resursa koja bi omogućila deljenje infrastrukture i ekspertize. Jedan veliki regionalni sistem može biti konkurentan evropskim standardima. Preporučio bih da se poveća investicija u obrazovanje, da se stvore regionalni centri, da se održava povezanost sa EuroHPC inicijativama. Potencijal postoji, ali neophodan je strateški pristup. Imamo solidnu tradiciju u matematici, fizici i informatici. Studenti sa naših fakulteta odlično se snalaze kada dođu u kontakt sa HPC tehnologijama. Problem je što prekasno vide paralelno programiranje, možda čak i po završetku studija, i tu ne mislim samo na IT. Smatram da bi svest o HPC i klasterima trebalo proširiti na sve relevantne studije kako bi studenti znali kakvi alati postoje za rešavanje složenih problema, u neku ruku to bi dovelo do multidisciplinarnog povezivanja radi rešavanja naučno- istraživačkih problema. Mi imamo dobar geopolitički položaj, možemo biti prirodan most između EU i van-EU zemalja za HPC projekte. Vidim mogućnost da Srbija postane regionalni hub za HPC servise. Bilo bi dobro da se razmatra i energetska pozicija Srbije, relativno jeftina električna energija je prednost za HPC projekte, možda i uz subvencije države za dalji razvoj infrastrukture, naravno na održivoj i ekološki prihvatljivoj električnoj energiji.

10. Kako vi lično gledate na budućnost HPC tehnologija?

Kroz moje dosadašnje iskustvo u HPC industriji i kako sada stvari stoje, prilično sam fokusiran na budućnost ove oblasti. Nalazimo se na prekretnici, gde se nekoliko tehnoloških trendova spaja na način koji će fundamentalno promeniti ono što možemo postići kao ljudska vrsta. Sledeće decenije vidim kao

06_ibm_quantum_openhibridnu kvantno-klasičnu eru. Kvantni procesori neće zameniti HPC sisteme, već će postati specijalizovani koprocesori za specifične algoritme. Biološki inspirisani computing, neuromorphic procesori (veštački fizički neuroni korišćeni za kalkulacije) bazirani na konceptu našeg trenutnog znanja o ljudskom mozgu, menjaju paradigmu. Budućnost vidim i u federaciji distribuiranih exascale sistema povezanih preko ultra-brzih mreža. Umesto jednog centralnog superračunara, imaćemo konstelacije specijalizovanih sistema koji sarađuju, mislim da je to neminovno.

11. Koju biste poruku uputili mladim kolegama koji razmatraju karijeru u ovoj oblasti?

Mladim kolegama koji razmišljaju o HPC karijeri želim da kažem sledeće – ulazite u oblast koja menja svet, i to bukvalno. Sada je trenutak kada se događa konvergencija tehnologija, prilika za nove izazove i rešenja. VI, kvantno računanje, neuromorphic sistemi, edge computing, sve se spaja u jednu oblast. Kao mladi inženjeri, vi nemate „legacy“ razmišljanje koje nas starije ponekad ograničava. Napomenuo bih da je osnova svega toga Linux operativni sistem i programiranje. Neophodno je potpuno razumevanje rada Linux operativnog sistema, mreža (Ethernet i Infiniband), kao i pratećih tehnologija koje se na mesečnom nivou menjaju. Dok radite na novim projektima, imajte na umu da je veći deo sistema zasnovan na otvorenom kodu, vaša podrška i doprinos otvorenom kodu od suštinskog je značaja. Počnite sa osnovama, pratite tehnologiju na dnevnom nivou, budite uključeni u rad distribuiranih paralelnih sistema. Na kraju, kontinuirano učenje i praktičan rad su ključ uspeha.

5/5 - (2 votes)
Prethodni članakŠta su nam julski požari zaista pokazali?