|
Κωδικός Πόρου |
000426193 |
Τίτλος |
Process placement optimizations and heterogeneity extensions to the Slurm resource manager |
Άλλος τίτλος |
Βελτιστοποίηση τοποθέτησης διεργασιών και επεκτάσεις για ετερογενή συστήματα στο λογισμικό διαχειρισμού πόρων Slurm |
Συγγραφέας
|
Βάρδας, Ιωάννης Γ.
|
Σύμβουλος διατριβής
|
Κατεβαίνης, Μανόλης
|
Μέλος κριτικής επιτροπής
|
Μπίλας, Άγγελος
Πρατικάκης, Πολύβιος
|
Περίληψη |
Τα υπολογιστικά συστήματα υψηλών επιδόσεων (HPC), στην προσπάθεια τους να
ικανοποιήσουν τις συνεχώς αυξανόμενες ανάγκες για περισσότερη απόδοση και
υπολογιστικούς πόρους, αναπτύσσονται όλο και περισσότερο σε μέγεθος. Επιπλέον,
αξιοποιώντας διαφορετικούς υπολογιστούς πόρους όπως οι "Accelerators"
για περαιτέρω αύξηση της υπολογιστικής ισχύος τους γίνονται πιο ετερογενή.
Οι υπολογιστικοί πόροι αυτών των συστημάτων διαμοιράζονται μεταξύ πολλών
χρηστών οι οποίοι σε πολλές περιπτώσεις μπορεί να ανέρχονται σε χιλιάδες και να
εκτελούν εφαρμογές διαφόρων επιστημονικών πεδίων. Αυτό εγείρει δυο θέματα,
το πρώτο είναι η παροχή μιας ποικιλόμορφης της στοίβας λογισμικού που είναι
απαραίτητη για τις διαφορετικές εφαρμογές και το δεύτερο είναι η εγγυημένη
απομόνωση μεταξύ των διαφορετικών χρηστών. Ένα επιπλέον θέμα είναι και
διαχείριση των πολλών διεργασιών των χρηστών καθώς και διανομή των υπολογιστών
πόρων. Επίσης, οι εφαρμογές που επιζητούν περαιτέρω απόδοση βασίζονται σε
προηγμένες τεχνικές παραλληλίας για να εκμεταλλευτούν τους πόρους τους
συστήματος αυξάνοντας την πίεση στο δίκτυο του συστήματος.
Το πρόβλημα κατανομής των πόρων αυτών των περίπλοκων και μεγάλων HPC
συστημάτων στους διαφόρους (πολλούς) χρήστες αντιμετωπίζεται με την χρήση ενός
ειδικού ενδιάμεσου λογισμικού που συχνά καλείται Σύστημα Διαχείρισης Πόρων και
Εργασιών.
Το θέμα της εγγυημένης απομόνωσης των διαφορετικών χρηστών καθώς και
παροχής μίας πιο ειδικά διαμορφωμένης στοίβας λογισμικού συνήθως επιλύεται με
την χρήση Εικονικών Μηχανών. Επίσης, η αυξημένη επικοινωνιακή τυπικότητα
των εφαρμογών μπορεί να μειώσει το κόστος της επικοινωνίας με αποτέλεσμα την
μείωση του χρόνου εκτέλεσης των εφαρμογών καθώς και την μείωση της πίεσης που
δέχεται το δίκτυο. Εκτός από το κόστος επικοινωνίας, ο χρόνος εκτέλεσης μπορεί να
βελτιωθεί περαιτέρω μέσω της μείωσης του κόστους της διακοπής των MPI εφαρμογών
των χρηστών λόγω σφαλμάτων στους κόμβους του συστήματος.
Σε αυτή την εργασία παρουσιάζουμε τρεις επεκτάσεις στο λογισμικό
διαχειρισμού πόρων Slurm το οποίο χρησιμοποιείται ευρέως από τα HPC
συστήματα. Χρησιμοποιούμε το Slurm και το επεκτείνουμε με βάσεις τις παραπάνω
μεθόδους για να επιλύσουμε τα προβλήματα που αναφέραμε. Η πρώτη επέκταση
προσφέρει στο Slurm την δυνατότητα να υποστηρίζει FPGA-based
accelerators καθιστώντας το Slurm καταλληλότερο για ετερογενή συστήματα. Το
Slurm παρέχει ήδη υποστήριξη για GPUs όχι όμως για FPGA-based accelerators.
Η επόμενη επέκταση που παρουσιάζεται προσδίδει την δυνατότητα στο Slurm
να εκτελεί εικονικές μηχανές και μέσα στα εικονικά περιβάλλοντα αυτά να εκτελεί
τις διεργασίες των χρηστών. Σε σύγκριση με παρόμοιες δουλείες η εν λόγω
επέκταση προσφέρει ένα πιο απλό περιβάλλον για τον χρήστη καθώς και την
δυνατότητα διαχείρισής των εικονικών μηχανών από το Slurm.
Η τελευταία επέκταση υλοποιεί την προτεινόμενη προσέγγιση για βελτιστοποίηση
τοποθέτησης των διεργασιών με βάση την τοπολογία και παράλληλα λαμβάνοντας
υπόψιν τους κόμβους που παρουσιάζουν σφάλματα. Σκοπός αυτής της προσέγγισης
είναι να μειώσει τo επιπλέον κόστος της επικοινωνίας των παράλληλων διεργασιών
μιας MPI εφαρμογής αλλά και να μειώσει το επιπλέον κόστος της διακοπής εφαρμογών
λόγω σφαλμάτων στους κόμβους.
Η προτεινόμενη προσέγγιση ακολουθεί μια γνωστή μέθοδο με βάση την υπάρχουσα
βιβλιογραφία κατά την οποία το πρόβλημα της τοποθέτησης των διεργασιών στους
υπολογιστους πόρους μοντελοποιείται ως ένα γραφοθεωρητικό πρόβλημα. Η
τοπολογία του συστήματος και καθώς και το μοτίβο επικοινωνίας της εφαρμογής
αναπαρίστανται ως δυο γράφοι. Με την χρήση της βιβλιοθήκης Scotch, η οποία λύνει
το γραφοθεωρητικό πρόβλημα, παράγεται η αντιστοιχία των διεργασιών στους
υπολογιστικούς πόρους του συστήματος.
Επιπλέον, η προτεινόμενη προσέγγιση ενημερώνεται για τους κόμβους που πιθανώς
να παρουσιάσουν σφάλματα ώστε να αποφύγει την χρήση τους καθώς και τα
μονοπάτια που επηρεάζουν.
Τέλος, αξιολογούμε την προτεινόμενη προσέγγιση προσομοιώνοντας πραγματικές
εφαρμογές σε δύο διαφορετικά εικονικά περιβάλλοντα με και χωρίς σφάλματα.
Τα αποτελέσματα δείχνουν σημαντική μείωση του χρόνου εκτέλεσης των εφαρμογών
και στα δύο εικονικά περιβάλλοντα. Η προτεινόμενη προσέγγιση καταφέρνει να
μειώσει σημαντικά τον αριθμό των απορριπτόντων διεργασιών λόγω σφαλμάτων
καθώς τον χρόνο εκτέλεσης σε σχέση με την βασική προσέγγιση του Slurm από 10%
έως 31%.
|
Φυσική περιγραφή |
viii, 77 σ. : σχεδ., πιν., εικ. ; 36 εκ. |
Γλώσσα |
Αγγλικά |
Θέμα |
Fault aware |
|
HPC |
|
Topology mapping |
|
Διαχείρηση Πόρων |
|
Τοποθέτηση διεργασιών |
Ημερομηνία έκδοσης |
2019-11-22 |
Συλλογή
|
Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης
|
|
Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης
|
Εμφανίσεις |
218 |