Your browser does not support JavaScript!

Αρχική    Analysis of server throughput for managed big data analytics frameworks  

Αποτελέσματα - Λεπτομέρειες

Προσθήκη στο καλάθι
[Προσθήκη στο καλάθι]
Κωδικός Πόρου 000457364
Τίτλος Analysis of server throughput for managed big data analytics frameworks
Άλλος τίτλος Ανάλυση της απόδοσης του διακομιστή για πλαίσια ανάλυσης μεγάλου όγκου δεδομένων
Συγγραφέας Αναγνωστάκης, Εμμανουήλ Μ.
Σύμβουλος διατριβής Πρατικάκης, Πολύβιος
Μέλος κριτικής επιτροπής Μπίλας, Άγγελος
Μαγκούτης, Κωνσταντίνος
Περίληψη Τα πλαίσια ανάλυσης μεγάλου όγκου δεδομένων, όπως το Apache Spark και το Giraph απαιτούν μεγάλη ποσότητα μνήμης ανά πυρήνα για την αποτελεσματική επεξεργασία μεγάλου όγκου συνόλων δεδομένων. Η πίεση μνήμης που προκύπτει από την επεξεργασία μεγάλων δεδομένων οδηγεί σε υψηλές δαπάνες συλλογής σκουπιδιών (GC) . Τα πλαίσια ανάλυσης μεγάλων δεδομένων προσπαθούν να αφαιρέσουν αυτό το κόστος μετακινώντας αντικείμενα σε συσκευές αποθήκευσης. Ταυτόχρονα, οι πάροχοι υποδομής, προσπαθώντας να αντιμετωπίσουν το ίδιο πρόβλημα, αποδίδουν περισσότερη μνήμη για να αυξάνουν τη μνήμη ανά περίπτωση αφήνοντας τους πυρήνες αναξιοποίητους. Για τα πλαίσια, η προσπάθεια αποφυγής του GC μέσω της μεταφόρτωσης σε συσκευές αποθήκευσης οδηγεί σε υψηλή επιβάρυνση Σειριοποίησης/Αποσειριοποίησης (S/D) . Για τις υποδομές, το αποτέλεσμα είναι ότι η χρήση πόρων μειώνεται. Αυτοί οι περιορισμοί εμποδίζουν τα πλαίσια ανάλυσης μεγάλων δεδομένων από το να χρησιμοποιούν αποτελεσματικά τον επεξεργαστή, οδηγώντας έτσι σε χαμηλή απόδοση του διακομιστή. Σε αυτή την μεταπτυχιακή εργασία, διεξάγουμε μια μεθοδολογική ανάλυση της απόδοσης του διακομιστή για πλαίσια ανάλυσης μεγάλων δεδομένων. Πιο συγκεκριμένα, εξετάζουμε, αν η μείωση του GC και του S/D μπορεί να συμβάλει στην αύξηση της αποτελεσματικής χρήσης του επεξεργαστή του διακομιστή. Χρησιμοποιούμε ένα σύστημα που ονομάζεται TeraHeap (TH) που μετακινεί αντικείμενα από το σωρό της Java (H1) σε έναν δευτερεύοντα σωρό (H2) μέσω γρήγορης ελάφρυνσης για τη μείωση της επιβάρυνσης του GC και την εξάλειψη του S/D στα δεδομένα. Εστιάζουμε στην ανάλυση της απόδοσης του συστήματος υπό τη συν τοποθεσία πολλαπλών στιγμιότυπων για τη χρήση όλης της διαθέσιμης μνήμης και τη μελέτη της συνολικής απόδοσης του διακομιστή. Η λεπτομερής μεθοδολογία μας περιλαμβάνει την επιλογή του προϋπολογισμού της μνήμης για κάθε περίπτωση και τον τρόπο διανομής αυτού του προϋπολογισμού μεταξύ του H1 και της προσωρινής μνήμης σελίδων (PC). Δοκιμάζουμε δύο διαφορετικές διανομές για τον προϋπολογισμό DRAM , μία με περισσότερο H1 και ένα με περισσότερη PC για να μελετήσουμε τις ανάγκες και των δύο προσεγγίσεων. Διεξάγουμε την αξιολόγηση σε 3 διαφορετικά σενάρια μνήμης ανά πυρήνα χρησιμοποιώντας το Spark και το Giraph με εγγενή JVM ή JVM με TeraHeap. Αυτό το κάνουμε για να ελέγξουμε τις αλλαγές απόδοσης όταν αυξάνεται η χωρητικότητα της μνήμης. Τα πειραματικά μας αποτελέσματα δείχνουν ότι η αύξηση της μνήμης ανά πυρήνα δεν συμβάλλει στην επίτευξη της μέγιστης απόδοσης διακομιστή για αναλυτικά στοιχεία. Αποτελεσματικές λύσεις για αυτό το πρόβλημα προσφέρονται από συστήματα όπως το TeraHeap που εκφορτώνουν αντικείμενα από τον διαχειριζόμενο σωρό χωρίς αύξηση του φορτίου του επεξεργαστή. Η μετακίνηση μεγάλων τμημάτων του σωρού σε συσκευές γρήγορης αποθήκευσης, μειώνει την ανάγκη αύξησης της μνήμης ανά πυρήνα και αυξάνει την απόδοση του διακομιστή. Τέλος, συμπεριλαμβάνουμε και μία εκτίμηση του χρηματικού κόστους των περιμάτων για να δείξουμε ότι η χρήση μιας προσέγγισης όπως το TeraHeap θα μπορούσε να μειώσει το κόστος ενοικίασης έως και 50% για την εκτέλεση περιμάτων με πλαίσια μεγάλων δεδομένων σε δημόσια συστήματα νέφους όπως το EC2 της Amazon ή το Google Cloud Platform ή η Microsoft Azure Cloud , τα οποία είναι διαθέσιμα σε όλους.
Φυσική περιγραφή viii, 63 σ. : σχεδ., πιν., εικ. (μερ. εγχρ.) ; 30 εκ.
Γλώσσα Αγγλικά
Θέμα CPU utilization
Garbage collection
Giraph
Memory per code
Mobile
Serialization / Deserialization
Spark
Storage
Αξιοποίηση επεξεργαστικής ισχύος
Αποθήκευση
Μεγάλος όγκος δεδομένων
Μνήμη ανά πυρήνα
Σειριοποίηση / Αποσειριοποίηση
Συλλογή σκουπιδιών
Ημερομηνία έκδοσης 2023-07-21
Συλλογή   Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης
  Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης
Εμφανίσεις 619

Ψηφιακά τεκμήρια
No preview available

Κατέβασμα Εγγράφου
Προβολή Εγγράφου
Εμφανίσεις : 10