Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων
DESCRIPTION
Πανεπιστήμιο Πατρών Τμήμα Μηχανικών Η/Υ & Πληροφορικής. Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων. Διπλωματική Εργασία. Ζώης Βασίλειος Α.Μ :4183. Περιεχόμενα Διπλωματικής. Συστήματα Σε Νέφη Υπολογιστών Hadoop Distributed File System (HDFS ) Κατανεμημένη Βάση Δεδομένων( HBase) - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/1.jpg)
ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΝΕΦΗ ΥΠΟΛΟΓΙΣΤΩΝ
Ζώης ΒασίλειοςΑ.Μ:4183
Πανεπιστήμιο ΠατρώνΤμήμα Μηχανικών Η/Υ & Πληροφορικής
Διπλωματική Εργασία
![Page 2: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/2.jpg)
Περιεχόμενα Διπλωματικής Συστήματα Σε Νέφη Υπολογιστών Hadoop Distributed File System (HDFS ) Κατανεμημένη Βάση Δεδομένων(HBase) Μοντέλο Προγραμματισμού mapreduce Μελέτη Β, Β+ Δέντρων Κατασκευή Δέντρων στο ΗBase Ερωτήματα Εύρους σε B+ & B Δέντρα Πειράματα στην Κατασκευή Δέντρων Ανάλυση Αποτελεσμάτων Συμπεράσματα
![Page 3: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/3.jpg)
Περιγραφή & Αρχιτεκτονική HDFS
Υλοποίηση Ανοιχτού Κώδικα του GFS Κατανεμημένο Σύστημα Αρχείων της Google Google File System
Κατανεμημένο Σύστημα Αρχείων Διαχείριση Μεγάλου Όγκου Δεδομένων Αυτόματος Εντοπισμός & Ανάκαμψη από
Σφάλματα Ευκολία Επέκτασης
Υλοποίηση σε Java Διαφορετικά Λειτουργικά Συστήματα Υπολογιστές με Διαφορετικό Hardware
![Page 4: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/4.jpg)
Περιγραφή & Αρχιτεκτονική HBase HBase
Υλοποίηση Ανοιχτού Κώδικα του BigTable Ανήκει στην Κατηγορία NoSQL Συστημάτων Δεδομένα Οργανώνονται σε Πίνακες Πίνακες Χωρίζονται σε Οικογένειες Στηλών Κατηγορία Column Family Stores Παρόμοια Αρχιτεκτονική με το HDFS Λειτουργεί πάνω από το HDFS
![Page 5: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/5.jpg)
Μοντέλο Προγραμματισμού mapreduce
Προγραμματιστικό Μοντέλο Επεξεργασία Μεγάλου Συνόλου Δεδομένων Κατανεμημένος Υπολογισμός σε Συστοιχία
Υπολογιστών Εμπνευσμένο από Functional Programming
Map Function Reduce Function
Λειτουργία Δεδομένα Δομημένα στην Μορφή (key,value) Επεξεργασία Δεδομένων Εισόδου Παράλληλα
(Mapper) Επεξεργασία Ενδιάμεσων Αποτελεσμάτων (Reducer) Map(k1,v1) → List(k2,v2) Reduce(k2,list(v2)) → List(v3)
![Page 6: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/6.jpg)
Κατασκευή Δέντρου ΒulkInsert Mapper
Επεξεργασία Δεδομένων Αντιστοίχιση Στην Μορφή (key,value)
Partitioner Ομαδοποίηση Δεδομένων Συνεχόμενες Τιμές Σε Κάθε Reducer
Reducer Κατασκευή Δέντρου(BulkInsert) Διατήρηση Στην Μνήμη
Cleanup Εγγραφή Του Δέντρου Στο Πίνακα του HBase
![Page 7: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/7.jpg)
Εναλλακτική Υλοποίηση BulkLoading
Καλύτερη Απόδοση Μικρότερες Απαιτήσεις σε Μνήμη. Ολοκλήρωση σε Λιγότερα Βήματα Ο(n/B). Απλοποιημένη Υλοποίηση
Βήματα Εκτέλεσης Ταξινομημένα Κλειδιά στην Είσοδο του
Reducer Διάσπαση σε φύλλα Αποθήκευση ορισμένων κλειδιών για το
επόμενο επίπεδο. Επαναληπτική Διαδικασία μέχρι την
κατασκευή της ρίζας.
![Page 8: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/8.jpg)
Κόμβος Δέντρου = Γραμμή Πίνακα Ορισμός Οικογένειας Κόμβος (Node) Κλειδί Γραμμής
Εσωτερικοί Κόμβοι – Τελευταίο Κλειδί Αντίστοιχου Κόμβου.
Φύλλα – Προσθέτουμε Αναγνωριστικό (Λεξικογραφική Ταξινόμηση)
Οργάνωση Δεδομένων στον Πίνακα
![Page 9: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/9.jpg)
Έλεγχος Εύρους Δέντρων Αναζήτηση Φύλλου
Φύλλο που Περιέχει το Αριστερό Άκρο Φύλλο που Περιέχει το Δεξιό Άκρο
Πίνακα HBase Εκτέλεση Scan Ορίσματα – Κλειδί Γραμμής Αριστερού &
Δεξιού Φύλλου Πολυπλοκότητα
Τ δέντρα , Ε κλειδιά σε κάθε δέντρο, Β τάξη του δέντρου
Ο(2*(Τ + logB(E) )
Ερωτήματα Εύρους σε Β+ Δέντρα
![Page 10: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/10.jpg)
Αντίστοιχα με τα Β+ Δέντρα Αναζήτηση Δέντρων με Αντίστοιχο Εύρος Εύρεση Αρχικού & Τελικού Δέντρου Εκτέλεση Αναζήτησης Κατά Βάθος σε Κάθε
Δέντρο Αναζήτηση κατά Βάθος
Ανάκτηση Τιμών από Εσωτερικούς κόμβους Πολυπλοκότητα
Πολυπλοκότητα αναζήτησης κατά βάθος Ο(|V| + |E|)*Τ
Ερωτήματα Εύρους σε Β Δέντρα
![Page 11: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/11.jpg)
Πειράματα – Συστήματα & Εργαλεία Hadoop & HBase
Hadoop version 1.0.1 HBase version 0.94.1
Λειτουργικό Σύστημα Debian Base 6.0.5
Μηχανήματα(4) – Okeanos 4 CPUs(Virtual) ανά μηχάνημα RAM 2048MB ανά μηχάνημα HDD 40 GB ανά μηχάνημα
Δεδομένα tpc-H Χρήση του Πίνακα Orders (cust_id,order_id)
![Page 12: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/12.jpg)
Πειράματα – Δεδομένα & Παρατηρήσεις
Παρατηρήσεις Πειραμάτων Τάξη Δέντρου Χρόνος Εκτέλεσης Απαιτούμενος Αποθηκευτικός Χώρος Απαιτούμενο Μέγεθος Φυσικής Μνήμης Αριθμός Reducer
![Page 13: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/13.jpg)
Πειράματα – Bulk Insert Σύγκριση Δέντρων Τάξης 5 & 101
Χρόνος Εκτέλεσης Rebalance Operation
Απαιτούμενη Φυσική Μνήμη & Αποθηκευτικός Χώρος Απαραίτητες Πληροφορίες για την Διατήρηση
της Δομής του Δέντρου. Συμπεράσματα
O αλγόριθμος BulkInsert είναι μη αποδοτικός Υψηλές Απαιτήσεις σε Φυσική Μνήμη Αυξημένος Χρόνος Εκτέλεσης
![Page 14: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/14.jpg)
Κατανομή Χρόνου Εκτέλεσης – Τάξη 5
1 2 3 4 5 6 70
50
100
150
200
250Map Reduce
Tasks ID
Χρόνος (sec)
1 2 3 4 5 6 70
50
100
150
200
250Map Reduce
Tasks ID
Χρόνος (sec)
![Page 15: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/15.jpg)
Κατανομή Χρόνου Εκτέλεσης – Τάξη 101
1 2 3 4 5 6 70
50
100
150
200
250Map Reduce
Tasks ID
Χρόνος (sec)
1 2 3 4 5 6 70
50
100
150
200
250Map Reduce
Tasks ID
Χρόνος (sec)
![Page 16: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/16.jpg)
Πειράματα – Bulk Loading Σύγκριση BulkLoading με BulkInsert
Μικρότερος Χρόνος Εκτέλεσης Λιγότερες Απαιτήσεις σε Φυσική Μνήμη Μικρότερος Απαιτούμενος Αποθηκευτικός
Χώρος
Πειράματα με Αλλαγή του Buffer Buffer 128,512 Βελτίωση Χρόνου Εκτέλεσης Μικρή Αύξηση Απαιτήσεων Για Φυσική Μνήμη
![Page 17: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/17.jpg)
Κατανομή Χρόνου Εκτέλεσης – Buffer 128
1 2 3 4 5 6 70
20
40
60
80
100
120Map Time Reduce Time
Tasks ID
Χρόνος (sec)
1 2 3 4 5 6 70
20
40
60
80
100
120Map Time Reduce Time
Tasks ID
Χρόνος (sec)
![Page 18: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/18.jpg)
1 2 3 4 5 6 70
20
40
60
80
100
120Map Time Reduce Time
Tasks ID
Χρόνος (sec)
1 2 3 4 5 6 70
20
40
60
80
100
120Map Reduce
Tasks ID
Χρόνος (sec)
Κατανομή Χρόνου Εκτέλεσης – Buffer 512
![Page 19: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/19.jpg)
Σύγκριση Μεθόδων Κατασκευής BulkInsert
Ακριβής Επιλογή στην Τάξη του Δέντρου Αυξημένος Χρόνος Εκτέλεσης Υψηλές Απαιτήσεις σε Μνήμη
BulkLoading Τάξη Δέντρου Εξαρτάται Πλήθος Δεδομένων Μειωμένος Χρόνος Εκτέλεσης Μειωμένες Απαιτήσεις σε Μνήμη Ευκολία στην Υλοποίηση
Γιατί B+ & B δέντρα Τεχνική Prewarm
Συμπεράσματα
![Page 20: Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων](https://reader035.vdocuments.mx/reader035/viewer/2022062521/56816708550346895ddb7047/html5/thumbnails/20.jpg)
ΕΥΧΑΡΙΣΤΩ ΠΟΛΥ ΓΙΑ ΤΗΝ ΠΡΟΣΟΧΗ ΣΑΣ !!!