data mining from world bank and fitch

28
ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΟΙΚΟΝΟΜΙΚΑ ΔΕΔΟΜΕΝΑ ΚΑΙ ΔΕΔΟΜΕΝΑ ΟΙΚΩΝ ΑΞΙΟΛΟΓΗΣΗΣ Γεωργούσης Ηλίας Επιβλέπων Καθηγητής: Η. Βαρλάμης

Upload: ilias-georgousis

Post on 15-Apr-2017

106 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: Data Mining from World Bank and Fitch

ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΟΙΚΟΝΟΜΙΚΑ ΔΕΔΟΜΕΝΑ ΚΑΙ

ΔΕΔΟΜΕΝΑ ΟΙΚΩΝ ΑΞΙΟΛΟΓΗΣΗΣ

Γεωργούσης ΗλίαςΕπιβλέπων Καθηγητής: Η. Βαρλάμης

Page 2: Data Mining from World Bank and Fitch

Περιεχόμενα• Σκοπός• Ερευνητικά Ερωτήματα• Μακροοικονομικά Μεγέθη• Προετοιμασία δεδομένων• Το Πείραμα μας• Το Μοντέλο• Συμπεράσματα

Page 3: Data Mining from World Bank and Fitch

Σκοπός

Θέλουμε να εξετάσουμε αν οι μεταβολές στους οικονομικούς δείκτες της Παγκόσμιας Τράπεζας μπορούν να οδηγήσουν σε πρόβλεψη μιας υποβάθμισης ή αναβάθμισης της πιστοληπτικής ικανότητας μιας Εθνικής Οικονομίας. Για το σκοπό αυτό (proof of concept) πήραμε τα ratings του Fitch για 106 χώρες για το χρονικό διάστημα 2005-2012 στο οποίο καλύπτεται η περίοδος ανάπτυξης πριν τη κρίση του 2008, η ύφεση αλλά και τα επόμενα βήματα της ανάκαμψης που ακολούθησαν την κρίση και οικονομικούς δείκτες από την παγκόσμια τράπεζα και προβήκαμε σε Ανάλυση Συσχέτισης (Correlation Analysis) και κατασκευής ενός μοντέλου προβλέψεων.

Page 4: Data Mining from World Bank and Fitch

Ανάλυση Συσχέτισης

Ανάλυση συσχέτισης είναι ένα σύνολο στατιστικών τεχνικών που χρησιμοποιούνται για να μετρήσουν το μέγεθος συσχέτισης μεταξύ δύο μεταβλητών, της εξαρτημένης και της ανεξάρτητης.

Στην περίπτωση μας, η εξαρτημένη μεταβλητή είναι η Υποβάθμιση ή Αναβάθμιση μιας οικονομίας. Θα θέλαμε να δούμε τόσο αν υπάρχει correlation μεταξύ των υπολοίπων γνωρισμάτων (ιδανικά correlation=0) όσο και αν υπάρχει συσχέτιση κάθε γνωρίσματος με το γνώρισμα που θέλουμε να προβλέπουμε (ιδανικά τα γνωρίσματα με correlation = 0 θα πρέπει να απαλειφθούν).

Page 5: Data Mining from World Bank and Fitch

Ερευνητικά Ερωτήματα

1. Υπάρχουν συγκεκριμένοι μακροοικονομικοί δείκτες οι οποίοι φαίνεται να επηρεάζουν την αξιολόγηση κάποιας εθνικής οικονομίας;

2. Αν αυτοί οι δείκτες υπάρχουν σε ποιο βαθμό επηρεάζουν και τι βαρύτητα έχουν;

3. Παρατηρείται κάποιο μοτίβο ή πρότυπο στις κινήσεις μεταξύ των βαθμών της αξιολόγησης και της κίνησης των οικονομικών μεγεθών ώστε να μπορεί να γίνει χρήση του για πρόβλεψη κάποιας μελλοντικής επερχόμενης αξιολόγησης;

Page 6: Data Mining from World Bank and Fitch

Ανάλυση Μακροοικονομικών μεγεθών

Δείκτες μελλοντικής ανάλυσης Imports of goods and services (Εισαγωγές προϊόντων και

υπηρεσιών) Land area (sq. Km) (Μέγεθος των χωρών σε τετραγωνικά

χιλιόμετρα) Trade in services (% of GDP) (Εμπόριο σε υπηρεσίες σε

ποσοστό επί τις 100 του ΑΕΠ) Services, etc., Value added (% of GDP) (Προστιθέμενη αξία

από υπηρεσίες σε ποσοστό επί τις 100 του ΑΕΠ) Secondary income, other sectors, payments (BoP, current

US$) (Δευτερεύων εισόδημα) Cash surplus/deficit (% of GDP) (Μετρητά πλεόνασμα /

έλλειμμα % του ΑΕΠ) GDP per Capita current US$ (Το κατά κεφαλήν ΑΕΠ (σε

τρέχουσες US $)

Δείκτες στη τρέχουσα ανάλυση1. GDP – ΑΕΠ2. GDP Growth – Ρυθμός αύξησης

του ΑΕΠ3. Exports of goods and services

(% of GDP) (Εξαγωγές προϊόντων και υπηρεσιών σε ποσοστό επί τις 100 του ΑΕΠ)

4. Inflation – πληθωρισμός 5. Gold Reserves – Αποθέματα

Χρυσού6. Central government debt, total

(% of GDP) - Κεντρικό δημόσιο χρέος, συνολικό (% του ΑΕΠ)

Page 7: Data Mining from World Bank and Fitch

Χώρες προς μελέτη 106

Αυστρία, Βέλγιο, Κροατία, Βουλγαρία, Κύπρος, Τσεχία, Δανία, Εσθονία, Φιλανδία, Γαλλία, Γερμανία, Ελλάδα, Ουγγαρία, Ιρλανδία, Λετονία, Λιθουανία, Λουξεμβούργο, Μάλτα, Ολλανδία, Πολωνία, Πορτογαλία, Ρουμανία, Σλοβενία, Σλοβακία, Σουηδία, Ισπανία, Ηνωμένο Βασίλειο, Ιταλία, Ηνωμένες Πολιτείες, Τουρκία, Δομινικανή Δημοκρατία, Εκουαδόρ, Αίγυπτος, Ελ Σαλβαδόρ, Φιλανδία, ΠΓΔΜ, Γκάμπια, Γεωργία, Γκάνα, Χονγκ Κονγκ, Ισλανδία, Ινδία, Ινδονησία, Ιράν, Ισραήλ, Ιταλία, Τζαμάικα, Ιαπωνία, Καζακστάν, Κορέα, Κουβέιτ, Λίβανος, Λεσότο, Λιβύη, Μαλάουι, Μαλαισία, Μεξικό, Μολδαβία, Μογγολία, Νέα Ζηλανδία, Παναμάς, Παπούα, Περού, Φιλιππίνες, Ρωσία, Ρουάντα, Σαν Μαρίνο, Σαουδική Αραβία, Σεϋχέλλες, Σιγκαπούρη, Νότια Αφρική, Σρι Λάνκα, Σουρινάμ, Ταϊλάνδη, Τυνήσια, Τουρκία, Τουρκμενιστάν, Ουρουγουάη, Βενεζουέλα, Βιετνάμ, Αγκόλα, Αργεντινή, Αρμενία, Αυστραλία, Αζερμπαϊτζάν, Μπαχρέιν, Βερμούδες, Βολιβία, Βραζιλία, Καμερούν, Καναδάς, Χιλή, Κίνα, Κολομβία, Κόστα Ρίκα, Αρούμπα, Πράσινο Ακρωτήριο.

Page 8: Data Mining from World Bank and Fitch

Δεδομένα

Αφετηρία της ανάλυσης μας είναι τα δύο πρώτα αρχεία Excel: Excel (1): Περιέχει τα δεδομένα των μακροοικονομικών δεικτών που

έχουμε περιγράψει στο Κεφαλαίο 3 για κάθε χώρα. Το συγκεκριμένο Excel το κατασκευάσαμε σύμφωνα με τα βήματα που ακολουθούν παρακάτω και δεδομένα που αντλήσαμε από τη Παγκόσμια Τράπεζα.• Excel (2): Οι αξιολογήσεις πιστοληπτικής ικανότητας των χωρών από

τον Οίκο Fitch, το συγκεκριμένο Excel είναι δημοσιευμένο στο Παγκόσμιο Ιστό και το χρησιμοποιήσαμε αφού καθαρίσαμε κάποια από τα δεδομένα του.

Page 9: Data Mining from World Bank and Fitch

Excel (1):

Page 10: Data Mining from World Bank and Fitch

Excel (2):

Page 11: Data Mining from World Bank and Fitch

Εξαγωγή Δεδομένων 1/4

Page 12: Data Mining from World Bank and Fitch

Εξαγωγή Δεδομένων 2/4

Page 13: Data Mining from World Bank and Fitch

Εξαγωγή Δεδομένων 3/4

Page 14: Data Mining from World Bank and Fitch

Εξαγωγή Δεδομένων 4/4

Page 15: Data Mining from World Bank and Fitch

Τα δεδομένα 1/2

Page 16: Data Mining from World Bank and Fitch

Τα δεδομένα 2/2

Page 17: Data Mining from World Bank and Fitch

WekaΤο Weka (Java) είναι λογισμικό ανάλυσης δεδομένων και κατασκευής μοντέλων προβλέψεων, όπως θα χρησιμοποιηθεί στη παρούσα εργασία, με τη χρήση αλγορίθμων και εργαλείων οπτικοποίησης.

Page 18: Data Mining from World Bank and Fitch

Πείραμα

Στο πείραμα μας θα τρέξουμε (10-fold cross validation) τους παρακάτω αλγόριθμους:

1. J482. Random Forest3. Naive Bayes4. Rotation Forest5. SMO6. ibk (1-NN)7. Vote8. Attribute Selected (Infogain

& ranker)

Page 19: Data Mining from World Bank and Fitch

Αποτελέσματα Αλγορίθμων

Total Instances = 373 Total Attributes = 68

Αποτελέσματα με 10 fold cross validation στο αρχικό dataset

Classification Algorithmcorrectly classified instances percentage

F-measure promoted

F-measure demoted

F-measure average

J48 250 67.02% 70.60% 62.40% 67%

Random Forest 246 65.95% 71.50% 57.80% 65.50%

Naive Bayes 160 42.90% 44.40% 41.30% 43%

Rotation Forest 240 64.34% 69.30% 57.50% 64.10%

SMO 213 57.10% 70.30% 32.10% 49.50%

ibk (1-NN) 222 59.52% 68.70% 42.60% 57.20%

Vote 256 68.63% 72.70% 63.10% 68.50%

Attribute Selected (Infogain & ranker) 247 66.22% 68.30% 63.80% 66.30%

Page 20: Data Mining from World Bank and Fitch

Εκπαίδευση και επαλήθευση του μοντέλου 1/2

Θέλουμε να δούμε αν ο καλύτερος αλγόριθμος που προέκυψε από τις εξαγωγές παραπάνω είναι και αρκετά γενικός. Κατά πάσα πιθανότητα αυτό μας το έχει καλύψει το 10-fold που χρησιμοποιούμε.

Παρόλα αυτά οι δύο καμπύλες μάθησης που θα βγουν στο plot στο τέλος αυτής της ενότητας θα μας δείξουν και αν υπάρχουν περιθώρια περαιτέρω εκπαίδευσης.

Using the best Classification Algorithm from above (J48) Αποτελέσματα evaluation στο ίδιο το training set κάθε φορά

Size of the training datasetcorrectly classified

instancespercenta

geF-measure promoted

F-measure demoted

F-measure average

10% 32 96.97% 97.10% 96.80% 97%20% 63 95.45% 95.50% 95.40% 95.50%30% 94 94.95% 95.50% 94.30% 94.90%40% 126 95.45% 95.70% 95.20% 95.50%50% 155 93.94% 94.40% 93.30% 93.90%60% 171 86.36% 88.70% 82.80% 86.10%70% 208 90.04% 91.60% 87.70% 89.90%80% 216 81.82% 83.40% 79.80% 81.80%90% 267 89.90% 90.60% 89.10% 89.90%

100% 263 79.70% 83.10% 74.50% 79.30%

Page 21: Data Mining from World Bank and Fitch

Εκπαίδευση και επαλήθευση του μοντέλου 2/2

Using the best Classification Algorithm from above (J48) Αποτελέσματα evaluation στο ξεχωριστό test set

Size of the training datasetcorrectly classified

instances percentage F-measure promoted F-measure demoted F-measure average10% 27 62.79% 61.90% 63.60% 62.60%20% 26 60.47% 62.20% 58.50% 60.80%30% 28 65.12% 71.70% 54.50% 64.90%40% 28 65.12% 68.10% 61.50% 65.50%50% 29 67.44% 74.10% 56.30% 67%60% 31 72.09% 76% 66.70% 72.30%70% 30 69.77% 75.50% 60.60% 69.60%80% 33 76.74% 80% 72.20% 76.90%90% 33 76.74% 81.50% 68.80% 76.40%

100% 28 65.12% 70.60% 57.10% 65.30%

Page 22: Data Mining from World Bank and Fitch

Καμπύλες Μάθησης

Το σφάλμα στο test πλησιάζει κάποια στιγμή και το σφάλμα στο training. Αλλά και πάλι το ταβάνι μας φαίνεται να είναι στο 80% accuracy (ιδανικά θα ήταν το 90%). Αφού εκεί πέφτει και το training. Αυτό σημαίνει ότι η ανάλυση μας είναι σε σωστό δρόμο και με περισσότερα features ή instances θα μπορούσε και ακόμη καλύτερα. 

Size of the datasetcorrectly classified instances

percentage

F-measure promoted

F-measure demoted

F-measure average

80% 216 81.82% 83.40% 79.80% 81.80%80% 33 76.74% 80% 72.20% 76.90%

Page 23: Data Mining from World Bank and Fitch

Μοντέλο - J48

Page 24: Data Mining from World Bank and Fitch

Κανόνας Α

Για τις χώρες που έχει μεσολαβήσει μεγαλύτερο χρονικό διάστημα από μια αξιολόγηση και το ΑΕΠ τους είναι

θετικό και τα αποθέματα χρυσού είναι υψηλά, είναι κατά κύριο λόγο θετικές οι αξιολογήσεις που λαμβάνουν.

Page 25: Data Mining from World Bank and Fitch

Κανόνας Β

Για τις χώρες που οι αξιολογήσεις γίνονται σε μικρότερο χρονικό διάστημα μεταξύ τους, και το ΑΕΠ τους μειώνεται μεταξύ των ετών 4 και 5 της ανάλυσης μας αλλά και οι εξαγωγές τους είναι αρνητικές είναι κατά κύριο λόγο αρνητικές.

Page 26: Data Mining from World Bank and Fitch

Δείκτες με ιδιαίτερη βαρύτητα και συσχέτιση

Page 27: Data Mining from World Bank and Fitch

Συμπεράσματα Κατασκευάσαμε ένα μοντέλο, ένα δέντρο απόφασης (J48) που

με ακρίβεια γύρω στο 70% προβλέπει σωστά. Οι δείκτες που φαίνεται να έχουν τη μεγαλύτερη επίδραση

είναι: TimePassed_In_Years και gdpgrowthdiff3-2. Η βαρύτητα των δεικτών είναι : κοντά στο 0.1  και 0.02

αντίστοιχα στον InfoGain. Καμπύλες μάθησης και περιθώρια βελτίωσης.

Page 28: Data Mining from World Bank and Fitch