forex rate analysis using deep learning

8/17/2019 FOREX Rate Analysis Using Deep Learning

1/145

ΑΛΕΞΑΝΔΡΕΙΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ

ΙΔΡΥΜΑ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝΠΛΗΡΟΦΟΡΙΚΗΣ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ

ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΔΙΑΔΙΚΤΥΟΥ – WEB INTELLIGENCE

Ανάλυση νομισματικών ισοτιμιών χρησιμοποιώντας

Βαθιές Μηχανές Μάθησης (Deep Learning)

ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

του

ΙΩΑΝΝΗ ΚΡΙΤΣΩΤΑΚΗ

Επιβλέπων : Κωνσταντίνος Διαμαντάρας

Καθηγητής, ΑΤΕΙΘ

Θεσσαλονίκη, Ιούνιος 2015


2/145

Η σελίδα αυτή είναι σκόπιμα λευκή.


3/145

ΑΛΕΞΑΝΔΡΕΙΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ

ΘΕΣΣΑΛΟΝΙΚΗΣ

ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ

ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΔΙΑΔΙΚΤΥΟΥ - WEBINTELLIGENCE

Ανάλυση νομισματικών ισοτιμιών χρησιμοποιώντας

Βαθιές Μηχανές Μάθησης (Deep Learning)

ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

του

ΙΩΑΝΝΗ ΚΡΙΤΣΩΤΑΚΗ

Επιβλέπων : Κωνσταντίνος Διαμαντάρας

Καθηγητής, ΑΤΕΙΘ

Εγκρίθηκε από την τριμελή εξεταστική επιτροπή στις 30 Ιουνίου 2015.

(Υπογραφή) (Υπογραφή) (Υπογραφή)

................................... ................................... ...................................Κωνσταντίνος Διαμαντάρας Παναγιώτης Αδαμίδης Κωνσταντίνος Γουλιανάς

Καθηγητής, Α.Τ.Ε.Ι.Θ. Καθηγητής, Α.Τ.Ε.Ι.Θ. Επίκουρος Καθηγητής,Α.Τ.Ε.Ι.Θ.

Θεσσαλονίκη, Ιούνιος 2015


4/145

(Υπογραφή)

...................................

Ιωάννη Κριτωτάκη

Μηχανικός Πληροφορικής και Επικοινωνιών, Α.Τ.Ε.Ι. Σερρών

© 2015 – All rights reserved


5/145

i

Περίληψη Αυτή η εργασία ασχολείται με την ανάλυση νομισματικών ισοτιμιών

χρησιμοποιώντας μηχανές Βαθιάς Μάθησης. Η βαθιά μάθηση είναι μια σχετικά νέα τεχνική

που χρησιμοποιεί πολλαπλά στρώματα νευρώνων για να μπορέσει να εκφράσει τις ιδιαίτερα

πολύπλοκες συσχετίσεις μεταξύ των δεδομένων. Συγκεκριμένα έγιναν πειράματα

πρόβλεψης της ανόδου ή καθόδου της ισοτιμίας Ευρώ – Δολαρίου χρησιμοποιώντας ένα

μοντέλο με βάση ένα δίκτυο βαθιάς Πεποιθήσεως. Ως είσοδος στο μοντέλο αυτό

χρησιμοποιήθηκε ένα ευρύ σύνολο από οικονομικές μεταβλητές. Το μοντέλο αυτό

αποτελείται από στοιβαγμένες Περιορισμένες Μηχανές Boltzmann (RBM), των οποίων ταβάρη χρησιμοποιήθηκαν για να αρχικοποιήσουν ένα μοντέλο πολλαπλών στρωμάτων

Perceptron (MLP) παρόμοιας δομής που εκπαιδεύεται με συζυγή κατάβαση δυναμικού. Για

να βελτιωθεί η ικανότητα γενίκευσης του μοντέλου, έγινε διερεύνηση της χρήσης

επιλεγμένων χαρακτηριστικών με βάση το κέρδος πληροφορίας. Τα αποτελέσματα έδειξαν

ότι επιτυγχάνεται αρκετά καλή απόδοση, σε σχέση πάντα με προηγούμενες προσπάθειες

πάνω στην πρόβλεψη νομισματικών ισοτιμιών.

Λέξεις Κλειδιά: Βαθιά Μάθηση, Δίκτυο Βαθιάς Πεποιθήσεως, Πρόβλεψη νομισματικής

ισοτιμίας, Μηχανική Μάθηση, Περιορισμένες Μηχανές Boltzmann


6/145

ii



7/145

iii

Abstract

This dissertation is concerned with foreign exchange rate analysis using deep learning

machines. Deep learning is a rather new neural learning technique that uses multiple hidden

layers in order to capture the correlations between the data. Specifically, experiments were

conducted on the direction of the US dollar – Euro exchange rate using a model based on a

deep belief network. A wide selection of economic variables was used as an input. This

model is comprised of stacked RBMs, whose weights were used to initialize a Multi Layer

Perceptron model with a similar structure, trained with Conjugate Gradient optimization. In

order to improve the generalization efficiency of the model, an investigation was conducted

regarding the selection of the best features based on the information gain. The results

showed that we can achieve considerably improved accuracy, compared to previous

attempts on foreign exchange rate prediction.

Keywords: Deep Learning, Deep Belief Network, Foreign Exchange Rate prediction,

Machine Learning


8/145

iv



9/145

v

Πίνακας περιεχομένων

1 Βαθιά Μάθηση .................................................................................................................... 1

1.1 Το αντικείμενο της παρούσας εργασίας ...................................................................... 1

1.2 Εισαγωγή .................................................................................................................... 2

1.3 Χρήση ......................................................................................................................... 4

1.4 Η αρχιτεκτονική της Βαθιάς Μάθησης ....................................................................... 7

1.5 Οι δυνατότητες αναπαράστασης της βαθιάς αρχιτεκτονικής ..................................... 8

1.6 Ιστορική αναδρομή ..................................................................................................... 9

2 Σχετικές εργασίες ......................................................... ..................................................... 12

3 Θεωρητικό υπόβαθρο ....................................................................................................... 29

3.1 Μηχανή Boltzmann ....................................................................................................29

3.2 RBM ...........................................................................................................................31

3.2.1 Ιδιότητες του RBM ..............................................................................................32

3.2.2 Συμπλήρωση του συνόλου δεδομένων .................................................................33

3.2.3 Η προσέγγιση της κατανομής ...............................................................................33

3.2.4 Contrastive Divergence ......................................................................................35

3.2.5 Η χρήση του RBM στην εκμάθηση δικτύων με μεγάλο βάθος ..............................36

3.3 Δίκτυα Βαθιάς Πεποίθησης .......................................................................................37

3.3.1 Η ιδιαίτερη δομή του ΔΒΠ ..................................................................................40

3.3.2 Στρώμα Softmax..................................................................................................42

3.4 Κέρδος Πληροφορίας .................................................................................................46

3.5 Νομισματική Ισοτιμία ................................................................................................49

3.5.1 Κλασικές τεχνικές πρόβλεψης για την αγορά συναλλάγματος ..............................52

3.5.2 Θεμελιώδης ανάλυση ...........................................................................................52

3.5.3 Τεχνική ανάλυση .................................................................................................52

4 Ανάλυση προβλήματος .................................................................................. ................... 56

4.1 Πρώτες Ύλες (commodities) .....................................................................................57

4.2 Μέταλλα .....................................................................................................................62

4.3 Δείκτες Μετοχών .......................................................................................................64


10/145

vi

4.4 Σταθμισμένοι Εμπορικοί Δείκτες Δολαρίου (USD Trade Weighted Indices ) ..........65

4.5 Επιτόκια .....................................................................................................................66

4.6 Μεταβλητές Τεχνικής ανάλυσης: ..............................................................................67

4.7

Μακροοικονομικές μεταβλητές χωρών .....................................................................68

4.8 Νομισματικές ισοτιμίες ..............................................................................................70

5 Αλγόριθμος επίλυσης (DBN) ............................................................................................ 72

5.1 Ανάλυση αλγορίθμου .................................................................................................72

5.2 Δομή και παράμετροι πειράματος ..............................................................................78

5.2.1 4 στρώματα..........................................................................................................80

5.2.2 Κέρδος Πληροφορίας ..........................................................................................81

6 Αποτελέσματα ................................................................................................ ................... 85

6.1 Παράμετροι αξιολόγησης ..........................................................................................85

6.2 Οργάνωση πειραμάτων ..............................................................................................88

6.3 Αποτελέσματα ............................................................................................................89

6.3.1 Τέσσερα στρώματα ..............................................................................................96

6.4 Σύγκριση με άλλες εργασίες ....................................................................................100

7

Τεχνικές Λεπτομέρειες ....................................................................... ............................ 102

7.1 MATLAB .................................................................................................................102

7.2 Αλγόριθμος Ruslan Salakhutdinov και Geoff Hinton ..............................................103

7.3 Επεξήγηση κώδικα ...................................................................................................103

7.3.1 starter_crossvalind.m .......................................................................................103

7.3.2 Classify.m .........................................................................................................104

7.3.3 Makebatches.m .................................................................................................104

7.3.4 Rbm.m ...............................................................................................................105

7.3.5 Backpropclassify.m ...........................................................................................105

8 Συμπεράσματα και ανασκόπηση ........................................................................... ........ 106

9 Βιβλιογραφικές αναφορές ............................................................................. ................. 111

Παράρτημα Α – Κώδικας Matlab .................................................................................... ................. 117


11/145

1

1

Βαθιά Μάθηση

1.1 Το αντικείμενο της παρούσας εργασίας

Το πρόβλημα με το οποίο ασχολείται αυτή η πτυχιακή είναι η πρόβλεψη των νομισματικών

ισοτιμιών. Θα προσπαθήσουμε να χρησιμοποιήσουμε τις τεχνικές της Βαθιάς Μάθησης για

να προβλέψουμε την νομισματική ισοτιμία ευρώ-δολαρίου και να εξακριβώσουμε αν είναι

αποδοτική σε σχέση με ήδη υπάρχουσες μεθόδους.

Η νομισματική ισοτιμία καθορίζει την αγοραστική αξία του νομίσματος κάθε χώρας και

αποτελεί ένα αρκετά σημαντικό δείκτη της οικονομικής ευρωστίας μιας χώρας καθώς και της

ικανότητας της να προσελκύσει επενδυτές. Οι περισσότερες οικονομικές μελέτες

χρησιμοποιούν τον δείκτη αυτό στα πειράματα τους και ιδιαίτερα την ισοτιμία ευρώ-

δολαρίου, η οποία αποτελεί μια από τις σημαντικότερες ισοτιμίες καθώς το ευρώ αποτελεί το

κοινό νόμισμα πολλών ευρωπαϊκών χωρών και το δολάριο είναι το νόμισμα μιας από τις πιο

πλουτοπαραγωγικές χώρες. Οποιαδήποτε διακύμανση επιφέρει έναν ελαφρύ πανικό στους

οικονομικούς αναλυτές, οι οποίοι θέλουν να έχουν κάποια γνώση στο πως θα διακυμανθεί η

ισοτιμία για να μπορέσουν να προετοιμαστούν καταλλήλως. Έως τώρα έχουν δοκιμαστεί


12/145

2

πολλές μέθοδοι μηχανικής μάθησης με στόχο να προβλέψουν την νομισματική ισοτιμία.

Κάποιες μέθοδοι είχαν καλύτερα αποτελέσματα από άλλες σε όλες τις πτυχές του

προβλήματος που ονομάζεται «πρόβλεψη της ισοτιμίας» ενώ άλλες είχαν τα καλύτερα

αποτελέσματα σε συγκεκριμένες πτυχές.

Με την χρήση της Βαθιάς Μάθησης ελπίζουμε να κατασκευάσουμε ένα μοντέλο πρόβλεψης

που θα έχει καλύτερα αποτελέσματα από όλες τις άλλες μεθόδους. Ήδη η Βαθιά Μάθηση έχει

αποδειχθεί ικανή να αποδίδει σε περίπλοκα προβλήματα όπως η αναγνώριση υψηλών

αφηρημένων εννοιών ,όπως για παράδειγμα ο άνθρωπος ή το συναίσθημα, σε εικόνες και

κείμενα. Στοχεύουμε να μάθουμε αν αυτή η αποτελεσματικότητα μπορεί να μεταφερθεί στο

πρόβλημα μας με τις ισοτιμίες.

1.2 Εισαγωγή

Η βαθιά Μάθηση είναι ένας κλάδος της Μηχανικής Μάθησης που χρησιμοποιεί αλγόριθμους

βαθιάς αρχιτεκτονικής για να χαρτογραφήσει περίπλοκες έννοιες που είναι δύσκολο να

αναλυθούν με άλλες μεθόδους.

Έχουν δοθεί αρκετοί ορισμοί για το τι είναι Βαθιά Μάθηση:

1) Μια κλάση από τεχνικές μηχανικής μάθησης που εκμεταλλεύονται τα πολλαπλά επίπεδα

μη-γραμμικής επεξεργασίας πληροφορίας για εξόρυξη και μετασχηματισμό χαρακτηριστικών

με ή χωρίς επίβλεψη και για ανάλυση και ταξινόμηση προτύπων.

2) Ένα υπό-πεδίο μέσα στην Μηχανική Μάθηση που στηρίζεται σε αλγορίθμους για την

εκμάθηση πολλαπλών επίπεδων αναπαράστασης της πληροφορίας με στόχο να

μοντελοποιήσουν σύνθετες σχέσεις μεταξύ των δεδομένων. Έτσι υψηλού επιπέδου

χαρακτηριστικά και έννοιες ορίζονται με βάση τα χαρακτηριστικά των χαμηλότερων

επιπέδων και για αυτό ονομάζεται η ιεραρχία αυτή βαθιά αρχιτεκτονική. Τα περισσότερα από

τα μοντέλα αυτά βασίζονται στην χωρίς επίβλεψη μάθηση των αναπαραστάσεων.


13/145

3

3) Ένα υπό-πεδίο της μηχανικής μάθησης που βασίζεται σε μοντέλα που μαθαίνουν

πολλαπλά επίπεδα αναπαραστάσεων, τα οποία αντιστοιχούν σε μια ιεραρχία από

χαρακτηριστικά ή παράγοντες ή έννοιες, όπου οι υψηλότερου επιπέδου έννοιες ορίζονται από

αυτές των χαμηλότερων επιπέδων. Η βαθιά μάθηση είναι μέρος μιας ευρύτερης οικογένειας

από μεθόδους μηχανικής μάθησης που βασίζονται σε αναπαραστάσεις. Μια παρατήρηση

(όπως μια εικόνα) μπορεί να αναπαρασταθεί με πολλές έννοιες ( ως διανύσματα από πίξελ,

για παράδειγμα) αλλά κάποιες αναπαραστάσεις είναι πιο χρήσιμες για την επίλυση

προβλημάτων (για παράδειγμα, περιέχει αυτή η εικόνα ένα πρόσωπο;) και έτσι η έρευνα σ'

αυτή την επιστημονική περιοχή προσπαθεί να ορίσει ποιές είναι οι καλύτερες

αναπαραστάσεις και πως μπορούμε να τις μάθουμε.

Σε κάθε ορισμό του “Τι είναι βαθιά μάθηση;” υπάρχουν δύο πτυχές: 1) τα μοντέλα που

αποτελούνται από πολλαπλά επίπεδα μη γραμμικής επεξεργασίας πληροφορίας και 2) οι

μέθοδοι για μάθηση με ή χωρίς επίβλεψη της αναπαράστασης των χαρακτηριστικών σε

διαδοχικά υψηλότερα, πιο αφηρημένα επίπεδα.

Η βαθιά μάθηση βρίσκεται στο σταυροδρόμι μεταξύ των ερευνητικών πεδίων των

νευρωνικών δικτύων, της τεχνητής νοημοσύνης, της μαθηματικής βελτιστοποίησης, της

αναγνώρισης προτύπων και της επεξεργασίας σημάτων.

Τρεις είναι οι λόγοι που η βαθιά μάθηση έχει αποκτήσει τόσο μεγάλη απήχηση τα τελευταία

χρόνια: η δραματική αύξηση της επεξεργαστικής ισχύος των επεξεργαστών με την αρωγή

των Μονάδων Επεξεργασίας Γραφικών (Graphics Processing Units - GPU), το μεγάλο

πλήθος δεδομένων για εκπαίδευση και οι πρόσφατες εξελίξεις στο χώρο της μηχανικής

μάθησης και της επεξεργασίας σημάτων. Αυτές οι εξελίξεις επέτρεψαν στις μεθόδους βαθιάς

μάθησης να χρησιμοποιούν αποτελεσματικά σύνθετες, μη γραμμικές, εξισώσεις για να

μάθουν κατανεμημένες και ιεραρχημένες αναπαραστάσεις χαρακτηριστικών.

Η βαθιά μάθηση υπήρχε εδώ και καιρό ως ιδέα αλλά οι ελλείψεις σε υπολογιστικούς πόρους

και τεχνικές καθώς και το γεγονός ότι τα νευρωνικά δίκτυα με πολλά κρυφά στρώματα είχαν

χειρότερα αποτελέσματα από άλλες αρχιτεκτονικές με ένα ή δύο στρώματα οδήγησαν αρχικά


14/145

4

την επιστημονική κοινότητα να προτιμήσει τεχνικές όπως ρηχά νευρωνικά δίκτυα, μοντέλα

SVM, μεθόδους Bayes, κ.α.

Με την εμφάνιση όμως νέων υπολογιστικών δυνατοτήτων (όπως οι GPU που

προαναφέρθηκαν) και μιας νέας φιλοσοφίας στην εκπαίδευση νευρωνικών δικτύων έχει

αποκτήσει ξανά κεντρικό ρόλο στην εξέλιξη του τομέα της μηχανικής μάθησης.

1.3 Χρήση

Μια από τις πρώτες χρήσεις της Βαθιάς Μάθησης ήταν στην αναγνώριση εικόνας. Οι ήδη

υπάρχουσες μέθοδοι έχουν την δυνατότητα να αναγνωρίζουν αντικείμενα με αρκετή

ακρίβεια. Μπορούν να εντοπίζουν πρόσωπα, να ξεχωρίζουν αντικείμενα και γενικά να

αποφασίζουν αν μια εικόνα περιέχει το αντικείμενο που αναζητούν ή όχι. Αυτό που δεν

μπορούν να κάνουν όμως είναι να εκφέρουν νόημα από την εικόνα. Μπορούν να διακρίνουν

ανθρώπους αλλά δεν μπορούν να μας πουν τι έκαναν αυτοί οι άνθρωποι την στιγμή που

τραβήχτηκε η φωτογραφία. Μπορεί εκείνη την στιγμή να κάθονταν σε ένα τραπέζι και να

έτρωγαν ή να βρίσκονταν σε μια συναυλία ή περπατούσαν σε ένα πάρκο. Ένας συμβατικός

αλγόριθμος θα μπορούσε να εντοπίσει τον άνθρωπο αλλά δεν μπορεί να εντοπίσει την πράξη

που εκτελούσε εκείνη την στιγμή. Γι' αυτό θα χρειαζόταν άλλος αλγόριθμος. Κι αυτός όμως

θα είχε πρόβλημα γιατί θα ήταν σχεδιασμένος να εντοπίζει ένα πράγμα μόνο. Για

παράδειγμα, ας φανταστούμε ότι χρησιμοποιούμε δύο αλγόριθμους: έναν για να εντοπίζει

ανθρώπους και έναν για να εντοπίζει φωτογραφικές μηχανές στην εικόνα. Αν συνδυάσουμε

αυτούς τους δύο αλγορίθμους θα μπορούμε να ξέρουμε αν στην εικόνα υπάρχει ένας

άνθρωπος και αν υπάρχει και μια φωτογραφική μηχανή. Το πρόβλημα που υπάρχει εδώ είναι

ότι δεν μπορούμε να συσχετίσουμε τον άνθρωπο με την μηχανή. Μπορούμε να ξέρουμε ότι

υπάρχουν και οι δύο στην εικόνα αλλά δεν μπορούμε να ξέρουμε να ξέρουμε αν η κάμερα

ανήκει στο άνθρωπο ή βρέθηκε τυχαία στην εικόνα. Αυτό που χρειαζόμαστε είναι ένας

αλγόριθμος που θα μας λέει αν ο άνθρωπος κρατάει την κάμερα ή την έχει περασμένη στο


15/145

5

λαιμό του. Η χαρτογράφηση μιας τέτοιας έννοιας είναι δύσκολη έως αδύνατη. Πως μπορούμε

να ορίσουμε το ρήμα ΚΡΑΤΑΩ; Σίγουρα στην καθομιλουμένη μπορούμε με ελάχιστη

προσπάθεια να δώσουμε ένα ορισμό αλλά για τους υπολογιστές είναι πιο δύσκολο. Πώς θα

μπορεί ο υπολογιστής να καταλάβει μια τόσο σύνθετη έννοια; Ο μόνος τρόπος που

αντιλαμβάνεται ένας υπολογιστής είναι ο μαθηματικός τρόπος. Ένας υπολογιστής

καταλαβαίνει αριθμούς και όχι λέξεις. Χρειάζεται εξισώσεις που θα του εξηγούν και θα

ορίζουν το περιβάλλον που θα πάει να μελετήσει. Χρειάζεται μια εξίσωση που να δέχεται ως

είσοδο την εικόνα και να του δίνει ως έξοδο μια σειρά από ετικέτες που θα χαρακτηρίζουν

την εικόνα. Μια τέτοια εξίσωση όμως είναι αδύνατη. Μια πολύπλοκη και αφηρημένη έννοια

όπως το ρήμα ΚΡΑΤΑΩ αποτελείται από άλλες μικρότερες και απλούστερες έννοιες όπως

ΣΦΙΓΓΩ ΤΑ ΔΑΧΤΥΛΑ ή ΚΡΑΤΑΩ ΚΑΤΙ ΣΤΟ ΥΨΟΣ ΤΟΥ ΣΤΗΘΟΥΣ οι οποίες

μπορούν να χαρακτηριστούν πιο εύκολα από μια εξίσωση. Το πρόβλημα όμως δημιουργείται

όταν προσπαθούμε να συνδυάσουμε αυτές τις εξισώσεις για να βγάλουμε την εξίσωση που θα

χαρακτηρίζει το ρήμα ΚΡΑΤΑΩ. Η συνδυασμένη εξίσωση θα περιέχει πολλούς μη -

γραμμικούς όρους που θα κάνουν δύσκολή την οποιαδήποτε προσπάθεια να την επιλύσουμε.

Η υπολογιστική ισχύς και μόνο που θα χρειαζόταν μια τέτοια εξίσωση είναι αυτή την στιγμή

αδύνατη να υπάρξει. Γι' αυτό το λόγο υπήρχε ως τώρα ένα τέλμα στην αναγνώριση εικόνας.

Ως τώρα οι αλγόριθμοι βασίζονταν στην επίλυση αυτών των εξισώσεων σε ρηχές

αρχιτεκτονικές που είχαν το πολύ ένα με δύο στρώματα κρυφών νευρώνων. Οι ρηχές

αρχιτεκτονικές χρειάζονται πόρους ανάλογα με την πολυπλοκότητα της εξίσωσης οπότε

καθιστούσε δύσκολη οποιαδήποτε προσπάθεια να δημιουργηθεί κάποιο αποτελεσματικό

δίκτυο.

Και εδώ είναι που μπαίνει η βαθιά μάθηση. Η βαθιά μάθηση χρησιμοποιεί δίκτυα με

πολλαπλά επίπεδα για να εκφράσει τις πολύπλοκες έννοιες. Όπως αναλύθηκε παραπάνω, οι

πολύπλοκες έννοιες είναι δύσκολο να προσδιοριστούν, τουλάχιστον σε τέτοιο βαθμό που να

μπορούν να υλοποιηθούν ως αλγόριθμοι. Ο υπολογισμός και μόνο μιας τέτοιας έννοιας θα

δέσμευε τους υπολογιστές όλων των ερευνητικών ιδρυμάτων για χρόνια. Αυτό που


16/145

6

επιδιώκεται με την βαθιά μάθηση είναι να φτιαχτούν αλγόριθμοι που θα μπορούν να

γενικεύουν τέτοιες έννοιες χωρίς να χρειάζεται ανθρώπινη παρέμβαση. Και φυσικά να το

κάνουν και γρήγορα.

Για να το πετύχει αυτό η βαθιά μάθηση χρησιμοποιεί πολλά επίπεδα από κρυφούς νευρώνες.

Η φιλοσοφία πίσω από τα πολλαπλά επίπεδα είναι ότι κάθε επιπλέον επίπεδο που προστίθεται

στο δίκτυο θα αναλύει το πρόβλημα με πιο αφαιρετικό τρόπο. Για να γίνει πιο σαφές αυτό,

θα χρησιμοποιήσουμε το παράδειγμα με την εικόνα που αναφέραμε παραπάνω. Μια εικόνα

αναλύεται σε πίξελ. Ένα αντικείμενο εντοπίζεται όταν μια ομάδα από πίξελ μοιάζει αρκετά

με το πρότυπο που έχουμε για το αντικείμενο. Στην ουσία η αντιστοίχηση γίνεται από την

ευκλείδεια απόσταση που έχουν τα χαρακτηριστικά μεταξύ των δύο ομάδων. Τι γίνεται όμως

όταν ένα αντικείμενο που έχει πιο αφηρημένο νόημα, όπως ο ΑΝΘΡΩΠΟΣ, έχει πολλές

ομάδες από πίξελ που θα αντιστοιχούν στο ίδιο πρότυπο; Εκεί δεν μπορούμε να

χρησιμοποιήσουμε την ευκλείδεια απόσταση. Είναι όμως προφανές ότι όλες οι ομάδες είναι

έγκυρες. Άρα το πρόβλημα βρίσκεται στο να βρούμε τον συνδετικό κρίκο που συνδέει όλες

αυτές τις ομάδες στο ίδιο πρότυπο. Αυτό το πρόβλημα με τις ομάδες από πίξελ ονομάζεται

από τους επιστήμονες του χώρου το “πρόβλημα της διάστασης”.

Οι ομάδες αυτές έχουν κάποια συσχέτιση μεταξύ τους αλλά βρίσκονται τόσο

διασκορπισμένες μέσα στο πολυδιαστασιακό χώρο που σχηματίζουν τα χαρακτηριστικά που

δεν μπορούμε να τα ταξινομήσουμε κάνοντας χρήση της μεταξύ τους απόστασης. Για αν

μπορέσουμε να εντοπίσουμε μια τόσο ασαφή έννοια θα πρέπει να στηριχθούμε σε

ταξινομητές τόσο χαμηλού όσο και μέσου επιπέδου. Οι χαμηλού επιπέδου ταξινομητές θα

στηρίζονται σε απτά χαρακτηριστικά όπως το χρώμα και οι ακμές και οι μέσου επιπέδου

ταξινομητές θα στηρίζονται σε πιο αφηρημένες έννοιες.

Το πρόβλημα όμως εδώ είναι ότι θέλουμε να πιάσουμε ένα ευρύ σύνολο από υψηλής

αφαιρετικότητας κατηγορίες και δεν ξέρουμε πώς να φτιάξουμε ταξινομητές για τις μεσαίου

και υψηλού επιπέδου έννοιες. Αυτό είναι που προσπαθεί να επιλύσει η αρχιτεκτονική βαθιάς

μάθησης. Ο στόχος είναι να ανακαλύπτονται αυτόματα οι αφηρημένες έννοιες από το


17/145

7

χαμηλότερο επίπεδο έως το υψηλότερο, χωρίς ανθρώπινη παρέμβαση. Το ιδανικό φυσικά, θα

ήταν να φτιάχναμε αλγορίθμους που θα επέτρεπαν την αυτόματη ανακάλυψη των

αφηρημένων εννοιών, χωρίς να χρειάζεται να ορίσουμε κάθε επίπεδο αφαιρετικότητας ή να

παρέχουμε πολλά παραδείγματα που ορίστηκαν με το χέρι. Ο απώτερος στόχος θα ήταν να

φτιαχτεί ένας αλγόριθμος που θα τραβούσε εικόνα και κείμενο από το Διαδίκτυο και θα

ταξινομούσε αυτόματα τα παραδείγματα χωρίς την δική μας παρέμβαση.

1.4 Η αρχιτεκτονική της Βαθιάς Μάθησης

Η βαθιά μάθηση στηρίζεται στην αρχιτεκτονική πολλών επιπέδων που ονομάζεται και βαθιά

αρχιτεκτονική. Αυτό την κάνει να διαφέρει από τις μέχρι τώρα τεχνικές που στηρίζονταν σε

ρηχές αρχιτεκτονικές, που χρησιμοποιούν ένα μόνο επίπεδο κρυφών νευρώνων για να

προσεγγίσουν τον στόχο. Πολλές από τις υπάρχουσες ρηχές αρχιτεκτονικές όπως τα RBM

και τα νευρωνικά δίκτυα χρησιμοποιώντας ένα μόνο επίπεδο κρυφών νευρώνων μπορούσαν

να λειτουργήσουν ως καθολικοί προσεγγιστές για όλων των ειδών τις συναρτήσεις,

τουλάχιστον στην θεωρία. Στην πράξη όμως υπάρχει ένας περιορισμός, που είναι ότι

μπορούν να προσεγγίσουν μια συνάρτηση αν έχουν επαρκή αριθμό από κρυφές μεταβλητές.

Άρα γίνεται κατανοητό ότι αυτή η άποψη ότι μπορούν να είναι καθολικοί προσεγγιστές για

κάθε είδους συνάρτηση παύει να είναι εφικτή για συναρτήσεις με πολλά μεταβαλλόμενα

μέρη, καθώς ο αριθμός των παραμέτρων που χρειάζονται αυξάνεται εκθετικά σε σχέση με το

μέγεθος της εισόδου. Αυτό αποτελεί ένα παράδειγμα του προβλήματος της διάστασης που

αναφέραμε παραπάνω. Σε αντίθεση, οι αρχιτεκτονικές μεγάλου βάθους που διαθέτουν

περισσότερα στρώματα μπορούν να οδηγήσουν σε ικανοποιητική αντιπροσώπευση

παραμένοντας καθολικοί προσεγγιστές σε όλη την διαδικασία. Εικάζεται ότι με την χρήση

πολλών επιπέδων μπορούμε να μειώσουμε το υπολογιστικό κόστος σε διαχειρίσιμα επίπεδα.

Αυτό μπορεί να γίνει πιο εύκολα κατανοητό με το παράδειγμα της συνάρτησης ισοτιμίας

(parity function).


18/145

8

αν

άρτιος

αν

περιττός

Όπου το x είναι το διάνυσμα των bit εσόδου και το πλήθος των bits. Ο αριθμός των νευρώνων που χρειάζονται αλλάζει ανάλογα με το βάθος του δικτύου:

Για ένα δίκτυο 2 στρωμάτων χρειάζονται νευρώνες για ένα δίκτυο 2 στρωμάτων αλλάγια στρώματα χρειάζονται μόνο νευρώνες.

1.5 Οι δυνατότητες αναπαράστασης της βαθιάς

αρχιτεκτονικής

Τα δίκτυα βαθιάς αρχιτεκτονικής έχουν ένα αποδοτικό τρόπο να εκπαιδεύονται στα δεδομένα

χρησιμοποιώντας εκμάθηση αναπαράστασης χωρίς επίβλεψη για να μαθαίνουν τις βαθιές

αναπαραστάσεις. Κάθε φορά που μαθαίνουν μια βαθιά αναπαράσταση, την χρησιμοποιούν

για να φτάσουν το τελικό στόχο πιο εύκολα, που είναι να μάθουν να αναγνωρίζουν ή να

συμπεραίνουν μια πολύπλοκη και αφηρημένη έννοια . Εδώ γίνεται χρήσιμη η αναδρομική

δυνατότητα της μάθησης αναπαράστασης. Ας πάρουμε για παράδειγμα, ένα αλγόριθμο που

μπορεί να μάθει μια αναπαράσταση h1 για τα δεδομένα x. Ο ίδιος αλγόριθμος μπορεί να

χρησιμοποιηθεί ξανά για να μάθει μια αναπαράσταση h2 από την h

1. Αυτό μπορεί να

συνεχιστεί για όσα επίπεδα επιθυμούμε.

Αυτή είναι η θεωρία πίσω από την κατά στρώματα εκπαίδευση που αποτελεί την βάση

πολλών αλγορίθμων βαθιάς μάθησης, όπου μπορούμε να έχουμε μια καλύτερη

αναπαράσταση h(k+1)

στηριζόμενοι στην προηγούμενη αναπαράσταση h(k)

χρησιμοποιώντας

έναν αλγόριθμο χωρίς επίβλεψη.

Η εκμάθηση κατά επίπεδα προσφέρει πολλά πλεονεκτήματα. Όταν χρησιμοποιούμε

πολλαπλά επίπεδα, το αρχικό πρόβλημα βελτιστοποίησης διασπάται σε μικρότερα


19/145

9

προβλήματα με λιγότερες παραμέτρους ανά επίπεδο. Έτσι αν έχουμε K επίπεδα με D

νευρώνες ανά επίπεδο, κάθε επίπεδο Κ ασχολείται με ένα μικρό σκέλος του προβλήματος

και οι D νευρώνες του επιπέδου αφορούν τις παραμέτρους για το συγκεκριμένο υπο-

πρόβλημα.

Αυτό μας προσφέρει δύο πλεονεκτήματα: πρώτον, από πλευράς βελτιστοποίησης, είναι πιο

αποτελεσματική η βελτιστοποίηση στην D διάσταση παρά στην K * D διάσταση. Δεύτερον,

έχουμε καλύτερη γενίκευση, επειδή το μικρότερο πλήθος παραμέτρων ανά επίπεδο το κάνει

λιγότερο ευπαθές στην υπερπροσαρμογή (overfitting) και άρα στο σύνολο έχουμε καλύτερη

απόδοση. Επιπλέον, οι αναπαραστάσεις που παίρνουμε με την χρήση της κατά επιπέδου

διαδικασίας εκμάθησης μπορεί να χρησιμοποιηθεί ως μια μορφή προ-εκπαίδευσης χωρίς

επίβλεψη για να αρχικοποιήσουμε ένα μοντέλο με επίβλεψη και να βελτιώσουμε την

γενίκευση.

1.6 Ιστορική αναδρομή

Έως τώρα, οι περισσότερες τεχνικές μηχανικής μάθησης και επεξεργασίας σήματος

χρησιμοποιούσαν ρηχές αρχιτεκτονικές. Αυτές οι αρχιτεκτονικές συνήθως περιείχαν ένα με

δύο επίπεδα κρυφών νευρώνων. Παραδείγματα ρηχής αρχιτεκτονικής είναι τα SVM, η

λογιστική παλινδρόμηση, η παλινδρόμηση πυρήνα, τα Δίκτυα Perceptron Πολλών

Στρωμάτων (Multilayer Perceptron – MLP) με ένα μόνο κρυφό στρώμα, κ.α.

Η ρηχή αρχιτεκτονική έχει αποδειχθεί αποτελεσματική στο να επιλύει μικρά ή καλά

ορισμένα προβλήματα αλλά η περιορισμένη ικανότητα της στην μοντελοποίηση και

αναπαράσταση μπορεί να προκαλέσει δυσκολίες όταν χειριζόμαστε πιο σύνθετα προβλήματα

που υπάρχουν στον φυσικό κόσμο όπως η αναγνώριση της ομιλίας, η κατανόηση φυσικής

γλώσσας και η απεικόνιση του φυσικού κόσμου.

Οι μηχανισμοί επεξεργασίας της ανθρώπινης πληροφορίας (όραση και ακοή) υποδεικνύουν

την ανάγκη για βαθιές αρχιτεκτονικές που θα εξάγουν την περίπλοκη δομή και θα χτίσουν


20/145

10

την εσωτερική αναπαράσταση από τις αισθητήριες εισόδους. Για παράδειγμα, τα συστήματα

παραγωγής και αντίληψης της ανθρώπινης ομιλίας είναι φτιαγμένα ως πολύ-στρωματικές,

ιεραρχικά κατανεμημένες, δομές που μεταβαίνουν από το επίπεδο της κυματομορφής στο

καθαρά γλωσσολογικό επίπεδο. Με παρόμοιο τρόπο δουλεύει και το σύστημα όρασης, με μια

ιεραρχική δομή, ιδιαίτερα στο κομμάτι της αντίληψης. Υπάρχει λοιπόν η πεποίθηση ότι θα

μπορέσουμε να προσομοιώσουμε τα συστήματα αυτά αν φτιάξουμε αποτελεσματικούς

αλγόριθμους βαθιάς μάθησης.

Ιστορικά η έννοια της βαθιάς μάθησης προήλθε από την έρευνα πάνω στα τεχνητά νευρωνικά

δίκτυα (γι’ αυτό και καμιά φορά μπορεί να ακούσουμε την έκφραση «νέα γενιά νευρωνικών

δικτύων»). Νευρωνικά δίκτυα με εμπρόσθια τροφοδότηση ή MLP με πολλά κρυφά επίπεδα,

που συχνά αναφέρονται και ως Βαθιά Νευρωνικά Δίκτυα (Deep Neural Networks), είναι

μερικά καλά παραδείγματα μοντέλων με βαθιά αρχιτεκτονική. Ο αλγόριθμος Back-

Propagation είναι ιδιαίτερα γνωστός και χρησιμοποιείται συχνά για την εκπαίδευση τέτοιων

δικτύων. Δυστυχώς ο ΒΡ μόνος του δεν λειτούργησε σωστά στην πράξη παρά μόνο για

δίκτυα με μικρό αριθμό από κρυφά στρώματα. Η διάχυτη παρουσία τοπικών βέλτιστων

καθώς και άλλες προκλήσεις βελτιστοποίησης ήταν ο κύριος λόγος που υπήρχαν δυσκολίες

στην εκπαίδευση. Ο ΒΡ βασίζεται στην τοπική πληροφορία κατάβασης και συχνά «κολλάει»

σε τοπικά βέλτιστα. Αυτή η δυσκολία είναι μερικώς υπεύθυνη που εγκαταλείφθηκε η χρήση

των νευρωνικών δικτύων για χάρη ρηχών μοντέλων που έχουν κυρτές συναρτήσεις

απωλειών. Τα ρηχά μοντέλα πετυχαίνουν το καλύτερο μέγιστο με το κόστος ότι έχουν

μειωμένη ικανότητα μοντελοποίησης. Η έρευνα πάνω στα νευρωνικά δίκτυα έχει συνεχίσει

αλλά υπήρξε μικρή βελτίωση.

Το πρόβλημα της βελτιστοποίησης που υπήρχε με τα βαθιά μοντέλα λύθηκε όταν προτάθηκε

ένας νέος αλγόριθμος που εκπαίδευε χωρίς επίβλεψη και είχε καλή απόδοση. Το μοντέλο που

προτάθηκε όνομαζόταν Δίκτυο Βαθιάς Πεποίθησης (Deep Belief Network ). Το ΔΒΠ

αποτελείται από μια στοίβα από Περιορισμένες Μηχανές Boltzmann (Restricted Boltzmann

Machine). Ένα βασικό στοιχείο του ΔΒΠ είναι ένας αλγόριθμος εκπαίδευσης που βελτιώνει


21/145

11

τα βάρη του δικτύου επίπεδο προς επίπεδο. Αρχικοποιώντας τα βάρη ενός MLP δικτύου με

ένα αντιστοιχο δίκτυο βαθιάς πεποίθησης παράγει καλύτερα αποτελέσματα από ότι αν ήταν

τυχαία τα αρχικά βάρη. Γι αυτό το λόγο τα δίκτυα MLP με πολλαπλά κρυφά στρώματα (ή

αλλιώς Βαθιά Νευρωνικά Δίκτυα) τα οποία προ-εκπαιδεύονται με ΔΒΠ χωρίς επίβλεψη και

μικρο-ρυθμίζονται με Back-Propagation ονομάζονται μερικές φορές ως ΔΒΠ σε διάφορα

άρθρα. Βέβαια πρόσφατα οι ερευνητές κάνουν αισθητή προσπάθεια να διακρίνουν τα βαθιά

νευρωνικά δίκτυα από τα δίκτυα βαθιάς πεποίθησης.

Πέρα από το γεγονός ότι παρέχει καλά αρχικά βάρη, το ΔΒΠ έχει και άλλες ενδιαφέρουσες

ιδιότητες. Πρώτα από όλα, ό αλγόριθμος εκμάθησης κάνει καλή χρήση δεδομένων χωρίς

ετικέτες. Δεύτερον μπορεί να ερμηνευτεί ως ένα πιθανοτικό παραγωγικό μοντέλο. Το

πιθανοτικό παραγωγικό μοντέλο είναι ένα μοντέλο που παράγει τυχαία διανύσματα

δεδομένων, συνήθως συναρτήσει κάποιων κρυφών μεταβλητών. Τρίτον, το πρόβλημα του

over-fitting, που εμφανίζεται σε μοντέλα με εκατομμύρια παραμέτρους όπως το ΔΒΠ, και το

πρόβλημα του under-fitting, που εμφανίζεται συνήθως σε βαθιά δίκτυα, μπορούν να

μετριαστούν από το στάδιο της παραγωγικής προ-εκπαίδευσης.

Χρησιμοποιώντας κρυφά επίπεδα με πολλούς νευρώνες σε ένα ΒΝΔ αυξάνει σημαντικά την

ικανότητα μοντελοποίησης του δικτύου και δημιουργεί πολλά επιθυμητά χαρακτηριστικά.

Ακόμα και αν η παράμετρος εκμάθησης εγκλωβιστεί σε ένα τοπικό βέλτιστο, το ΒΝΔ θα

αποδώσει πάλι καλά αφού η πιθανότητα να έχουμε ένα κακό τοπικό βέλτιστο είναι μικρότερη

από την περίπτωση που έχουμε λίγους νευρώνες στο δίκτυο.


22/145

12

2

Σχετικές εργασίες

Στο κεφαλαίο αυτό παρουσιάζονται κάποιες προϋπάρχοντες εργασίες πάνω στην πρόβλεψη

νομισματικών ισοτιμιών. Οι περισσότερες από αυτές προσπαθούν να εφαρμόσουν κάποια

μορφή παλινδρόμησης, να προβλέψουν δηλαδή την αυριανή τιμή της ισοτιμίας-στόχου

χρησιμοποιώντας παλαιότερες τιμές της ισοτιμίας αυτής καθώς και άλλων οικονομικών

μεταβλητών. Οι περισσότερες μελέτες επικεντρώνονται σε ισοτιμίες νομισμάτων με μεγάλη

επίδραση στην αγορά όπως οι ισοτιμίες ευρώ-δολαρίου και ευρώ-λίρας Αγγλίας. Αυτές οι

δύο αποτελούν την συνήθη επιλογή αν και δεν είναι σπάνιο να χρησιμοποιηθεί και κάποια

επιπλέον ισοτιμία. Την ισοτιμία την επηρεάζουν πάρα πολλοί παράγοντες, από απλοί

οικονομικοί μέχρι και ψυχολογικοί. Έτσι γίνεται αντιληπτό ότι η συσχέτιση μεταξύ μιας

ισοτιμίας και των διάφορων οικονομικών παραμέτρων είναι μη-γραμμική και θορυβώδης.

Οι μέθοδοι που χρησιμοποιούνται σε αυτά τα άρθρα κυμαίνονται από απλές δοκιμές με

διάφορες τεχνικές όπως οι μηχανές υποστήριξης διανύσματος και τα τεχνητά νευρωνικά

δίκτυα μέχρι και πιο περίεργες διατάξεις όπως η χρήση χαοτικών μοντέλων και εξελικτικών

αλγορίθμων όπως ο αλγόριθμος σμήνους.

Παρακάτω παρουσιάζονται κάποια άρθρα όπου γίνεται προσπάθεια να προβλεφθεί κάποια

νομισματική ισοτιμία.Στο άρθρο “ Exchange Rate Prediction Using an Evolutionary

Connectionist Model ”, οι Mansour Sheikhan και Behzad Movaghar προτείνουν την χρήση

γενετικών αλγορίθμων για να βρουν τις βέλτιστες τιμές για τις παραμέτρους ενός δικτύου


23/145

13

πολλαπλών στρωμάτων perceptron (αριθμός χαρακτηριστικών εισόδου, αριθμός κρυφών

νευρώνων) καθώς και για τους συντελεστές εκμάθησης και ορμής. Για την ανάλυση του

δικτύου χρησιμοποιήθηκαν οι ισοτιμίες ευρώ-δολαρίου και ευρώ-βρετανικής λίρας. Επειδή οι

πραγματικές τιμές οδηγούσαν το σύστημα σε κακή ποιότητα πρόβλεψης, χρησιμοποιήθηκαν

δείκτες που παράχθηκαν από το λογισμικό MetaTrader . Τα πειράματα τους διεξήχθησαν σε

δύο βήματα. Στο πρώτο βήμα, διαλέγονται οι καλύτεροι συντελεστές για τις διαδικασίες της

επιλογής και του crossover.

Αυτοί οι συντελεστές είναι οι εξής:

Εικόνα 2 - 1

Σ’ αυτό το στάδιο οι τιμές για την πιθανότητα μετάλλαξης, τον αρχικό πληθυσμό και τον

αριθμό των γενεών είναι σταθερές. Στο δεύτερο βήμα, γίνονται δοκιμές για να βρεθούν οι

καλύτερες τιμές για αυτές τις παραμέτρους. Οι συνδυασμοί επιλογών οδήγησαν στα

παρακάτω αποτελέσματα για τις δύο ισοτιμίες:

Εικόνα 2 - 2


24/145

14

Εικόνα 2 - 3

Στο «forecasting exchange rate using support vector machines» των Ding-Zhou Cao, Su-Lin

Pang, Yuan-Huai Bai γίνεται χρήση των μηχανών υποστήριξης διανυσμάτων (SVM) για να

προβλεφτεί η ισοτιμία βρετανικής λίρας-δολαρίου. Το σύστημα καταφέρνει να προβλέψει

αρκετά καλά την ισοτιμία αλλά έχει μια μικρή απόκλιση. Η πειραματική διαδικασία είναι ως

εξής: πρώτα δοκιμάστηκαν διάφορα χρονικά διαστήματα για να βρεθεί ο κατάλληλος αριθμός

προηγούμενων ημερών που θα χρησιμοποιηθεί για το πείραμα. Μετά από μια σειρά από

δοκιμές, οι συγγραφείς κατέληξαν στο χρονικό διάστημα των 4 ημερών όπως φαίνεται και

από το διάγραμμα:

Εικόνα 2 - 4


25/145

15

Για το πείραμα, δοκιμάστηκαν οι παράμετροι του πυρήνα δ, ε και C. Παρακάτω φαίνονται τα

αποτελέσματα που οδήγησαν στην επιλογή του συντελεστή δ:

Εικόνα 2 - 5

Παρόμοια αποδεικνύονται και οι άλλοι δύο συντελεστές. Η επιλογή των συντελεστών

στηρίχθηκε στα αποτελέσματα από το validation set. Μετά από ανάλυση των δεδομένων οι

συγγραφείς κατέληξαν στις εξής τιμές για τους συντελεστές: δ2

=100, C=100, ε=0.001.

Ξαναέτρεξαν το δίκτυο με αυτές τις τιμές και έβγαλαν τα εξής αποτελέσματα: MSE =

0.00300396 και αριθμό διανυσμάτων υποστήριξης 29. Στο παρακάτω διάγραμμα φαίνεται η

πραγματική τιμή με την προβλεπόμενη:

Εικόνα 2 - 6


26/145

16

Στο « Foreign Exchange Rate Prediction using Computational Intelligence Methods» οι V.

Ravi, Ramanuj Lal και N. Raj Kiran μελετάνε την πρόβλεψη ισοτιμιών χρησιμοποιώντας 6

ευφυείς υπολογιστικές μεθόδους:

Α) το νευρωνικό δίκτυο κυμάτων(WNN), που είναι ένας νευρωνικό δίκτυο με εμπρόσθια

τροφοδότηση που έχει ένα στρώμα κρυφών νευρώνων, του οποίου οι συναρτήσεις των

κρυφών νευρώνων ανήκουν στην οικογένεια των ορθογωνικών κυμάτων. Τα WNN δίκτυα

επιλύουν το πρόβλημα της σύγκλισης που συναντάται σε άλλα είδη νευρωνικών δικτύων.

Β) το δυναμικά εξελισσόμενο νευρο-ασαφες επαγωγικό σύστημα (DENFIS) το οποίο εισήχθη

από τον Kasabov είναι ένα σύστημα το οποίο μαθαίνει μέσα από μια σταδιακή, υβριδική

εκμάθηση και δέχεται νέα δεδομένα μέσα από ρύθμιση των τοπικών στοιχείων. Νέοι ασαφείς

κανόνες δημιουργούνται και ανανεώνονται κατά την διάρκεια της λειτουργίας. Ανά πάσα

στιγμή, η έξοδος του συστήματος υπολογίζεται από ένα σύστημα ασαφής επαγωγής, που

βασίζεται στους πιο ενεργούς ασαφείς κανόνες, που επιλέγονται δυναμικά από ένα σετ

ασαφών κανόνων.

Γ) Πολυπαραγοντική προσαρμοστική συνάρτηση παλινδρόμησης (Multivariate Adaptive

Regression Splines)

Η συνάρτηση αυτή εισήχθη από τον Friedman και είναι ένας καινοτόμος τρόπος να

αυτοματοποιείται η διαδικασία της κατασκευής ακριβών μοντέλων πρόβλεψης για συνεχείς

και δυαδικές μεταβλητές. Είναι η καλύτερη επιλογή για να βρίσκει την δομή σε δεδομένα με

πολλές διαστάσεις.

Δ) Η παλινδρόμηση υποστήριξης διανυσμάτων είναι μια υποκατηγορία των μηχανών

υποστήριξης διανυσμάτων, που χρησιμοποιεί τα καλύτερα παραδείγματα από τα δεδομένα,

για να φτιάξει μια συνάρτηση παλινδρόμηση των δεδομένων.

Ε) Η ομαδική μέθοδος χειρισμού των δεδομένων (Group method of data handling ) είναι μια

οικογένεια από επαγωγικές συναρτήσεις που μοντελοποιούν πολύ-παραμετρικά σετ

δεδομένων που προσφέρουν πλήρως αυτοματοποιημένη δομική και παραμετρική

βελτιστοποίηση των μοντέλων.


27/145

17

ΣΤ) Ο Γενετικός προγραμματισμός είναι ένας αλγόριθμος εμπνευσμένος από την βιολογία

που προσπαθεί να βρει τα κατάλληλα προγράμματα για να διεκπεραιώσουν μια διαδικασία.

Μοιάζει πολύ με τους γενετικούς αλγόριθμους αλλά εδώ το κάθε άτομο είναι ένα πρόγραμμα.

Οι συγγραφείς συνδύασαν τις μεθόδους αυτές σε ένα ενιαίο σύστημα όπου όλες αυτές οι

μέθοδοι λειτουργούν παράλληλα και υπάρχει ένας κεντρικός ελεγκτής που αποφασίζει ποιας

μεθόδου τα αποτελέσματα θα ληφθούν υπόψη και σε τι βαθμό. Αυτό γίνεται γιατί μια

μέθοδος αποδίδει για ένα σετ δεδομένων αλλά δεν αποδίδει για κάποιο άλλο σετ. Και επειδή

οι συγγραφείς δεν ήθελαν να χάσουν την ικανότητα γενίκευσης του συστήματος, εφάρμοσαν

αυτό το σύστημα επιλογής όπου συγκρίνει τα αποτελέσματα και αποφασίζει ποια μέθοδος

είναι η καταλληλότερη. Στο παρακάτω σχήμα φαίνεται η διάταξη:

Εικόνα 2 - 7

Τα τελικά αποτελέσματα δείχνουν ότι η ομαδική μέθοδος χειρισμού των δεδομένων και ο

γενετικός προγραμματισμός ξεπερνούν σε αποτελεσματικότητα τις άλλες μεθόδους όσον

αναφορά την συνολική τους απόδοση.


28/145

18

Στο άρθρο «SVM Based Models for Predicting Foreign Currency Exchange Rates» των

Joarder Kamruzzaman, Ruhul A Sarker και Iftekhar Ahmad γίνεται ανάλυση των

δυνατοτήτων των μηχανών υποστήριξης διανυσμάτων στην πρόβλεψη νομισματικών

ισοτιμιών. Έχουν επιλέγει διάφορες ισοτιμίες με στόχο να προβλεφθεί η διακύμανση του

Αυστραλιανού δολαρίου. Επειδή δεν υπάρχει κάποιο εργαλείο για την επιλογή συνάρτησης

πυρήνα, αυτή επιλέγεται από τον χρήστη. Δοκιμάστηκαν λοιπόν τέσσερις συναρτήσεις:

γραμμική, πολυωνυμική, rbf και spline. Επίσης δοκιμάστηκαν διάφορες τιμές για το C από

μικρές τιμές (0.1) μέχρι και πιο μεγάλες (105) και το ε ορίστηκε 10

-3.

Στο παρακάτω διάγραμμα φαίνεται η απόδοση που είχαν οι συναρτήσεις για διάφορες

ισοτιμίες:

Εικόνα 2 - 8

Από το παραπάνω διάγραμμα φαίνεται ότι η rbf δίνει τα καλύτερα αποτελέσματα για JPY,

NZD και CHF ενώ η πολυωνυμική δίνει τα καλύτερα αποτελέσματα για USD και SGD.

Είναι προφανές ότι η rbf και η πολυωνυμική αποτελούν τις καλύτερες επιλογές . Αλλά αυτό

που διαφαίνεται εδώ όμως είναι ότι δεν υπάρχει μια μέθοδος που να υπερισχύει των άλλων.

Τα τελικά αποτελέσματα έδειξαν ότι: για μείωση του σφάλματος πρόβλεψης, η πολυωνυμική

αποδεικνύεται η καλύτερη . Για την πρόβλεψη της τάσης (trend ) η πολυωνυμική και η rbf

αποδεικνύονται εξίσου ικανές. Η rbf και η πολυωνυμική συνάρτηση είχαν γενικά τα


29/145

19

καλύτερα αποτελέσματα. Φυσικά η τελική επιλογή της συνάρτησης καθορίζεται από την

ισοτιμία που προσπαθεί κανείς να προβλέψει διότι τα αποτελέσματα έδειξαν ότι η επιλεγμένη

ισοτιμία παίζει ρόλο στην επιλογή της συνάρτησης πυρήνα.

Στο αρθρο « A hybrid model for exchange rate prediction» των Huseyin Ince και Theodore B.

Trafalis γίνεται μια προσπάθεια να συνδυαστούν παραμετρικές και μη-παραμετρικές τεχνικές

με στόχο να βρεθεί καλύτερο αποτέλεσμα στην πρόβλεψη ισοτιμιών. Ο στόχος του άρθρου

είναι να δημιουργηθεί ένα μοντέλο πρόβλεψης με δύο στάδια. Στο πρώτο στάδιο γίνεται η

επιλογή των χαρακτηριστικών χρησιμοποιώντας μοντέλα χρονοσειρών όπως το ARIMA και

η ανάλυση συσσωμάτωσης. Στο δεύτερο στάδιο χρησιμοποιούνται κορυφαίες τεχνικές για να

προβλεφθεί η ισοτιμία. Εκτιμάται ότι μέσω αυτού του συνδυασμού θα ανακαλυφθούν νέα,

ισχυρά μοντέλα πρόβλεψης.

Το πρώτο στάδιο ασχολείται με την εύρεση των χαρακτηριστικών που επηρεάζουν

περισσότερο τον καθορισμό της ημερήσιας ισοτιμίας . Τα δεδομένα αποτελούνταν από τις

ισοτιμίες Ευρώ/δολαρίου, λίρας-δολαρίου, γιαπωνέζικου γιεν-δολαρίου και αυστραλιανού

δολαρίου-αμερικανικού δολαρίου από τον Ιανουάριο του 2000 μέχρι και τον Μάιο του 2004.

Στο πρώτο μέρος του πειράματος γίνεται ανάλυση με βάση την χρονοσειρά για να βρεθεί ο

αριθμός των χαρακτηριστικών χρησιμοποιώντας την μέθοδο ARIMA, την VAR και την

ανάλυση συσσωμάτωσης για τις ισοτιμίες ευρώ-δολαρίου και λίρας-δολαρίου. Οι μέθοδοι

χρονοσειράς χωρίζονται σε δύο κατηγορίες: σε μονοπαραγοντικές χρονοσειρές, όπου ανήκει

η μέθοδος ARIMA και οι πολυπαραγοντικές χρονοσειρές, όπου ανήκουν οι τεχνικές VAR

και ανάλυσης συσσωμάτωσης.

Στο δεύτερο στάδιο χρησιμοποιήθηκαν δίκτυα MLP και SVR. Η σύγκριση των τεχνικών

έγινε με βάση το MSE και το MAE. Επιπλέον, συγκρίνεται και η απόδοση των τεχνικών

επιλογής χαρακτηριστικών.

Τα πειράματα τους απέδωσαν τα εξής αποτελέσματα:


30/145

20

Εικόνα 2 - 9

Εικόνα 2 - 10

Τα αποτελέσματα έδειξαν ότι το SVR είχε καλύτερη απόδοση από το MLP για κάθε

αλγόριθμο επιλογής χαρακτηριστικών. Η τελική επιλογή όμως των τεχνικών διαλογής

χαρακτηριστικών εξαρτάται από το ποια μέθοδος θα χρησιμοποιηθεί για να γίνει η

εκπαίδευση του συστήματος . Μέσα από τα πειράματα αποδείχθηκε ότι η τεχνική VAR

πρέπει να χρησιμοποιηθεί όταν επιλέγουμε το δίκτυο MLP και η τεχνική ARIMA όταν

θέλουμε να χρησιμοποιήσουμε την τεχνική SVR .

Το άρθρο «Chaos-based support vector regressions for exchange rate forecasting » των

Shian-Chang Huang, Pei-Ju Chuang, Cheng-Feng Wu, Hiuen-Jiun Lai εισάγει μια νέα μέθοδο

πρόβλεψης ισοτιμιών που χρησιμοποιεί την παλινδρόμηση υποστήριξης διανυσμάτων και

βασίζεται στην θεωρία του χάους για να εξάγει τα χαρακτηριστικά.


31/145

21

Η τεχνική αυτή βασίζεται στην θεωρία του χάους που άρχισε τελευταία να χρησιμοποιείται

στην οικονομική ανάλυση. Ένα χαοτικό σύστημα αποκαλύπτει μια σχετικά σύνθετη

συμπεριφορά μέσα από την δυναμική ενός μη γραμμικού συστήματος. Οι τροχιές του

συστήματος συγκλίνουν σε ένα υποσύνολο που ονομάζεται παράξενος προσελκυστής. Ένα

χαοτικό σύστημα είναι ευαίσθητο στην αρχική του κατάσταση. Σημεία που ήταν κοντά

αρχικά, μπορεί με το πέρασμα του χρόνου να απομακρυνθούν. Ο βασικός λόγος που

χρησιμοποιείται το χαοτικό σύστημα είναι ότι είναι αρκετά απλωμένο, πράγμα που το κάνει

καλό προσεγγιστή του πραγματικού κόσμου, άρα και των οικονομικών αγορών.

Σε άρθρο του ο Takens παρουσιάζει το θεώρημα ενσωμάτωσης του που παρέχει την

θεωρητική βάση για την ανάλυση των χρονοσειρών που παράγονται από μη γραμμικά

δυναμικά συστήματα. Μετέπειτα ερευνητές βρήκαν πως μια χαοτική χρονοσειρά μπορεί να

αναπαραχθεί χρησιμοποιώντας αυτό που ονομάζεται ενσωμάτωση συντεταγμένων

καθυστέρησης. Η τεχνική αυτή βασίζεται σε δύο παραμέτρους: στη μεταβλητή m που είναι ο

αριθμός των διαστάσεων που απαρτίζουν το χαοτικό μοντέλο και στη μεταβλητή τ που είναι

η σταθερά καθυστέρησης. Η τεχνική αυτή είναι η πιο συχνά χρησιμοποιούμενη για ανάλυση

χαοτικών χρονοσειρών.

Το πείραμα είχε την εξής μεθοδολογία: Στο πρώτο στάδιο χρησιμοποιείται η ενσωμάτωση

συντεταγμένων καθυστέρησης για να ανακατασκευαστεί ο μη παρατηρούμενος χώρος φάσης

της νομισματικής ισοτιμίας. Στο δεύτερο στάδιο χρησιμοποιούνται μηχανές υποστήριξης

διανύσματος για να προβλεφθεί η ισοτιμία. Τα μοντέλα που δοκιμάστηκαν ήταν τα εξής:

χαοτικό-SVR, χαοτικό-BPNN

όπως και τα αντίστοιχα «καθαρά» μοντέλα SVR και BPNN.

Τα αποτελέσματα ήταν τα εξής:


32/145

22

Εικόνα 2 - 11

Εικόνα 2 - 12

Από τα αποτελέσματα γίνεται ξεκάθαρο ότι τα χαοτικά μοντέλα Chaos -SVR και Chaos-

BPNN υπερέχουν από τα αντίστοιχα «καθαρά» για όλες τις ισοτιμίες. Με διαφορά το

καλύτερο μοντέλο αποδεικνύεται να είναι το χαοτικό-SVR αφού έχει το μικρότερο μέσο

τετραγωνικό σφάλμα και το μικρότερη ρίζα του μέσου τετραγωνικού σφάλματος .

Το άρθρο «Empirical mode decomposition – based least squares support vector regression for

foreign exchange rate forecasting» των Chiun-Sin Lin, Sheng-Hsiung Chiu, Tzu-Yu Lin

προτείνει ένα υβριδικό μοντέλο πρόβλεψης που χρησιμοποιεί διάσπαση εμπειρικής


33/145

23

κατάστασης (EMD) και παλινδρόμηση υποστήριξης διανύσματος ελαχίστων

τετραγώνων(LSSVR) για να προβλέψει την ισοτιμία.

Η EMD είναι μια μη-γραμμική μέθοδος μετατροπής σήματος που αναπτήχθηκε από τον

Huang και άλλους το 1999. Χρησιμοποιείται για να αποσυνθέσει μια μη-γραμμική και

στατική χρονοσειρά σε παραμέτρους της εγγενής συνάρτησης κατάστασης (IMF) με

μεμονωμένες εγγενείς ιδιότητες χρονικής κλίμακας. Πρώτα από όλα, το πλήθος των ακραίων

τιμών και των περασμάτων από το μηδέν είναι είτε ίσες είτε διαφέρουν κατά ένα. Και

δεύτερον, η μέση τιμή του περιβλήματος που δημιουργείται από τα τοπικά μέγιστα και

ελάχιστα είναι πάντα 0.

Η πειραματική διαδικασία είναι ως εξής: 1) αποσύνθεση δεδομένων, 2) κατασκευή μοντέλου

πρόβλεψης και 3) ανακατασκευή και επικύρωση δεδομένων.

Τα αποτελέσματα παραθέτονται παρακάτω:

Εικόνα 2 - 13


34/145

24

Εικόνα 2 - 14

Εικόνα 2 - 15

Τα αποτελέσματα έδειξαν ότι το προτεινόμενο μοντέλο EMD-LSSVR πέτυχε πολύ καλύτερα

ποσοστά από τα άλλα μοντέλα όπως το EMD-ARIMA το LSSVR και το ARIMA και μάλιστα

με αρκετά μεγάλη διαφορά όπως φαίνεται κι από το παραπάνω πίνακα που δείχνει την

ποσοστιαία βελτίωση σε σχέση με τα άλλα μοντέλα.


35/145

25

Στο άρθρο «Foreign Exchange Trading with Support Vector Machines» των Christian Ullrich,

Detlef Seese and Stephan Chalup γίνονται δοκιμές με μηχανές υποστήριξης διανυσμάτων και

δοκιμάζονται διάφορα μοντέλα σε σχέση με κλασικές μεθόδους πρόβλεψης για να

διευκρινιστούν οι δυνατότητες που παρέχουν. Δοκιμάστηκαν διάφοροι πυρήνες όπως

γραμμικοί, πολυωνυμικοί, Laplace, Gaussian radial basis, Hyperbolic και Bessel . Από τα

πειράματα αυτά, τα αποτελέσματα που βγήκαν είναι τα εξής:

Εικόνα 2 - 16


36/145

26

Εικόνα 2 - 17

Τα αποτελέσματα των πειραμάτων έδειξαν ότι, στατιστικά, οι μηχανές υποστήριξης

διανυσμάτων είχαν καλύτερα αποτελέσματα από το «αδαές» και το γραμμικό μοντέλο

ανεξάρτητα από το πυρήνα που επιλέχθηκε και ότι τα υπερβολικά (hyperbolic ) SVM είχαν

την καλύτερη απόδοση όσο αφορά την ικανότητα πρόβλεψης.

Στο άρθρο «Particle swarm optimization based on back propagation network forecasting

exchange rates» των Jui-Fang Chang and Pei-Yu Hsieh ερευνάται κατά πόσο αποτελεσματικό

είναι να χρησιμοποιηθεί η βελτιστοποίηση σμήνους στην πρόβλεψη νομισματικών ισοτιμιών.

Τα πειράματα που διεξήγαγαν ήταν τρία και τα μοντέλα που χρησιμοποίησαν ήταν

αντίστοιχα: Back Propagation, Particle Swarm Optimization και Particle Swarm Optimization

Back Propagation Network. Για την επιλογή των αρχικών μεταβλητών χρησιμοποιήθηκαν

τεχνικές βελτιστοποίησης σμήνους και μετέπειτα εφαρμοστήκαν τα τρία μοντέλα. Για το

πείραμα χρησιμοποιήθηκαν 27 μεταβλητές και δοκιμάστηκαν σύνολα από τις 5, 10 15, 20

και 25 καλύτερες μεταβλητές.

Τα τρία πειράματα ήταν σχεδιασμένα ως εξής: αρχικά έγιναν δοκιμές μόνο με το BPN και

μόνο με το PSO για να εξακριβωθεί η ικανότητα των δύο μοντέλων. Στο τρίτο πείραμα

δοκιμάστηκε να συνδυαστούν αυτές οι δύο μέθοδοι.

Τα αποτελέσματα των τριών πειραμάτων φαίνονται παρακάτω:


37/145

27

Εικόνα 2 - 18

Εικόνα 2 - 19

Εικόνα 2 - 20

Εικόνα 2 - 21

Τα αποτελέσματα έδειξαν ότι το PSOBPN μοντέλο είχε τις καλύτερες αποδόσεις από τα

άλλα δύο, με δεύτερο να ακολουθεί το BPN και τελευταίο το PSO. Στα τρία κριτήρια που


38/145

28

χρησιμοποιήθηκαν για να κρίνουν την απόδοση των μοντέλων, το PSOBPN μοντέλο είχε την

καλύτερη απόδοση και μπορούσε να ακολουθήσει αρκετά καλά την αυξομείωση της

ισοτιμίας.


39/145

29

3

Θεωρητικό υπόβαθρο

3.1 Μηχανή Boltzmann

Η μηχανή Boltzmann είναι ένα στοχαστικό νευρωνικό δίκτυο που αποτελείται από

δύο μέρη: το κρυφό μέρος και το φανερό μέρος. Κάθε μέρος περιέχει ομάδες

νευρώνων. Μεταξύ των νευρώνων υπάρχουν αμφίδρομες συνδέσεις και οι νευρώνες

του ενός στρώματος συνδέονται με όλους τους νευρώνες του άλλου στρώματος.

Ο στόχος του φανερού μέρους είναι να αλληλεπιδράει με το περιβάλλον. Αυτό

σημαίνει ότι δέχεται δεδομένα (τιμές από διάφορες μεταβλητές του περιβάλλοντος)

και επιστρέφει πίσω τα αποτελέσματα που προέκυψαν από τις διεργασίες του

νευρωνικού δικτύου. Οποιοδήποτε εξωτερικός παράγοντας βλέπει μόνο το φανερό

μέρος. Τίποτα άλλο δεν επηρεάζει το νευρωνικό δίκτυο.

Το κρυφό μέρος από τη άλλη είναι πιο ελεύθερο στις κινήσεις του και στόχος του

είναι να συλλάβει την συσχέτιση μεταξύ των φανερών νευρώνων. Δεν έχει καμία


40/145

30

άμεση επαφή με το περιβάλλον . Η μόνη επαφή που υπάρχει είναι με το στρώμα των

φανερών νευρώνων.

Οι συνδέσεις που υπάρχουν μεταξύ των φανερών και κρυφών νευρώνων φέρουν

συμμετρικά βάρη, δηλαδή το συναπτικό βάρος της σύνδεσης από το νευρώνα jπρος το νευρώνα i ισούται με το συναπτικό βάρος της σύνδεσης από το νευρώνα iπρος το νευρώνα j. Ένα βασικό κομμάτι που πρέπει να διευκρινιστεί εδώ είναι ότι

κανένας από τους νευρώνες δεν αυτοτροφοδοτείται. Υπάρχουν συνδέσεις μεταξύ των

νευρώνων και μεταξύ των ομάδων αλλά κανένας νευρώνας, είτε ανήκει στο στρώμα

των φανερών είτε ανήκει στο στρώμα των κρυφών, δεν έχει σύνδεση που να

αυτοτροφοδοτηθεί τον εαυτό τ�

forex rate analysis using deep learning

Documents