::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ...

ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ – ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝΣΤΗΝ

ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Ακαδημαϊκό έτος: 2009-2010

Τίτλος Εργασίας: “Πλατφόρμα εφαρμογής και αξιολόγησης αλγορίθμων συσταδοποίησης τεκμηρίων: Περίπτωση χρήσης στη μετα-μηχανή αναζήτησης «pazpar2» σε FRBR works”

Ονοματεπώνυμο: Παναγιώτης Στάικος

Υπεύθυνος Διδάσκων: Σαράντος Καπιδάκης

ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ – ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝΣΤΗΝ

ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Ακαδημαϊκό έτος: 2009-2010

Τίτλος Εργασίας: “Πλατφόρμα εφαρμογής και αξιολόγησης αλγορίθμων συσταδοποίησης τεκμηρίων: Περίπτωση χρήσης στη μετα-μηχανή αναζήτησης «pazpar2» σε FRBR works”

Ονοματεπώνυμο: Παναγιώτης Στάικος

Υπεύθυνος Διδάσκων: Σαράντος Καπιδάκης

Δήλωση: Δηλώνω υπεύθυνα ότι το παρόν κείμενο αποτελεί προϊόν προσωπικής μελέτης και εργασίας και πώς όλες οι πηγές που χρησιμοποιήθηκαν για τη συγγραφή της δηλώνονται σαφώς είτε στις παραπομπές είτε στο βιβλιογραφικό Κατάλογο.

Υπογραφή___________________________

- 3 -

Ευχαριστίες

Με την ολοκλήρωση της εργασίας αυτής, θα ήθελα να ευχαριστήσω:

- τον καθηγητή μου κ. Σαράντο Καπιδάκη για την ανάθεση του θέματος της μελέτης, καθώς

και για την πολύτιμη βοήθεια που μου προσέφερε κατά τη διάρκεια της εκπόνησή της

- τον κ. Μιχάλη Σφακάκη, πρώην προϊστάμενό μου στο Εθνικό Κέντρο Τεκμηρίωσης, για

την συμβολή του στην επιλογή του θέματος αλλά και για τις καίριες προτάσεις και οδηγίες

του που υπήρξαν καθοριστικές σε αυτή την εργασία και

- φυσικά τον κ. Μανόλη Πεπονάκη, συμφοιτητή μου και τέως επαγγελματικό μου συνάδελφο

για την άψογη και ουσιαστική συνεργασία μας στα πλαίσια των αλληλοσυνδεόμενων

διπλωματικών εργασιών μας.

- 5 -

Περίληψη

Στη σημερινή πραγματικότητα της παροχής πληροφοριών και υπηρεσιών διαμέσου του

Διαδικτύου, ο χώρος των Βιβλιοθηκών προσαρμόστηκε αρκετά σύντομα κάνοντας διαθέσιμους

τους παραδοσιακούς καταλόγους ηλεκτρονικά και κατασκευάζοντας μεγάλους συλλογικούς

καταλόγους για πληρέστερη και πιο εύκολη πρόσβαση. Μέσα από αυτή την προσπάθεια

προέκυψαν και εικονικοί συλλογικοί κατάλογοι που αποτελούν απλά ενοποιημένες διεπαφές

πρόσβασης σε πολλές πληροφοριακές πηγές και έφεραν στο φως την ανάγκη για νέους τρόπους

οργάνωσης και παρουσίασης της βιβλιογραφικής πληροφορίας. Ένα από τα προβλήματα αλλά

ταυτόχρονα πρόκληση σε αυτό το νέο περιβάλλον, είναι η αναγνώριση διαφορετικών

εννοιολογικών οντοτήτων μέσα στην επιστρεφόμενη πληροφορία. Για να επιτευχθεί αυτό

συνήθως ιδιαίτερα τμήματα των βιβλιογραφικών εγγραφών που ονομάζονται κλειδιά

ταυτοποίησης και εξαρτώνται από το υφιστάμενο μοντέλο δεδομένων ελέγχονται για να

ομαδοποιηθούν οι αντίστοιχες εγγραφές κάτω από τις εννοιολογικές οντότητες του μοντέλου. Σε

αυτή την εργασία κατασκευάσαμε την πλατφόρμα «pscluster» για να μπορούν να εφαρμόζονται

και να αξιολογούνται αλγόριθμοι συσταδοποίησης τεκμηρίων (document clustering) και μέτρα

ομοιότητας (similarity measures) πάνω σε κλειδιά ταυτοποίησης βιβλιογραφικών εγγραφών σε

συνδυασμό με τεχνικές αφαίρεσης διπλότυπων εγγραφών (deduplication) ως λύση στο

παραπάνω πρόβλημα. Η πλατφόρμα «pscluster» λειτουργεί ως αυτόνομη εφαρμογή δεχόμενη ως

είσοδο τα κλειδιά ταυτοποίησης και παράγοντας ως έξοδο αρκετά πλούσια αποτελέσματα

(ποσοτικά και ποιοτικά). Μπορεί επίσης να συνεργαστεί με μετα-μηχανή αναζήτησης που

ακολουθηθεί τη δομή του «pazpar2», μια μετα-μηχανή αναζήτησης για αναζήτηση-ανάκτηση

και παρουσίαση βιβλιογραφικών δεδομένων η οποία και παρουσιάζεται στην παρούσα εργασία.

Υλοποιήσαμε και δοκιμάσαμε πάνω στην πλατφόρμα διαφορετικούς αλγορίθμους

συσταδοποίησης και μέτρα ομοιότητας πάνω σε κλειδιά ταυτοποίησης εγγραφών, που

κατασκευάστηκαν για την αναγνώριση FRBR έργων και παρουσιάζουμε τα αποτελέσματα.

- 7 -

Πίνακας Περιεχομένων

ΕΥΧΑΡΙΣΤΊΕΣ............................................................................................................................................................5

ΠΕΡΊΛΗΨΗ..................................................................................................................................................................7

ΠΊΝΑΚΑΣ ΠΕΡΙΕΧΟΜΈΝΩΝ.................................................................................................................................9

1. ΕΙΣΑΓΩΓΉ......................................................................................................................................................11

2. ΣΥΣΤΉΜΑΤΑ ΜΕΤΑ-ΑΝΑΖΉΤΗΣΗΣ......................................................................................................14

2.1. ΑΠΌ ΤΟΥΣ ΚΑΤΑΛΌΓΟΥΣ ΤΩΝ ΒΙΒΛΙΟΘΗΚΏΝ ΣΤΑ ΣΥΣΤΉΜΑΤΑ ΜΕΤΑ-ΑΝΑΖΉΤΗΣΗΣ..............................14

2.2. ΤΟ ΣΎΣΤΗΜΑ ΜΕΤΑ-ΑΝΑΖΉΤΗΣΗΣ ΩΣ ΕΝΔΙΆΜΕΣΟΣ..................................................................................20

3. ΤΟ ΣΎΣΤΗΜΑ ΜΕΤΑ-ΑΝΑΖΉΤΗΣΗΣ «PAZPAR2».............................................................................24

3.1. ΠΕΡΙΓΡΑΦΉ ΤΟΥ «PAZPAR2»......................................................................................................................24

3.2. FRBR ΟΝΤΌΤΗΤΕΣ ΚΑΙ «PAZPAR2»...........................................................................................................28

4. ΤΟ ΠΡΌΒΛΗΜΑ ΤΗΣ ΣΥΣΤΑΔΟΠΟΊΗΣΗΣ ΤΕΚΜΗΡΊΩΝ................................................................30

4.1. Η ΕΎΡΕΣΗ ΤΩΝ «ΌΜΟΙΩΝ» ΕΓΓΡΑΦΏΝ.......................................................................................................30

4.2. ΚΑΤΗΓΟΡΊΕΣ ΑΛΓΟΡΊΘΜΩΝ ΣΥΣΤΑΔΟΠΟΊΗΣΗΣ ΤΕΚΜΗΡΊΩΝ......................................................................36

4.3. ΜΈΤΡΑ ΔΙΑΦΟΡΕΤΙΚΌΤΗΤΑΣ - ΟΜΟΙΌΤΗΤΑΣ..............................................................................................45

5. Η ΣΥΣΤΑΔΟΠΟΊΗΣΗ ΕΓΓΡΑΦΏΝ ΣΕ ΜΕΤΑ-ΜΗΧΑΝΉ ΑΝΑΖΉΤΗΣΗΣ......................................52

5.1. ΕΠΙΛΟΓΉ ΑΛΓΟΡΊΘΜΩΝ ΣΥΣΤΑΔΟΠΟΊΗΣΗΣ...............................................................................................52

5.2. ΕΠΙΛΟΓΉ ΜΈΤΡΩΝ ΟΜΟΙΌΤΗΤΑΣ................................................................................................................54

5.3. ΕΠΙΛΟΓΉ ΜΈΤΡΩΝ ΑΞΙΟΛΌΓΗΣΗΣ..............................................................................................................56

6. Η ΠΛΑΤΦΌΡΜΑ «PSCLUSTER»................................................................................................................59

6.1. ΠΕΡΙΓΡΑΦΉ ΤΗΣ ΠΛΑΤΦΌΡΜΑΣ..................................................................................................................59

6.2. ΑΞΙΟΛΌΓΗΣΗ ΠΛΑΤΦΌΡΜΑΣ ΩΣ ΠΛΑΊΣΙΟ ΕΦΑΡΜΟΓΉΣ ΣΥΣΤΑΔΟΠΟΊΗΣΗΣ................................................65

6.3. ΑΞΙΟΛΌΓΗΣΗ ΕΦΑΡΜΟΓΉΣ ΣΥΣΤΑΔΟΠΟΊΗΣΗΣ ΒΆΣΕΙ ΕΝΔΕΙΚΤΙΚΏΝ ΣΥΛΛΟΓΏΝ.......................................68

- 8 -

ΣΥΜΠΕΡΆΣΜΑΤΑ ΚΑΙ ΜΕΛΛΟΝΤΙΚΉ ΕΡΓΑΣΊΑ.........................................................................................79

ΠΑΡΑΡΤΉΜΑΤΑ......................................................................................................................................................82

6.4. ΠΑΡΆΡΤΗΜΑ Α: Η ΜΟΡΦΉ ΤΟΥ ΑΡΧΕΊΟΥ ΤΩΝ ΚΛΕΙΔΙΏΝ ΤΑΥΤΟΠΟΊΗΣΗΣ................................................82

6.5. ΠΑΡΆΡΤΗΜΑ Β: Η ΜΟΡΦΉ ΤΟΥ ΑΡΧΕΊΟΥ ΚΛΆΣΕΩΝ..................................................................................83

6.6. ΠΑΡΆΡΤΗΜΑ Γ: Η ΜΟΡΦΉ ΤΟΥ ΑΡΧΕΊΟΥ ΡΥΘΜΊΣΕΩΝ ΤΟΥ ΥΠΟΣΥΣΤΉΜΑΤΟΣ «PSCLUSTER»..................84

6.7. ΠΑΡΆΡΤΗΜΑ Δ: ΟΙ ΠΑΡΆΜΕΤΡΟΙ ΕΚΚΊΝΗΣΗΣ ΤΟΥ ΠΡΟΓΡΆΜΜΑΤΟΣ «PSCLUSTER»..................................90

6.8. ΠΑΡΆΡΤΗΜΑ Ε: ΑΠΟΤΕΛΈΣΜΑΤΑ ΠΕΙΡΑΜΆΤΩΝ.......................................................................................91

6.8.1. Πείραμα 1: Απλό δείγμα (Δείγμα 1).......................................................................................................91

6.8.2. Πείραμα 2: Ενοποιημένο δείγμα από συλλογικούς καταλόγους (Δείγμα 2)...........................................94

6.8.2.1. Χρήση δύο υποκλειδιών (συγγραφέας, τίτλος) – Πίνακες αξιολόγησης.....................................................95

6.8.2.2. Χρήση δύο υποκλειδιών (συγγραφέας, τίτλος) – Πλήρη αποτελέσματα αλγορίθμου “Single Pass”..........99

6.8.2.3. Χρήση ενιαίου κλειδιού – Πίνακες αξιολόγησης......................................................................................106

6.8.3. Πείραμα 3: Δείγμα που αντιστοιχεί σε ένα FRBR work (Δείγμα 3).....................................................110

6.8.3.1. Χρήση δύο υποκλειδιών (συγγραφέας, τίτλος) – Πίνακες αξιολόγησης...................................................111

6.8.3.2. Χρήση ενιαίου κλειδιού – Πίνακες αξιολόγησης......................................................................................115

6.9. ΠΑΡΆΡΤΗΜΑ ΣΤ: ΣΤΙΓΜΙΌΤΥΠΑ ΧΡΉΣΗΣ ΤΟΥ ΥΠΟΣΥΣΤΉΜΑΤΟΣ «PSCLUSTER».....................................119

6.10. ΠΑΡΆΡΤΗΜΑ Ζ: ΟΙ ΥΠΗΡΕΣΊΕΣ (ΕΝΤΟΛΈΣ) ΤΟΥ «PAZPAR2» ΠΡΩΤΟΚΌΛΛΟΥ.........................................125

6.10.1. Εντολή αρχικοποίησης μιας συνεδρίας (session) – Εντολή “init”..................................................125

6.10.2. Εντολή ανανέωσης της ίδιας συνεδρίας – Εντολή “ping”..............................................................127

6.10.3. Εντολή παραμετροποίησης ενεργής συνεδρίας – Εντολή “settings”...............................................128

6.10.4. Εντολή αναζήτησης – Εντολή “search”.........................................................................................128

6.10.5. Εντολή εμφάνισης πληροφοριών της ενεργής αναζήτησης – Εντολή “stat”...................................130

6.10.6. Εντολή ανάκτησης εγγραφών – Εντολή “show”.............................................................................131

6.10.7. Εντολή ανάκτησης εγγραφής – Εντολή “record”...........................................................................133

6.10.8. Εντολή ανάκτησης όρων – Εντολή “termlist”................................................................................137

6.10.9. Εντολή εμφάνισης πληροφοριών των ενεργών «πληροφοριακών πόρων» – Εντολή “bytarget”.. .139

ΓΛΩΣΣΑΡΙ................................................................................................................................................................141

ΣΥΝΤΜΗΣΕΙΣ.........................................................................................................................................................144

- 9 -

Βιβλιογραφία..............................................................................................................................................................145

- 10 -

1. Εισαγωγή

Στη σημερινή εποχή του Διαδικτύου και της εξέλιξης των Τηλεπικοινωνιών ο όγκος της

διαθέσιμης πληροφορίας και οι τρόποι πρόσβασης σε αυτήν έχουν αυξηθεί σημαντικά σε σχέση

με τις προηγούμενες δεκαετίες. Οι χρήστες προσπαθούν σε αυτό το αχανές «ηλεκτρονικό» τοπίο

να βρουν τις πληροφορίες που αναζητούν διαπιστώνοντας κάθε φορά και νέες πληροφοριακές

πηγές, βρίσκοντας κάθε φορά και νέους τρόπους πρόσβασης. Σε αυτό το περιβάλλον που ολοένα

και αυξάνεται είναι έκδηλη η ανάγκη για ενοποίηση των πληροφοριακών πηγών κάτω από

διάφορους όρους και κριτήρια για τη δημιουργία μεγαλύτερων και πληρέστερων πηγών με

σκοπό την μείωση της διασποράς της πληροφορίας για τη διευκόλυνση της εύρεσής της από

τους τελικούς χρήστες. Έτσι γεννήθηκαν στις Βιβλιοθήκες οι Φυσικοί Συλλογικοί Κατάλογοι

(physical union catalogs) από συνέργια πολλών Βιβλιοθηκών που ανέδειξαν νέους τρόπους

πρόσβασης της πληροφορίας αλλά και αδυναμίες και προβλήματα στην οργάνωση και

αξιοποίησή της που προέκυψαν από τις ετερογένειες των επί μέρους συλλογών. Στο χώρο του

Διαδικτύου δημιουργήθηκαν Εικονικοί Συλλογικοί Κατάλογοι (virtual union catalogs) με την

έννοια της ενοποιημένης πρόσβασης σε πολλές διαφορετικές πηγές κάτω από μια διεπαφή

αναζήτησης – ανάκτησης. Αυτά τα νέα συστήματα είναι οι μετα-μηχανές αναζήτησης (meta-

search engines) που καλούνται να παίξουν το ρόλο του διαμεσολαβητή ανάμεσα στις διάφορες

πληροφοριακές πηγές με τις οποίες επικοινωνούν και τον τελικό χρήστη. Καλούνται να

αντιμετωπίσουν προβλήματα διαλειτουργικότητας στο μέτρο του εφικτού χρησιμοποιώντας

διάφορες τεχνικές. Τα τελευταία χρόνια άρχισαν να εισχωρούν και στο χώρο των Βιβλιοθηκών

και η εξέλιξη που βοήθησε προς αυτή την κατεύθυνση ήταν η χρήση κοινών πρωτοκόλλων

αναζήτησης – ανάκτησης της βιβλιογραφικής πληροφορίας και συγκεκριμένα η διαδεδομένη

χρήση του Z39.50. Μια μετα-μηχανή αναζήτησης που εξυπηρετεί βιβλιογραφικά δεδομένα είναι

το «pazpar2» το οποίο εισάγει νέες ιδέες στην ενοποιημένη πρόσβαση. Με τη χρήση των νέων

τεχνολογιών δίνει τη δυνατότητα για άμεσα ανταποκρινόμενες διεπαφές καταργώντας την

- 11 -

χρονοβόρα αναμονή της απάντησης στην περίπτωση πολλών πληροφοριακών πηγών ή γενικών

ερωτήσεων. Αλλά αυτό που εισάγει και χρίζει μεγαλύτερης προσοχής είναι η προσπάθεια για

ενοποιημένη παρουσίαση της πληροφορίας σύμφωνα με νέους κανόνες. Τεχνικά εισάγει την

έννοια της συσταδοποίησης (clustering) της πληροφορίας με βάση κάποιο επιλεγμένο μοντέλο

δεδομένων. Ένα νέο μοντέλο δεδομένων που εμφανίστηκε στο χώρο των Βιβλιοθηκών είναι το

FRBR, το οποίο είναι ένα εννοιολογικό μοντέλο που προσπαθεί να οργανώσει και να

παρουσιάσει την πληροφορία στον χρήστη σε διάφορα εννοιολογικά επίπεδα πέραν της απλής

έννοιας του μοναδικού τεκμηρίου, έτσι ώστε να δώσει νέες όψεις της πληροφορίας για καλύτερη

αξιοποίησή της. Για να επιτευχθεί αυτός ο νέος τρόπος εμφάνισης θα πρέπει να μετατραπεί η

δομή των εγγραφών των βιβλιογραφικών συλλογών σε αυτό το νέο μοντέλο, διαδικασία η οποία

όμως αν δεν είναι αδύνατη είναι πολύ δύσκολη λόγω της διαφορετικότητας των μοντέλων.

Επομένως η προσπάθεια εμφάνισης της πληροφορίας σύμφωνα με αυτό το νέο μοντέλο χωρίς τη

μόνιμη μετατροπή της αλλά κατά της διάρκεια της διαδικασίας (on the fly) αναζήτησης –

ανάκτησης φαντάζει μια πρόκληση. Συστήματα μετα-αναζήτησης όπως το «pazpar2» συντελούν

προς αυτή την κατεύθυνση. Για να επιτευχθεί αυτός ο σκοπός οι επιστρεφόμενες εγγραφές (μετά

από αίτηση αναζήτησης - ανάκτησης) υπόκεινται σε επεξεργασία η οποία συνήθως ανάγεται σε

σύγκρισή τους για την καταγραφή της ομοιότητάς τους και ο διαχωρισμός τους σε συστάδες

(clusters) όπου οι εγγραφές της κάθε συστάδας αναφέρονται στην ίδια οντότητα. Αυτή η

διαδικασία όμως μοιάζει με τις διαδικασίες εύρεσης και αφαίρεσης διπλότυπων εγγραφών

(deduplication) με τη μοναδική διαφορά ότι δεν αναζητούνται διπλότυπες εγγραφές αλλά

εγγραφές που αναφέρονται στην ίδια εννοιολογική οντότητα (entity). Επειδή όμως γίνεται

διαχωρισμός σε συστάδες των «όμοιων» εγγραφών, η διαδικασία αποτελεί και διαδικασία

συσταδοποίησης τεκμηρίων (document clustering) όπου διάφορες τεχνικές μέτρησης της

ομοιότητας (similarity measures) χρησιμοποιούνται. Επομένως για την οργάνωση και

παρουσίαση της βιβλιογραφικής πληροφορίας στον χρήστη σύμφωνα με το νέο μοντέλο

δεδομένων που εισάγει το FRBR μπορούν να εφαρμοστούν αλγόριθμοι συσταδοποίησης

- 12 -

τεκμηρίων και μέτρα ομοιότητας με αποτέλεσμα την ομαδοποίηση βιβλιογραφικών εγγραφών

που αναφέρονται στην ίδια εννοιολογική οντότητα. Οι αλγόριθμοι συσταδοποίησης τεκμηρίων

και τα μέτρα ομοιότητας ουσιαστικά αντικαθιστούν το κομμάτι της διαδικασίας αφαίρεσης

διπλότυπων εγγραφών κατά την οποία η σύγκριση των κατάλληλων τμημάτων των εγγραφών

εφαρμόζεται. Η κατασκευή πλατφόρμας εύρεσης «όμοιων» εγγραφών (εγγραφές που

αναφέρονται στην ίδια οντότητα) και μηχανισμών αξιολόγησης με τη χρήση αλγορίθμων

συσταδοποίησης τεκμηρίων και μέτρων ομοιότητας είναι ο σκοπός της παρούσας εργασίας.

Επιπρόσθετα η παραπάνω πλατφόρμα θα ενσωματωθεί στη μετα-μηχανή αναζήτησης «pazpar2»

για την εφαρμογή και αξιολόγησή της σε επιγραμμικό (on-line) περιβάλλον.

Στις επόμενες ενότητες γίνεται παρουσίαση της έννοιας του Φυσικού και του Εικονικού

Συλλογικού Καταλόγου, αναλύεται η λειτουργία μιας μετα-μηχανής αναζήτησης και

παρουσιάζεται το «pazpar2», παρουσιάζονται αλγόριθμοι συσταδοποίησης τεκμηρίων και τα

μέτρα ομοιότητας και αναζητούνται αλγόριθμοι συσταδοποίησης τεκμηρίων και μέτρα

ομοιότητας που μπορούν να εξυπηρετήσουν τους σκοπούς της εργασίας. Για την εφαρμογή και

αξιολόγηση των αλγορίθμων και μέτρων υλοποιήσαμε την πλατφόρμα (pscluster) η οποία

παρουσιάζεται αναλυτικά στη συνέχεια και αξιολογείται για τη χρηστικότητά της. Τέλος τα

αποτελέσματα πειραμάτων σε ενδεικτικά σύνολα βιβλιογραφικών δεδομένων για αναζήτηση

έργων κατά FRBR αναλύονται παρουσιάζοντας έτσι και τις δυνατότητες του συστήματος που

υλοποιήθηκε. Αναλυτικότερα η χρήση της πλατφόρμας, τα πλήρη αποτελέσματα των

πειραμάτων καθώς και η περιγραφή της μετα-μηχανής αναζήτησης «pazpar2» περιγράφονται σε

παραρτήματα.

- 13 -

2. Συστήματα μετα-αναζήτησης

2.1.Από τους Καταλόγους των Βιβλιοθηκών στα συστήματα μετα-

αναζήτησης

Είναι γεγονός σήμερα η προσφορά υπερπληθώρας ηλεκτρονικών πηγών πληροφόρησης οι

οποίες πολλές φορές περιέχουν και κοινές πληροφορίες. Συγκεκριμένα στο χώρο των

Βιβλιοθηκών η τοπική συλλογή της κάθε βιβλιοθήκης περιέχει αναφορές σε υλικό που

πιθανότατα υπάρχει και σε άλλες συλλογές σε άλλες βιβλιοθήκες ίδιο ή με κάποιες

διαφοροποιήσεις. Οι χρήστες για να καλύψουν τις πληροφοριακές τους ανάγκες και για να είναι

όσο το δυνατό περισσότερο σίγουροι ότι βρήκαν αυτό που αναζητούν, κάνουν έρευνα σε πολλές

διαφορετικές συλλογές σε διαφορετικές βιβλιοθήκες ή στην ίδια βιβλιοθήκη. Για να έχει

επιτυχία η έρευνά τους θα πρέπει να γνωρίζουν σε ποιες συλλογές να απευθύνονται κάθε φορά

έτσι ώστε να συγκεντρώνουν όλη τη διαθέσιμη πληροφορία. Αυτό φαντάζει αρκετά δύσκολο αν

αναλογιστεί κανείς σήμερα το πλήθος των συλλογών των βιβλιοθηκών στο Διαδίκτυο.

Επομένως είναι έκδηλη η ανάγκη για ομαδοποίηση - ενοποίηση με κάποιο τρόπο των πολλών

διαφορετικών συλλογών και τη δημιουργία μεγάλων πληροφοριακών πηγών, γνωστοί ως

«Συλλογικοί Κατάλογοι1» στο χώρο των Βιβλιοθηκών. Πολύ εύστοχα αναφέρουν οι Κούης κ.α.

(2007) ότι:

«Οι βασικοί στόχοι των προσπαθειών υλοποίησης συλλογικών Καταλόγων είναι

κοινοί και συνοψίζονται στην παρακάτω πρόταση: να αποτελούν μια πλούσια πηγή

αξιόπιστων βιβλιογραφικών δεδομένων, ικανή να ανταποκριθεί στις αυξημένες

απαιτήσεις των σύγχρονων χρηστών, να εξασφαλίζουν γρήγορη και αξιόπιστη

1 http://lu.com/odlis/odlis_u.cfm#unioncatalog - Union catalog [Τελευταία Επίσκεψη: 27/01/2010]

- 14 -

http://lu.com/odlis/odlis_u.cfm#unioncatalog

ανάκτηση αποτελεσμάτων σε σχέση με την αναζήτηση του χρήστη και να προσφέρουν

μια σειρά από υπηρεσίες προστιθέμενης αξίας όπως copy cataloging, διαδανεισμός

κτλ.»

Η δημιουργία λοιπόν των Συλλογικών Καταλόγων οδηγεί στην ενοποιημένη πρόσβαση σε

πολλές πληροφοριακές πηγές με πολλά πλεονεκτήματα για τους χρήστες. Η πρώτη προσπάθεια

κατασκευής Συλλογικών Καταλόγων είναι η δημιουργία των Φυσικών Συλλογικών Καταλόγων

οι οποίοι προκύπτουν από την ενοποίηση όλων των εμπλεκομένων μεμονωμένων συλλογών που

θα τους απαρτίζουν. Η δημιουργία τους ξεκίνησε αρχικά για τη διευκόλυνση της βιβλιογραφικής

εργασίας (καταλογογράφηση, δημιουργία καθιερωμένων όρων, δανεισμός και διαδανεισμός

κλπ) ενώ η ενοποιημένη πρόσβαση με την έννοια της αναζήτησης και ανάκτησης προέκυψε ως

συνέπεια της φύσης τους. Η δημιουργία όμως και συντήρηση των Φυσικών Συλλογικών

Καταλόγων είναι μια επίπονη και χρονοβόρα διαδικασία έτσι ώστε να παραμένουν

ενημερωμένοι και πλήρεις. Προσφέρουν όμως πολύ καλές πληροφοριακές λύσεις αφού η

ποιότητά τους μπορεί να μετρηθεί και να εξασφαλιστεί. Παρόλο αυτά ένας Φυσικός Συλλογικός

Κατάλογος όσο μεγαλώνει, στην προσπάθεια να καλυφθεί ευρύτερα όλο το φάσμα της

θεματολογίας του, τόσο πιο δύσκολη γίνεται η διαχείρισή του και παραμένει με την ευρεία

έννοια ένας στατικός Κατάλογος γιατί κάτω από δύσκολες και χρονοβόρες διαδικασίες

εμπλουτίζεται. Με την εξέλιξη της τεχνολογίας και κυρίως με την εμφάνιση του πρωτοκόλλου

Z39.502, δόθηκε η δυνατότητα για τη δημιουργία νέας μορφής Συλλογικών Καταλόγων των

«Εικονικών Συλλογικών Καταλόγων»3 οι οποίοι έρχονται να απαντήσουν σε κάποια από τα

προβλήματα των Φυσικών Συλλογικών Καταλόγων αλλά και να προσθέσουν άλλα, πολλά από

τα οποία παραμένουν ακόμη ανοικτά. Σύμφωνα με αυτό το είδος δεν έχουμε ένα μεγάλο

Κατάλογο που υπάρχει σε μια φυσική θέση αλλά πολλούς που «συνενώνονται» κάτω από μια

διεπαφή πρόσβασης και επικοινωνίας, που συγκεντρώνει πληροφορίες από αυτούς τους

2 http://www.loc.gov/z3950/agency/ [Τελευταία Επίσκεψη: 27/01/2010]3 http://lu.com/odlis/odlis_v.cfm#virtualunion - Virtual Union catalog [Τελευταία Επίσκεψη: 27/01/2010]

- 15 -

http://lu.com/odlis/odlis_v.cfm#virtualunion

http://www.loc.gov/z3950/agency/

Καταλόγους και την παρουσιάζει στον χρήστη σα να προέρχεται από ένα φυσικό Κατάλογο. Το

προφανές πλεονέκτημα λοιπόν είναι ότι ο Εικονικός Συλλογικός Κατάλογος μπορεί να αλλάζει

ανά πάσα στιγμή και να αποτελείται από όποιες πληροφοριακές πηγές επιθυμεί ο διαχειριστής

τους συστήματος, αφού το σύστημα αυτό που κάνει είναι να ρωτά όλες τις διαφορετικές πηγές

και να εμφανίζει τα αποτελέσματά τους στον χρήστη σα να πρόκειται για μια απάντηση, από μια

πληροφοριακή πηγή. Αξίζει βέβαια να σημειωθεί ότι η χρήση των Συλλογικών Καταλόγων

Φυσικών ή Εικονικών απαντά και στην σημερινή απαίτηση των χρηστών για ενιαία πρόσβαση

στην πληροφορία μέσω ενός μόνο σημείου διάδρασης (το γνωστό “one-stop shopping”) το οποίο

είναι πλέον πραγματικότητα σε άλλους χώρους όπως στο ηλεκτρονικό εμπόριο.

Την ιδέα του Εικονικού Συλλογικού Καταλόγου έρχεται να εξυπηρετήσει και να υλοποιήσει μια

μετα-μηχανή αναζήτησης. Μια μετα-μηχανή αναζήτησης είναι μια μηχανή αναζήτησης που

στέλνει τις αιτήσεις του χρήστη σε άλλες μηχανές αναζήτησης και/ή βάσεις δεδομένων και

συγκεντρώνοντας όλα τα αποτελέσματα τα δείχνει στον χρήστη είτε σαν μια λίστα είτε κατά

σειρά πηγής προέλευσης4. Δηλαδή η μετα-μηχανή αναζήτησης λειτουργεί ως ένας μεγάλος

ενδιάμεσος ανάμεσα στον χρήστη και τις πληροφοριακές πηγές. Με τη χρήση μιας μετα-

μηχανής αναζήτησης σε σχέση με τη χρήση πολλών πληροφοριακών πηγών ο χρήστης

- Δεν απαιτείται να μάθει πολλές διαφορετικές διεπαφές και τρόπους πρόσβασης των

πληροφοριακών πηγών.

- Κερδίζει χρόνο στην εργασία του αφού απευθύνεται σε μία και όχι σε πολλές

πληροφοριακές πηγές για να απαντήσει σε μια πληροφοριακή του ανάγκη.

- Δεν είναι αναγκασμένος να παρακολουθεί και να βρίσκει την κάθε νέα πληροφοριακή

πηγή που θα του είναι χρήσιμη γιατί αυτό πλέον εναπόκειται στον διαχειριστή της μετα-

μηχανής αναζήτησης.

4 http :// en . wikipedia . org / wiki / Metasearch _ engine και http://lu.com/odlis/odlis_m.cfm#metasearch [τελευταία επίσκεψη 27/01/2010]

- 16 -

http://lu.com/odlis/odlis_m.cfm#metasearch

http://en.wikipedia.org/wiki/Metasearch_engine

Μια μετα-μηχανή αναζήτησης σε σχέση με το σύστημα πρόσβασης σε ένα Φυσικό Συλλογικό

Κατάλογο προσφέρει το πλεονέκτημα της εύκολης επεκτασιμότητας και διαχείρισης. Ο

Εικονικός Κατάλογος όμως που υλοποιεί μια μετα-μηχανή αναζήτησης υστερεί εξ’ ορισμού σε

ποιότητα σε σχέση με έναν πλήρως ενημερωμένο Φυσικό (Συλλογικό ή όχι) Κατάλογο και αυτό

είναι ένα από σημαντικά προβλήματα που πρέπει να αντιμετωπιστεί για να μπορεί η μετα-

μηχανή αναζήτησης να προσφέρει αξιόπιστες και ποιοτικές λύσεις σε ικανοποιητικό βαθμό. Σε

ένα Φυσικό Συλλογικό Κατάλογο ακολουθούνται συγκεκριμένοι κανόνες καταλογογράφησης,

είναι πιο εύκολη η δημιουργία μηχανισμών ελέγχου και ποιοτικής διασφάλισης των εγγραφών,

δεν υπάρχουν εύκολα διπλότυπες εγγραφές και αν υπάρχουν οφείλονται καθαρά σε ανθρώπινα

λάθη και γενικά οι εγγραφές θα υπόκεινται σε μια διαρκή διαδικασία βελτίωσης και διόρθωσης

εξαιτίας και της συνεργασίας των εμπλεκομένων Βιβλιοθηκών (Κούης κ.α. - 2007). Αντίθετα

ένας Εικονικός Συλλογικός Κατάλογος πρέπει να επικοινωνήσει με εξ ορισμού διαφορετικές

πληροφοριακές πηγές και να αντιμετωπίσει όλα τα προβλήματα που συνεπάγονται από την

διαφορετικότητά τους γιατί ο σκοπός είναι να παρουσιαστεί στον τελικό χρήστη μια όσο το

δυνατό ομοιόμορφη απάντηση σαν να πρόκειται για απάντηση από Φυσικό Συλλογικό

Κατάλογο. Βέβαια αυτό είναι δύσκολο να επιτευχθεί πλήρως λόγω της διαφορετικότητας που

είναι εγγενής ανάμεσα σε πληροφοριακές πηγές που προέρχονται από διαφορετικούς χώρους,

κράτη, λαούς κλπ. Είναι φανερό λοιπόν ότι το πρόβλημα που πρέπει να λύσει η μετα-μηχανή

αναζήτησης είναι το πώς θα διαλειτουργήσει με τις διαφορετικές πληροφοριακές πηγές και το

πώς θα κρύψει στη συνέχεια την ετερογένειά τους από τον τελικό χρήστη. Οι Ouksel and Sheth

(αναφέρεται στο DELOS 2005, σ. 7) ορίζουν τέσσερις τύπους (επίπεδα) ετερογένειας και ως εκ

τούτου τέσσερα σημεία στα οποία χωρίζεται αντίστοιχα η διαλειτουργικότητα:

- Συστήματος: ασυμβατότητες σε επίπεδο λειτουργικών συστημάτων.

- Σύνταξης: διαφορές στην κωδικοποίηση και την αναπαράσταση.

- Δομής: ποικιλία στα μοντέλα δεδομένων, στις δομές δεδομένων και τα σχήματα.

- Σημασιολογική: ασυνέπειες στην ορολογία και το νόημα.

- 17 -

Είναι προφανές ότι το πρόβλημα της διαλειτουργικότητας είναι αρκετά σύνθετο και πολύπλοκο

και διάφορες προσεγγίσεις έχουν προταθεί για την αντιμετώπισή του. Οι Paepcke et al. (1998)

αναφέρουν κάποιες κοινά αποδεκτές προσεγγίσεις για την κατασκευή διαλειτουργικών

συστημάτων μεταξύ των οποίων είναι η χρήση γνωστών και ευρέως διαδεδομένων προτύπων

(όπως η σειρά ISO 802 για τα δίκτυα υπολογιστών, το Z39.50 για αναζήτηση/ανάκτηση

πληροφοριών, τα πρωτόκολλα μεταφοράς HTTP και MIME, η γλώσσα επισήμανσης HTML

κλπ), η πιο ευέλικτη λύση της χρήσης οικογένειας προτύπων (στη διασύνδεση υπολογιστών το

πρότυπο OSI) και η εξωτερική διαμεσολάβηση. Σύμφωνα με την τελευταία προσέγγιση

διαμεσολαβούν διαλειτουργικοί μηχανισμοί για να επιτευχθεί η επικοινωνία μεταξύ

ετερόκλητων συστημάτων. Μια κύρια λειτουργία ενός τέτοιου μηχανισμού είναι η μετάφραση

των μορφότυπων δεδομένων και των τρόπων αλληλεπίδρασης. Για παράδειγμα στα δίκτυα

υπολογιστών οι πύλες (gateways) συνδέουν μεταξύ τους ετερόκλητα δίκτυα. Η απεικόνιση

καθολικών σχημάτων σε τοπικά σχήματα ανήκει επίσης σε αυτή την προσέγγιση. Αυτοί οι

διαλειτουργικοί μηχανισμοί, που συνήθως καλούνται ‘wrappers’ ή ‘proxies’, συνήθως επιτελούν

πιο σύνθετες εργασίες από μια απλή μετάφραση. Για παράδειγμα αν υπάρχουν δύο συλλογές

στις οποίες προσφέρονται υπηρεσίες αναζήτησης διαμέσου διαφορετικών ψηφιακών

βιβλιοθηκών και μόνο η πρώτη παρέχει και υπηρεσία ταξιθέτησης αποτελεσμάτων (sorting) τότε

αν γίνει μια αναζήτηση ταυτόχρονα και στις δύο συλλογές θα πρέπει ο εξωτερικός

διαμεσολαβητής να προσφέρει την υπηρεσία ταξιθέτησης για τη δεύτερη συλλογή προτού τα

αποτελέσματα να φτάσουν στον τελικό χρήστη. Η προσέγγιση της διαμεσολάβησης προσφέρει

σημαντική διαλειτουργικότητα αλλά για να είναι επιτυχής θα πρέπει ο διαμεσολαβητής να

γνωρίζει όλες τις διαφορετικότητες των εμπλεκομένων στην επικοινωνία, έτσι ώστε να ξέρει να

μεταφράζει τα δεδομένα ανάμεσα στους εμπλεκόμενους στην επικοινωνία. Τούτο κάνει

δύσκολη την κατασκευή και την ενημέρωση του διαμεσολαβητή γιατί όσο αυξάνονται οι

διαφορετικές προσεγγίσεις των συστημάτων που διαλειτουργούν τόσο αυξάνονται και οι μεταξύ

τους συνδυασμοί και άρα και ο αριθμός των διαφορετικών μεταφράσεων που πρέπει

- 18 -

υλοποιηθούν από τον διαμεσολαβητή. Για αυτό η λύση που υιοθετείται συνήθως είναι η χρήση

ενός διαμεσολαβητή με ένα εσωτερικό πρότυπο στο οποίο θα γίνεται η μετατροπή της

εισερχόμενης πληροφορίας και στη συνέχεια η μετατροπή της στη μορφή που καταλαβαίνει το

άλλο εμπλεκόμενο στην επικοινωνία σύστημα. Για παράδειγμα στην κατηγορία των σχημάτων

κωδικοποίησης των βιβλιογραφικών δεδομένων το εσωτερικό σχήμα του διαμεσολαβητή θα

μπορούσε να είναι το USMARC5 και όλα τα άλλα σχήματα κωδικοποίησης δε θα μετατρέπονται

το ένα στο άλλο απευθείας αλλά πρώτα στο USMARC. Έτσι θα χρειάζονται λιγότερες

μετατροπές να υλοποιηθούν και μόνο από και προς το USMARC. Βέβαια όταν ένα πρότυπο δεν

είναι αρκετό γιατί μπορεί να οδηγεί σε σημαντική απώλεια πληροφορίας κατά τη μετάφραση

μπορεί να υιοθετείται συνδυαστικά η προσέγγιση της οικογένειας προτύπων και έτσι ο

διαμεσολαβητής να χρησιμοποιεί περισσότερα του ενός εσωτερικά πρότυπα.

Από την παραπάνω ανάλυση προκύπτει ότι μια μετα-μηχανή αναζήτησης είναι ένας

διαμεσολαβητής ανάμεσα στον τελικό χρήστη και σε όλα τα συστήματα υποστήριξης των

πληροφοριακών πηγών που επικοινωνεί. Επειδή ήδη υπάρχουν ευρέως διαδεδομένα πρότυπα

στο χώρο των Βιβλιοθηκών η χρήση τους κρίνεται εφικτή αλλά μένει να εξεταστεί η

αποτελεσματικότητά τους όσο αφορά κυρίως την ποιότητα των αποτελεσμάτων που θα δίνουν

σε σχέση πάντα με τους Φυσικούς Συλλογικούς Καταλόγους. Έτσι μηχανισμοί εύρεσης και

αφαίρεσης διπλότυπων εγγραφών και ομαδοποίησης «όμοιων» εγγραφών εφαρμόζονται με

σκοπό την αύξηση της ποιότητας των αποτελεσμάτων σε βαθμό βέβαια που υπαγορεύει ο

χρονικός περιορισμός ενός επιγραμμικού συστήματος.

5 http :// www . loc . gov / marc / [τελευταία επίσκεψη 27/01/2010]

- 19 -

http://www.loc.gov/marc/

2.2.Το σύστημα μετα-αναζήτησης ως ενδιάμεσος

Ένα σύστημα μετα-αναζήτησης, όπως αναδείχθηκε παραπάνω, λειτουργεί ως ενδιάμεσος -

διαμεσολαβητής ανάμεσα στον τελικό χρήστη και στις διάφορες πληροφοριακές πηγές (βάσεις

δεδομένων) ή συστήματα πληροφοριακών πηγών (μηχανές αναζήτησης, front-ends πηγών κλπ).

Δέχεται τις αιτήσεις του χρήστη, τις προωθεί στις πληροφοριακές πηγές (μετά από κάποια

επεξεργασία), συγκεντρώνει τα επιστρεφόμενα αποτελέσματα και τα παρουσιάζει τελικά στο

χρήστη. Η λειτουργία αυτή απεικονίζεται στο παρακάτω σχήμα 1.

Αναλυτικά τα κύρια συστατικά – διαδικασίες ενός συστήματος μετα-αναζήτησης είναι τα

ακόλουθα:

1. Διεπαφή μετα-μηχανής αναζήτησης

2. Γλώσσα Ερωτήσεων

3. Κωδικοποίηση και Αποστολή Ερώτησης

4. Λήψη και Αποκωδικοποίηση Απάντησης

5. Επεξεργασία της απάντησης

6. Παρουσίαση της απάντησης

- 20 -

target2

Meta-Μηχανή

Μετα-Αναζήτησης

Διεπαφή Χρήστη

Πηγή 1 Πηγή 2 Πηγή Ν

Σχήμα 1: Γενική λειτουργία μετα-μηχανής αναζήτησης

Στις διαδικασίες 2 έως 5 ανακύπτουν τα προβλήματα διαλειτουργικότητας που καλείται να

αντιμετωπίσει η μετα-μηχανή αναζήτησης. Έτσι θα πρέπει να γνωρίζει τη μορφή των

ερωτήσεων που δέχεται το κάθε ξεχωριστό σύστημα πληροφοριακής πηγής με το οποίο

πρόκειται να επικοινωνήσει. Αυτό βέβαια απαιτεί συνεχή ενημέρωση της μετα-μηχανής

αναζήτησης έτσι ώστε να μπορεί να μεταφράζει τη δικιά της μορφή ερωτήσεων σε αυτή που

απαιτεί η νέα πληροφοριακή πηγή. Η ύπαρξη κάποιων κοινών τρόπων δόμησης της ερώτησης

διευκολύνει τη διαδικασία αυτή αμβλύνοντας το πρόβλημα διαλειτουργικότητας σε αυτό το

στάδιο. Βέβαια όλα εξαρτώνται από τις πληροφοριακές πηγές στο κατά πόσο θα

συμμορφώνονται στα προτεινόμενα πρότυπα για τη δόμηση της ερώτησης. Κάποια κοινά

αποδεκτά πρότυπα είναι τα CCL6 και CQL7. Μετά την κωδικοποίηση της ερώτησης η μετα-

μηχανή αναζήτησης πρέπει να γνωρίζει πως θα επικοινωνήσει με την πληροφοριακή πηγή. Ο πιο

συνηθισμένος τρόπος επικοινωνίας πλέον στις βιβλιογραφικές πηγές είναι διαμέσου των

πρωτοκόλλων Z39.50 και SRW/SRU8. Έτσι αν γνωρίζει η μετα-μηχανή αναζήτησης να μιλά με

αυτά τα πρωτόκολλα τότε μπορεί να μιλήσει με τις περισσότερες πληροφοριακές πηγές στο

χώρο των Βιβλιοθηκών. Σημαντικό πρόβλημα διαλειτουργικότητας προκύπτει όμως στο στάδιο

της αποκωδικοποίησης της απάντησης. Αρχικά θα πρέπει η μετα-μηχανή αναζήτησης να

γνωρίζει πως θα βρει τα επιστρεφόμενα αποτελέσματα μέσα στην απάντηση που θα λάβει και

στη συνέχεια να γνωρίζει το συντακτικό μορφότυπο των αποτελεσμάτων το οποίο μπορεί να

είναι html σελίδα, xml κείμενο, απλό κείμενο κλπ. και επίσης να γνωρίζει το σύνολο

χαρακτήρων (character set) που χρησιμοποιήθηκε για την κωδικοποίηση τους έτσι ώστε να

μπορούν να διαβαστούν. Επομένως πρέπει πάλι η μετα-μηχανή αναζήτησης να γνωρίζει πολλά

συντακτικά μορφότυπα, πολλά σύνολα χαρακτήρων, πολλούς τρόπους πακεταρίσματος της

απάντησης για να μπορεί να βρίσκει και να διαβάζει τα επιστρεφόμενα αποτελέσματα. Ομοίως

με το προηγούμενο στάδιο η χρήση κοινών προτύπων ή πιο γενικά οικογενειών προτύπων

6 Common Command Language (ISO 8777)7 Common Query Language - http :// www . loc . gov / standards / sru / specs / cql . html [τελευταία επίσκεψη 27/01/2010]8 http://www.loc.gov/standards/sru/ [τελευταία επίσκεψη 27/01/2010]

- 21 -

http://www.loc.gov/standards/sru/

http://www.loc.gov/standards/sru/specs/cql.html

αμβλύνει ή και εξαλείφει το πρόβλημα της διαλειτουργικότητας σε αυτό το στάδιο. Ένας όμως

από τους κύριους στόχους μιας επιτυχημένης μετα-μηχανής αναζήτησης είναι η παρουσίαση

στον τελικό χρήστη μιας ενοποιημένης απάντησης από τις διάφορες πληροφοριακές πηγές έτσι

ώστε ο χρήστης να νομίζει ότι απευθύνεται σε μια μόνο πληροφοριακή πηγή, σε ένα μεγάλο

Κατάλογο. Τα αποτελέσματα που θα βλέπει συνιστάται να ακολουθούν ενιαία μορφή σύνταξης,

κωδικοποίησης και δόμησης και να μην παρουσιάζονται πληροφορίες που αναφέρονται στην

ίδια οντότητα πολλές φορές και οι οποίες πιθανόν είναι ελαφρά διαφοροποιημένες. Με λίγα

λόγια η μετα-μηχανή αναζήτησης όπως αναφέρθηκε και παραπάνω θα πρέπει να προσφέρει

ποιοτικά αποτελέσματα για να μπορεί να συνεισφέρει καταρχήν στις διαδικασίες αναζήτησης /

ανάκτησης από τον τελικό χρήστη αλλά και γιατί όχι και στις βιβλιογραφικές εργασίες. Για να

επιτευχθούν τα παραπάνω πρέπει να μπορεί η μετα-μηχανή αναζήτησης όχι μόνο να διαβάζει τα

επιστρεφόμενα αποτελέσματα αλλά και να τα κατανοεί έτσι ώστε να μπορεί να τα

επεξεργάζεται. Άρα απαραίτητη είναι η γνώση της δομής των επιστρεφόμενων αποτελεσμάτων.

Και σε αυτό το στάδιο η ύπαρξη και χρήση κοινά αποδεκτών προτύπων επιλύει εν μέρει το

πρόβλημα όπως θα καταδειχθεί παρακάτω.

Επιπρόσθετα με τα παραπάνω στάδια αξίζει να αναφερθεί ότι μια μετα-μηχανή αναζήτησης θα

πρέπει να εξυπηρετεί τις άμεσα ανταποκρινόμενες διεπαφές που μπορούν εύκολα να

κατασκευαστούν με τις νέες τεχνολογίες (τεχνολογία Ajax9). Όταν κατά τη διαδικασία

αναζήτησης επικοινωνεί με τα διάφορα συστήματα πληροφοριακών πηγών είναι φανερό ότι η

κατασκευή της συνολικής απάντησης είναι χρονοβόρα και εξαρτάται πέραν του χρόνου

επεξεργασίας της από τη μετα-μηχανή αναζήτησης, και από τους χρόνους απόκρισης των

διαφορετικών πηγών. Δεδομένου του γεγονότος ότι οι πληροφοριακές πηγές (συστήματα που

υποστηρίζουν το Z39.50) επιστρέφουν τμηματικά την απάντησή τους φαντάζει απαραίτητη η

ανταπόκριση της μετα-μηχανής αναζήτησης έστω με τα πρώτα αποτελέσματα έτσι ώστε να

δίνεται η εντύπωση στον χρήστη της επιτυχούς και γρήγορης αναζήτησης η οποία θα διαρκεί

9 Asynchronous JavaScript and XML - http :// www . w 3 schools . com / ajax / [τελευταία επίσκεψη 27/01/2010]

- 22 -

http://www.w3schools.com/ajax/

πλέον όσο ο χρόνος απόκρισης της πιο γρήγορης πηγής αυξανόμενος κατά το χρόνο

επεξεργασίας της απάντησης.

- 23 -

3. Το σύστημα μετα-αναζήτησης «pazpar2»

3.1.Περιγραφή του «pazpar2»

Το «pazpar2»10 (IndexData - 2010) είναι μια μετα-μηχανή αναζήτησης και αποτελεί ελεύθερη

διανομή της Index Data11 με άδεια ανοικτού λογισμικού και συγκεκριμένα με την “GNU General

Public License12, version 2”. Ως μετα-μηχανή αναζήτησης μπορεί να συνομιλεί με πολλές πηγές

πληροφοριών που μιλούν διάφορα πρωτόκολλα επικοινωνίας. Προς το παρόν η ελεύθερη

διανομή της μπορεί να συνομιλεί μόνο με πηγές πληροφοριών που υποστηρίζουν το Z39.50

πρωτόκολλο επικοινωνίας, το οποίο αποτελεί το πιο δημοφιλές πρωτόκολλο για

αναζήτηση/ανάκτηση σε βιβλιογραφικές βάσεις δεδομένων αλλά το «pazpar2» είναι έτσι

σχεδιασμένο ώστε με μικρές παρεμβάσεις να μπορεί να συνομιλεί και με άλλα πρωτόκολλα

επικοινωνίας. Προς την πλευρά του χρήστη εξωτερικεύει μια σχετικά απλή διεπαφή και

επιστρέφει τα αποτελέσματα σε μορφή XML13. Το γενικό μοντέλο λειτουργίας του

παρουσιάζεται στο παρακάτω σχήμα.

User Interface

target2 targetN

Configurationfiles

target1

Pazpar2Meta-Search Client

WebServer

User Interface

target2 targetN

Configurationfiles

target1


WebServer

10 http://www.indexdata.com/»pazpar2» [τελευταία επίσκεψη 27/01/2010]11 http://www.indexdata.dk/ [τελευταία επίσκεψη 27/01/2010]12 http://www.gnu.org/licenses/gpl-2.0.html [τελευταία επίσκεψη 27/01/2010]13 http://www.w3.org/XML/ [τελευταία επίσκεψη 27/01/2010]

- 24 -

http://www.w3.org/XML/

http://www.gnu.org/licenses/gpl-2.0.html

http://www.indexdata.dk/

http://www.indexdata.com/pazpar2

Σχήμα 2: Γενική αναπαράσταση του μοντέλου λειτουργίας

Η επικοινωνία με το «pazpar2» γίνεται διαμέσου ενός web services14 API15. (οι εντολές που

δέχεται περιγράφονται αναλυτικά στο Παράρτημα Ζ). Αυτό επιβάλει από τη μια τη δημιουργία

μιας διεπαφής χρήστη (user interface) για την επικοινωνία μαζί του αλλά ταυτόχρονα δίνει την

ευελιξία της κατασκευής οποιασδήποτε διεπαφής χρήστη με οποιαδήποτε γλώσσα ερωτήσεων

αρκεί βέβαια να μεταφράζεται στη δομή των ερωτήσεων που καταλαβαίνει το «pazpar2». Αξίζει

να αναφερθεί ότι η ελεύθερη διανομή του περιλαμβάνει μια απλή web διεπαφή για την

κατάδειξη και όχι μόνο της χρήσης του. Η δομή ερωτήσεων που καταλαβαίνει είναι η ευρέως

διαδεδομένη στο χώρο των βιβλιοθηκών CCL (ISO 8777). Αφού δεχθεί μια αίτηση

αναζήτησης / ανάκτησης τότε αποστέλλει την ερώτηση στις ζητούμενες πληροφοριακές πηγές

αφού πρώτα την έχει μεταφράσει σε αίτηση του Z39.50 πρωτοκόλλου. Στη συνέχεια

λαμβάνοντας τις απαντήσεις, τις επεξεργάζεται σύμφωνα με προκαθορισμένες διαδικασίες και

τελικά αποστέλλει την απάντηση σε XML μορφή στον χρήστη.

Για το στάδιο της αποκωδικοποίησης και κατανόησης της απάντησης από τις διάφορες

πληροφοριακές πηγές το «pazpar2» χρησιμοποιεί ένα σχετικά ευέλικτο μοντέλο δεδομένων.

Σύμφωνα με αυτό οι επιστρεφόμενες εγγραφές (Source Records ) από τις βάσεις δεδομένων ως

αποτέλεσμα κάποιας αίτησης αναζήτησης ή ανάκτησης ή ανίχνευσης όρων (termlist)

αποθηκεύονται σε μια εσωτερική δομή. Αυτή η εσωτερική δομή δεν είναι προκαθορισμένη από

το πρωτόκολλο του «pazpar2» αλλά μπορεί να αποφασιστεί σύμφωνα με το είδος των

επιστρεφομένων δεδομένων και τις πολιτικές χρήσης τους. Αυτός ο καθορισμός της εσωτερικής

δομής εκφράζεται από ένα XSLT16 Stylesheet σύμφωνα με το οποίο επιλέγονται ποια από τα

δεδομένα της κάθε επιστρεφόμενης εγγραφής θα αποθηκευτούν εσωτερικά. Έτσι λοιπόν

δημιουργείται ένα νέο είδος εγγραφών, οι εσωτερικές εγγραφές (Internal Records ). Το

14 http://en.wikipedia.org/wiki/Web_service [τελευταία επίσκεψη 27/01/2010]15 http://en.wikipedia.org/wiki/Application_programming_interface [τελευταία επίσκεψη 27/01/2010]16 http://www.w3.org/TR/xslt [τελευταία επίσκεψη 27/01/2010]

- 25 -

http://www.w3.org/TR/xslt

http://en.wikipedia.org/wiki/Application_programming_interface

http://en.wikipedia.org/wiki/Web_service

«pazpar2» πακέτο συνοδεύεται από κάποια έτοιμα XSLT Stylesheets για τη δημιουργία των

εσωτερικών εγγραφών (για εγγραφές που είναι κωδικοποιημένες με βάση τα USMARC,

UNIMARC, Danmarc2 και OAI/DC)17. Αυτός ο τρόπος επιτρέπει την εύκολη αναβάθμιση του

«pazpar2» έτσι ώστε να καταλαβαίνει νέους τρόπους κωδικοποίησης εγγραφών (record syntax18)

που έχουν διαλέξει οι πληροφοριακές πηγές με δεδομένο μόνο τον περιορισμό να επιτυγχάνεται

η μετάφραση στην εσωτερική δομή με ένα XSLT Stylesheet. Προτού ξεκινήσει η δημιουργία

των εσωτερικών εγγραφών, οι εισερχόμενες εγγραφές από τις βάσεις δεδομένων μετατρέπονται

σε XML μορφή αν δεν είναι ήδη σε XML μορφή. Ο περιορισμός που τίθεται προς το παρόν

είναι ότι μπορούν να αναγνωριστούν εκτός από μορφή XML, μόνο εγγραφές που είναι σε

MARC μορφή (ISO270919) και οι οποίες μετατρέπονται σε MARCXML20. Κατά το στάδιο

μετατροπής των εισερχόμενων εγγραφών στη δομή των εσωτερικών εγγραφών λαμβάνει χώρα

μια σημαντική λειτουργία, η εύρεση των «όμοιων» εγγραφών. Σύμφωνα με τα κριτήρια που

έχουν δοθεί στα αρχεία ρυθμίσεων αναζητούνται εγγραφές που αναφέρονται στην ίδια οντότητα

και διαχωρίζονται από τις άλλες. Το αποτέλεσμα αυτής της διαδικασίας είναι να δημιουργηθούν

συστάδες εγγραφών (record clusters) μέσα στις οποίες οι εγγραφές είναι «όμοιες» σύμφωνα με

τα κριτήρια που έχουν δοθεί και είναι «ανόμοιες» με όλες τις άλλες των άλλων συστάδων. Μετά

την ολοκλήρωση της κατασκευής των εσωτερικών εγγραφών ακολουθεί η εξαγωγή από αυτές

των μεταδεδομένων, που έχει προαποφασιστεί και δηλωθεί, για τη δημιουργία των τελικών

εγγραφών (Retrieval Records ) που θα εμφανιστούν στον χρήστη. Σε αυτό το στάδιο λαμβάνουν

χώρα και άλλες σημαντικές λειτουργίες όπως η κατάταξη των προς εμφάνιση εγγραφών

σύμφωνα με κάποια κριτήρια σχετικότητας (Relevance Ranking), η ταξινόμησή τους σύμφωνα

με λεξικογραφικά κριτήρια (Sorting), και η επιλογή των στοιχείων (elements/fields) που θα

χρησιμοποιούν για την υπηρεσία της ανίχνευσης όρων (termlist) ή για φασετική ανάλυση (facet

analysis). Όλες οι πληροφορίες που είναι απαραίτητες για την εφαρμογή των παραπάνω

17 http://www.loc.gov/marc/ και http://dublincore.org/ [τελευταία επίσκεψη 27/01/2010]18 http://www.loc.gov/z3950/agency/defns/oids.html#5 [τελευταία επίσκεψη 27/01/2010]19 http://www.iso.org/iso/catalogue_detail.htm?csnumber=7675 [τελευταία επίσκεψη 27/01/2010]20 http://www.loc.gov/standards/marcxml/ [τελευταία επίσκεψη 27/01/2010]

- 26 -

http://www.loc.gov/standards/marcxml/

http://www.iso.org/iso/catalogue_detail.htm?csnumber=7675

http://www.loc.gov/z3950/agency/defns/oids.html#5

http://dublincore.org/


διαδικασιών δηλώνονται σε αρχεία ρυθμίσεων τα οποία διαβάζει το «pazpar2». Η παραπάνω

διαδικασία παρουσιάζεται σχηματικά στο παρακάτω σχήμα.

User Interface

target2 targetN

Configurationfiles

target1


WebServer

Retrieval Records(XML format)

Internal Records(XML format)

Source Records( MARC (iso2709) ήXML format )

XSLT

Configuration files

User Interface

target2 targetN

Configurationfiles

target1


WebServer

User Interface

target2 targetN

Configurationfiles

target1


WebServer

Retrieval Records(XML format)

Internal Records(XML format)

Source Records( MARC (iso2709) ήXML format )

XSLT

Configuration files

Σχήμα 4: Από τα δεδομένα των πηγών στα δεδομένα εμφάνισης

- 27 -

3.2.FRBR οντότητες και «pazpar2»

Όπως αναφέρθηκε στην προηγούμενη ενότητα, στο «pazpar2» κατά το στάδιο της μετατροπής

των εισερχόμενων εγγραφών στη δομή των εσωτερικών εγγραφών λαμβάνει χώρα η διαδικασία

εύρεσης των «όμοιων» εγγραφών σύμφωνα με κριτήρια που έχουν τεθεί, με σκοπό να

εμφανιστούν στο χρήστη μοναδικές οντότητες. Ο όρος «μοναδικές οντότητες», σχετικά με τα

βιβλιογραφικά δεδομένα, αναφέρεται συνήθως στο μοναδικό τεκμήριο. Στη σημερινή εποχή

όμως, υπάρχει ανάγκη για περισσότερο εννοιολογική αναπαράσταση της βιβλιογραφικής

πληροφορίας πέρα από τα στενά όρια του τεκμηρίου. Προς αυτή την κατεύθυνση συμβάλει το

εννοιολογικό μοντέλο FRBR (IFLA Study Group on the Functional Requirements for

Bibliographic Records - 2009) το οποίο προτείνει νέους τρόπους οργάνωσης και παρουσίασης

της βιβλιογραφικής πληροφορίας σε διαφορετικά εννοιολογικά επίπεδα, που καλύπτουν

καλύτερα τις ανάγκες των χρηστών για διαφορετικές όψεις της πληροφορίες ανάλογα κάθε φορά

με τις ανάγκες τους. Σύμφωνα με αυτό μοντέλο η βιβλιογραφική πληροφορία μπορεί να

παρουσιαστεί σε επίπεδο διαφορετικών έργων21 (μια ξεχωριστή πνευματική ή καλλιτεχνική

δημιουργία), σε επίπεδο διαφορετικών εκφράσεων22 (η πνευματική ή καλλιτεχνική

πραγματοποίηση ενός έργου), σε επίπεδο διαφορετικών εκδηλώσεων23 (η φυσική ενσάρκωση

μιας έκφρασης ενός έργου) και σε επίπεδο αντιτύπου24 (ένα ενιαίο υπόδειγμα από μια

εκδήλωση). Παρόλο που το FRBR αναγνωρίζεται ως ένα πολύτιμο μοντέλο, εντούτοις η πιο

πλούσια σημασιολογία του κάνει δύσκολη την αναβάθμιση της ήδη υπάρχουσας βιβλιογραφικής

πληροφορίας σε αυτό λόγω κυρίως της δομής της (MARC25) που είχε σχεδιαστεί για να

εξυπηρετήσει άλλους σκοπούς. Για αυτό οι διάφορες προσπάθειες που γίνονται

προσανατολίζονται κυρίως στη συσταδοποίηση και εμφάνιση της βιβλιογραφικής πληροφορίας

21 “Work” κατά FRBR22 “Expression” κατά FRBR23 “Manifestation” κατά FRBR24 “Item” κατά FRBR25 http://www.loc.gov/marc/ [τελευταία επίσκεψη 27/01/2010]

- 28 -


κατά FRBR και όχι στην ενημέρωση των Καταλόγων των Βιβλιοθηκών. Το «pazpar2» βοηθά

προς την κατεύθυνση αυτή αρκεί να ενημερωθεί η διαδικασία μετατροπής των εισερχόμενων

εγγραφών στις εσωτερικές εγγραφές με τα νέα κριτήρια που θέτει το FRBR μοντέλο για την

κατασκευή των κλειδιών ταυτοποίησης και στη συνέχεια, όπως θα αναλυθεί στην επόμενη

ενότητα, να γίνει χρήση γνωστών τεχνικών της «διαδικασίας αφαίρεσης διπλότυπων εγγραφών»

μαζί με αλγορίθμους συσταδοποίησης τεκμηρίων και χρήση τεχνικών εύρεσης ομοιότητας, για

την εύρεση FRBR οντοτήτων.

- 29 -

4. Το πρόβλημα της συσταδοποίησης τεκμηρίων

4.1.Η εύρεση των «όμοιων» εγγραφών

Στις βιβλιογραφικές εγγραφές, σε επίπεδο τεκμηρίου, οι «όμοιες» εγγραφές είναι αυτές που

αναφέρονται στο ίδιο τεκμήριο. Επομένως αν έχουν τεθεί κριτήρια για την εμφάνιση μοναδικών

τεκμηρίων τότε η αναζήτηση και εξάλειψη των «όμοιων» εγγραφών ανάγεται σε πρόβλημα

αναζήτησης και εξάλειψης των διπλότυπων εγγραφών. Η διαδικασία αυτή χρησιμοποιείται σε

πολλά επιστημονικά πεδία και είναι γνωστή με διάφορα ονόματα όπως “data deduplication”,

“record linkage”, merge-purge”, “instance identification”, “database hardening” και “name

matching” (Freire, Borbinha and Calado - 2007). Σε αυτή τη διαδικασία ελέγχεται αν κάποια

σημεία των εγγραφών, σύμφωνα με κάποιους κανόνες είναι ίδια οπότε και θεωρούνται

διπλότυπες εγγραφές. Αν τώρα έχουν τεθεί κριτήρια για την εμφάνιση μοναδικών εγγραφών

σύμφωνα με το FRBR μοντέλο διαισθητικά θα μπορεί να εφαρμοστεί παρόμοια διαδικασία ώστε

να βρεθούν οι εγγραφές που θα αναφέρονται στην ίδια οντότητα (π.χ. work, expression).

Επομένως αξίζει να εξεταστεί η εφαρμογή τεχνικών «αφαίρεσης διπλότυπων εγγραφών» για την

παρουσίαση μοναδικών εγγραφών που αναφέρονται στην ίδια FRBR οντότητα, γεγονός που

εξυπηρετεί την αδυναμία ή έστω δυσκολία της μετατροπής της παραδοσιακής δομής των

βιβλιογραφικών εγγραφών (MARC) στο μοντέλο FRBR.

Όμως τι είναι και γιατί υπάρχουν διπλότυπες εγγραφές; Σε ένα περιβάλλον μετα-αναζήτησης το

οποίο απευθύνεται σε πολλές και διαφορετικές πληροφοριακές πηγές είναι λογικό να υπάρχουν

εγγραφές που αναφέρονται στην ίδια οντότητα. Αυτές οι πληροφοριακές πηγές μπορεί να

ανήκουν σε οργανισμούς διαφορετικής φύσης, διαφορετικών κρατών, διαφορετικών λαών,

κουλτούρας και πολιτισμού. Έστω και στα πιο στενά πλαίσια του ίδιου κράτους αν υποτεθεί ότι

- 30 -

έχουν καθοριστεί γενικοί κανόνες καταλογογράφησης πλήρως αποσαφηνισμένοι, αρχεία

καθιερωμένων όρων κλπ και όλοι οι Οργανισμοί τους ακολουθούν πιστά, και δεν υπάρχουν

ανθρώπινα λάθη τότε στις συλλογές τους αν υπάρχουν εγγραφές που αναφέρονται στην ίδια

οντότητα θα είναι απολύτως ίδιες ανεξαρτήτου Οργανισμού. Επειδή όμως η παραπάνω

κατάσταση κατά μέρος της ή ακόμη και στο σύνολό της φαντάζει ουτοπική το αποτέλεσμα είναι

να δημιουργούνται εγγραφές που αναφέρονται στην ίδια οντότητα αλλά δεν είναι ίδιες.

Μιλώντας για την Ελληνική πραγματικότητα ο Μπράττης (2007) συνοψίζει μετά από μελέτη του

Φυσικού Συλλογικού Καταλόγου των Ελληνικών Ακαδημαϊκών Βιβλιοθηκών (ΣΚΕΑΒ) τους

λόγους για τους οποίους δημιουργούνται διπλότυπες εγγραφές και είναι οι παρακάτω:

- Η έλλειψη εθνικών προτύπων καταλογογράφησης και η αδυναμία τήρησης των

αγγλοαμερικανικών κανόνων καταλογογράφησης από τους συναδέλφους στις βιβλιοθήκες-

μέλη.

- Οι διαφορετικές ερμηνείες των κανόνων καταλογογράφησης.

- Η έλλειψη κοινού εθνικού αρχείου καθιερωμένων αποδόσεων φυσικών προσώπων,

συλλογικών οργάνων, θεμάτων, σειρών, εκδοτών κλπ.

- Η ύπαρξη δύο format MARC στις ελληνικές βιβλιοθήκες (UNIMARC και MARC21).

- Η μη ικανοποιητική γνώση του UNIMARC και του MARC21, που οδηγεί σε λάθη σύνταξης

των εγγραφών.

- Τα διαφορετικά character set που χρησιμοποιούν οι βιβλιοθήκες και η αδυναμία των

περισσοτέρων προγραμμάτων αυτοματοποίησης να αξιοποιήσουν την κωδικοποίηση

UNICODE.

Είναι προφανές πως αν γινόταν μελέτη σε περισσότερα είδη Οργανισμών οι λόγοι δημιουργίας

διπλότυπων εγγραφών μάλλον θα αυξάνονταν. Επομένως υπάρχει η ανάγκη για τον καθορισμό

τρόπων εύρεσης των διπλότυπων εγγραφών.

- 31 -

Για την εύρεση των διπλότυπων εγγραφών όπως αναφέρθηκε παραπάνω εφαρμόζεται

αλγόριθμος «αφαίρεσης διπλότυπων εγγραφών». Οι Sitas and Kapidakis (2008) αναφέρουν ότι

τα στάδια ενός αλγορίθμου «αφαίρεσης διπλότυπων εγγραφών» είναι τα παρακάτω:

- Βήματα εφαρμογής

Αν ο αλγόριθμος αναζητά τις διπλότυπες εγγραφές σε ένα ή σε δύο βήματα. Όταν

υλοποιείται σε δύο βήματα, συνήθως στο πρώτο βήμα έχει χαλαρά κριτήρια τα οποία

γίνονται πιο αυστηρά στο δεύτερο βήμα. Στο πρώτο βήμα προκύπτουν κάποιες υποψήφιες

διπλότυπες εγγραφές και στο δεύτερο βήμα επιλέγονται ποιες από τις υποψήφιες

αναφέρονται όντως στις ίδιες εγγραφές σύμφωνα με τα κριτήρια που έχουν τεθεί. Με τα δύο

βήματα συνήθως εξασφαλίζεται μεγαλύτερη ταχύτητα και καλύτερη επεξεργασία των

εγγραφών.

- Επιλογή πεδίων / Κλειδιά ταυτοποίησης

Επιλέγονται τα πεδία τα οποία θεωρούνται σημαντικά για την ταυτοποίηση των εγγραφών.

Τα πεδία αυτά συνήθως συνενώνονται (ολόκληρα ή τμήμα τους) και αποτελούν τα κλειδιά

ταυτοποίησης τα οποία συγκρίνονται για την εύρεση των διπλότυπων εγγραφών. Για να μην

υπάρχουν χαμένες ταυτοποιήσεις που να οφείλονται σε διαφορετικούς τονισμούς, σημεία

στίξης κλπ προηγείται της διαδικασίας ταυτοποίησης η κανονικοποίηση των κλειδιών με την

αφαίρεση των παραπάνω και τη μετατροπή τους σε κεφαλαία γράμματα ή έλεγχος που δεν

λαμβάνει υπόψη πεζά και κεφαλαία γράμματα ως διαφορετικά.

- Αξιολόγηση ταυτοποίησης

Εφαρμόζονται δύο μέθοδοι. Η μέθοδος της Σύγκρισης πεδίων κατά την οποία ελέγχονται τα

αντίστοιχα πεδία αν είναι ίδια ή όχι και η μέθοδος της βαθμολόγησης σύμφωνα με την οποία

τα κλειδιά ταυτοποίησης εξετάζονται αν έχουν ομοιότητα πάνω από ένα προκαθορισμένο

- 32 -

όριο ή όχι. Η πρώτη μέθοδος είναι αρκετά αυστηρή αφού για το ταίριασμα των εγγραφών

απαιτείται το απόλυτο ταίριασμα όλων των εξεταζόμενων πεδίων ενώ η δεύτερη μέθοδος

είναι πιο χαλαρή και επιτρέπει τυχόν ανθρώπινα λάθη ή μικρές διαφοροποιήσεις στις τιμές

των πεδίων (π.χ. ύπαρξη ή όχι άρθρων).

- Χειρισμός διπλότυπων εγγραφών

Αφού ο αλγόριθμος καταλήξει στην ύπαρξη διπλότυπων εγγραφών τότε επιλέγεται ο

χειρισμός τους και σύμφωνα με τον Toney (1992) μπορεί να είναι:

o Μια αναγραφή επιλέγεται ως η κύρια (master record) και οι άλλες διαγράφονται.

o Μια εγγραφή επιλέγεται ως η κύρια και τα πεδία των διπλών εγγραφών που

διαφέρουν, προστίθενται σ’ αυτή (συγχώνευση).

o Όλες οι εγγραφές κρατούνται, αλλά ομαδοποιούνται (clustered) με μια κύρια εγγραφή.

Το επιθυμητό αποτέλεσμα της εφαρμογής ενός αλγορίθμου εύρεσης διπλότυπων εγγραφών είναι

να καταφέρει να βρει όλες τις διπλότυπες εγγραφές σύμφωνα με τα κριτήρια ταυτοποίησης που

έχουν τεθεί. Αυτό όμως είναι αρκετά δύσκολο να επιτευχθεί μόνο μέσα από αυτοματοποιημένη

διαδικασία χωρίς την παρέμβαση του ανθρώπου και εξαρτάται κάθε φορά η επιτυχία του

αλγορίθμου από το είδος των δεδομένων και το είδος των κριτηρίων. Είναι προφανές ότι δεν

μπορεί να υπάρξει ένας γενικός αλγόριθμος για όλα τα βιβλιογραφικά δεδομένα που να αποδίδει

αρκετά ικανοποιητικά. Έτσι λοιπόν ένας αλγόριθμος θα κάνει και λάθος ταυτοποιήσεις ή θα

χάσει κάποιες ταυτοποιήσεις. Εάν χάσει κάποιες ταυτοποιήσεις απλά ο χρήστης θα δει την ίδια

εγγραφή στις παραλλαγές της και μένει στον ίδιο να αναγνωρίσει ότι αναφέρεται στην ίδια

οντότητα. Το πρόβλημα είναι οι λάθος ταυτοποιήσεις γιατί τότε διαφορετική πληροφορία θα

παρουσιάζεται ως ίδια με αποτέλεσμα να χάνονται κάποιες μοναδικές εγγραφές και ο χρήστης

να μην μπορεί τελικά να δει όλες τις υπάρχουσες διαφορετικές εγγραφές. Επομένως ο στόχος

- 33 -

ενός αλγορίθμου είναι πρωτίστως να μην έχει λάθος ταυτοποιήσεις και στη συνέχεια να μη χάνει

και σωστές ταυτοποιήσεις.

Η παραπάνω δομή ενός αλγορίθμου «αφαίρεσης διπλότυπων εγγραφών» εφαρμόζεται ήδη από

το «pazpar2» για την εύρεση των «όμοιων» εγγραφών στο σύνολο των επιστρεφόμενων

εγγραφών από τις διάφορες πληροφοριακές πηγές. Συγκεκριμένα το «pazpar2» στηρίζεται σε

αλγόριθμο ενός βήματος και χρησιμοποιεί για τον έλεγχο της ομοιότητας των εγγραφών κλειδιά

ταυτοποίησης για τα οποία έχει δηλωθεί από ποια πεδία θα αποτελούνται (ολόκληρα πεδία).

Συγκεκριμένα τα κλειδιά αυτά δημιουργούνται κατά το στάδιο της μετατροπής των

επιστρεφόμενων εγγραφών, από τις διάφορες πληροφοριακές πηγές ως απάντησης μιας αίτησης

αναζήτησης κλπ, στις εσωτερικές εγγραφές. Στις τιμές των κλειδιών ταυτοποίησης εφαρμόζεται

μέθοδος κανονικοποίησης για την αφαίρεση κενών χαρακτήρων, τονισμών, σημείων στίξης κλπ

έτσι ώστε να μην υπάρχουν χαμένες ταυτοποιήσεις που να οφείλονται στα παραπάνω. Η

διαδικασία κανονικοποίησης ελέγχεται από τα αρχεία ρυθμίσεων του «pazpar2» και είναι

παραμετρική. Στη συνέχεια ελέγχονται τα κλειδιά ταυτοποίησης αν είναι ίδια, το οποίο σημαίνει

απόλυτη ταύτιση των πεδίων που τα απαρτίζουν, και τότε και μόνο τότε οι εγγραφές θεωρούνται

«όμοιες». Όταν λοιπόν βρεθούν «όμοιες» εγγραφές το «pazpar2» δημιουργεί μια συστάδα και

προσθέτει όλες αυτές τις εγγραφές μέσα σε αυτή. Κάθε νέα εγγραφή που θα βρεθεί ότι έχει

«όμοιά» της προστίθεται στην αντίστοιχη συστάδα ενώ αν δεν έχει «όμοια» εγγραφή

δημιουργείται μια νέα συστάδα για αυτή τη νέα εγγραφή. Στο χρήστη τελικά το «pazpar2» θα

δείξει για κάθε συστάδα μια αντιπροσωπευτική εγγραφή (representative record) η οποία θα

αποτελείται από τα πεδία που έχουν δηλωθεί στα αρχεία ρυθμίσεων. Αυτή η αντιπροσωπευτική

εγγραφή προκύπτει από τη συγχώνευση (merging) των εγγραφών της συστάδας αλλά η

συγχώνευση δεν είναι μόνιμη αλλά μόνο ορατή κατά τη διαδικασία (on the fly) αφού οι

ξεχωριστές εγγραφές δε διαγράφονται. Τα πεδία που αποτελούν την αντιπροσωπευτική εγγραφή

- 34 -

προκύπτουν από τα αντίστοιχα πεδία των εγγραφών της συστάδας («όμοιες» εγγραφές) και

αποτελούνται (σύμφωνα πάλι με τις επιλογές στα αρχεία ρυθμίσεων) από:

- Όλα τα αντίστοιχα μοναδικά πεδία των εγγραφών της συστάδας

- Μόνο από το αντίστοιχο πεδίο της «όμοιας» εγγραφής με το μεγαλύτερο μήκος

- Από κάποιες τιμές των αντίστοιχων πεδίων των «όμοιων» εγγραφών

- Από όλα τα αντίστοιχα πεδία των «όμοιων» εγγραφών

Το «pazpar2» δίνει επίσης τη δυνατότητα να μη γίνεται συγχώνευση και το μόνο που θα

εμφανίζεται για την κάθε «όμοια» εγγραφή θα είναι το κοινό τους κλειδί ταυτοποίησης. Όπως

αναφέρεται στο Παράρτημα Ζ το «pazpar2» δίνει και τη δυνατότητα αναλυτικής εμφάνισης μιας

εγγραφής, ουσιαστικά μιας συστάδας εγγραφών. Σύμφωνα με αυτή τη δυνατότητα εμφανίζεται η

αντιπροσωπευτική εγγραφή όπως περιγράφτηκε παραπάνω και στη συνέχεια εμφανίζεται και

κάθε ξεχωριστή εγγραφή που αποτελεί την συστάδα. Έτσι ο χρήστης μπορεί να δει όλες τις

πληροφορίες για την κάθε «όμοια» εγγραφή. Τέλος θα πρέπει να τονιστεί ότι το «pazpar2»

εκτελεί τον παραπάνω αλγόριθμο ξεχωριστά για κάθε σύνολο επιστρεφομένων εγγραφών από

την κάθε διαφορετική πληροφοριακή πηγή με αποτέλεσμα μετά την απάντηση της πρώτης πηγής

να είναι σε θέση να παρουσιάσει στο χρήστη αποτελέσματα εξυπηρετώντας έτσι τις άμεσα

ανταποκρινόμενες διεπαφές χρήστη.

Συμπερασματικά για τον αλγόριθμο εύρεσης «όμοιων» εγγραφών του «pazpar2» θα

μπορούσαμε να πούμε ότι είναι παραμετρικός σε κάποια στάδιά του και αρκετά γρήγορος αφού

κάνει απλά συγκρίσεις πλήρης ταύτισης των κλειδιών ταυτοποίησης. Δεν κάνει καμία λάθος

ταυτοποίηση, άρα έχει ακρίβεια 100% αλλά χάνει ταυτοποιήσεις όταν υπάρχουν εγγραφές που

αναφέρονται στην ίδια οντότητα αλλά δεν έχουν ίδια κλειδιά ταυτοποίησης, έστω και με μικρές

διαφορές, με αποτέλεσμα να μειώνεται η ανάκληση του συστήματος. Αυτό είναι προφανές γιατί

- 35 -

η πλήρης ταύτιση δεν μπορεί να ταιριάξει κλειδιά με μικρές παραλλαγές που προέρχονται για

παράδειγμα από ανθρώπινα λάθη, όπως ορθογραφικά λάθη, προσθήκες ή όχι άρθρων κλπ.

Επομένως διαισθητικά θα μπορούσαμε να πούμε ότι αν αντικατασταθεί η μέθοδος σύγκρισης

πλήρης ταύτισης των πεδίων με τη μέθοδο της εύρεσης ομοιότητας πάνω από ένα

προκαθορισμένο κατώφλι (threshold), στο στάδιο της αξιολόγησης ταυτοποίησης, θα είχαμε

λιγότερες χαμένες ταυτοποιήσεις. Μένει να αποδειχθεί αν είναι σημαντικό το κέρδος στις

χαμένες ταυτοποιήσεις χωρίς να έχουμε λάθος ταυτοποιήσεις. Έτσι αν δύο κλειδιά

ταυτοποίησης παρουσιάζουν ομοιότητα πάνω από ένα προκαθορισμένο κατώφλι (threshold)

τότε οι αντίστοιχες εγγραφές τους θα αποτελέσουν μια συστάδα (Freire, Borbinha and Calado -

2007). Εδώ όμως προκύπτει το εξής πρόβλημα. Το επόμενο κλειδί προς σύγκριση θα πρέπει να

συγκριθεί με την συστάδα που μόλις δημιουργήθηκε. Θα συγκριθεί με κάθε μέλος της συστάδας

ή με κάποιο άλλο που θα την αντιπροσωπεύει; Τα κλειδιά γενικά με ποια σειρά θα συγκρίνονται;

Επομένως το πρόβλημα ανάγεται σε πρόβλημα συσταδοποίησης τεκμηρίων (document

clustering). Το πρόβλημα αυτό υπάρχει σε πολλά επιστημονικά πεδία και διάφοροι αλγόριθμοι

έχουν προταθεί ανάλογα με το είδος των δεδομένων και της φύσης του προβλήματος της

συσταδοποίησης.

4.2.Κατηγορίες αλγορίθμων συσταδοποίησης τεκμηρίων

Το πρόβλημα της συσταδοποίησης τεκμηρίων είναι υποσύνολο του γενικού προβλήματος της

συσταδοποίησης δεδομένων (data clustering). Δεν υπάρχει κάποιος απόλυτος ορισμός για τη

συσταδοποίηση δεδομένων. Οι Xu and Wunsch ΙΙ (2008) αναφέρουν ότι η συσταδοποίηση

δεδομένων συνίσταται στο γεγονός της εύρεσης φυσικών και κρυμμένων δομών των δεδομένων

και στην παροχή απαντήσεων σε ερωτήσεις όπως, «Υπάρχουν συστάδες (ομάδες, υποσύνολα,

- 36 -

κατηγορίες) στα δεδομένα και αν ναι πόσες συστάδες υπάρχουν στα δεδομένα;». Γενικά η

συσταδοποίηση δεδομένων προσπαθεί να οργανώσει τα αρχικά δεδομένα σε τάξεις – κλάσεις

(συνεκτικές ομάδες) που καλούνται συστάδες έτσι ώστε τα μέλη της κάθε συστάδας να έχουν

μεταξύ τους μεγάλες ομοιότητες και καθόλου ομοιότητες ή μικρές ομοιότητες με τα μέλη των

άλλων συστάδων. Η συσταδοποίηση δεδομένων δεν πρέπει να συγχέεται με την ταξινόμηση

(classification). Στο πρόβλημα της ταξινόμησης οι τάξεις – κλάσεις είναι γνωστές εκ των

προτέρων και απλά τα δεδομένα εκχωρούνται σε κάποια ή κάποιες από αυτές. Ενώ στη

συσταδοποίηση δεδομένων οι τάξεις – κλάσεις δεν είναι γνωστές εκ των προτέρων και πρέπει να

ανιχνευτούν μέσα από τα δεδομένα. Εξειδικεύοντας θα μπορούσαμε να πούμε ότι η

συσταδοποίηση τεκμηρίων αφορά τη διαδικασία της ομαδοποίησης των τεκμηρίων που έχουν

παρόμοιο περιεχόμενο σε ξεχωριστές τάξεις – κλάσεις. Πολλοί αλγόριθμοι έχουν προταθεί κατά

καιρούς για την επίλυση του προβλήματος της συσταδοποίησης αλλά επειδή το πρόβλημα

απλώνεται σε πολλά επιστημονικά πεδία και σε καθένα από αυτά υπάρχουν πάντα διαφορετικές

ανάγκες να ικανοποιηθούν είναι προφανές ότι δεν υπάρχει ένας αλγόριθμος που να αποδίδει

ικανοποιητικά σε όλες τις περιπτώσεις. Αλλά και η προσπάθεια κατηγοριοποίησής τους δεν

ξεκάθαρη διαδικασία.

Μια πρώτη κατηγοριοποίηση των αλγορίθμων συσταδοποίησης που αναφέρεται σε όλη τη

σχετική βιβλιογραφία είναι σε ιεραρχικούς (hierarchical) και μη-ιεραρχικούς (non-hierarchical)

ή διαχωριστικούς (partitional) αλγόριθμους (Jain, Murty and Flynn - 1999). Στους ιεραρχικούς

αλγορίθμους συσταδοποίησης το αποτέλεσμα είναι η δημιουργία ακολουθίας από φωλιασμένα

σύνολα συστάδων, ξεκινώντας είτε από την υπόθεση κάθε τεκμήριο μια συστάδα και φτάνοντας

μέχρι όλα τα τεκμήρια να ανήκουν σε μια συστάδα ή το αντίστροφο. Στην πρώτη περίπτωση οι

αλγόριθμοι καλούνται συσσωρευτικοί (agglomerative ή bottom-up) ενώ στη δεύτερη διαιρετικοί

(divisive ή top-down). Στους διαχωριστικούς αλγορίθμους παράγεται ένας τελικός διαχωρισμός

των δεδομένων σε τόσες συστάδες όσες ένας αρχικός προκαθορισμένος αριθμός.

- 37 -

Αναλυτικά στους ιεραρχικούς συσσωρευτικούς αλγορίθμους συσταδοποίησης (Hierarchical

Agglomerative Clustering - HAC) υπολογίζεται η ομοιότητα μεταξύ των συστάδων (αρχικά των

τεκμηρίων) και σε κάθε βήμα του αλγορίθμου γίνεται συγχώνευση των δύο πλησιέστερων

συστάδων (με τη μεγαλύτερη ομοιότητα). Το αποτέλεσμα είναι να δημιουργηθεί μια

δενδροειδής δομή που καλείται «dendrogram», με μία συστάδα στην κορυφή που αποτελείται

από όλα τα τεκμήρια και τόσες συστάδες στη βάση όσα τα τεκμήρια και όλα τα ενδιάμεσα

επίπεδα του «dendrogram» να αντιπροσωπεύουν την συσταδοποίηση που έχει επιτευχθεί στο

κάθε επαναληπτικό στάδιο του αλγορίθμου. Επιλέγοντας έτσι το κατάλληλο επίπεδο του

«dendrogram» παίρνουμε τη συσταδοποίηση που επιθυμούμε. Έτσι για μια συλλογή από Ν

τεκμήρια τα βήματα του αλγορίθμου είναι τα παρακάτω:

1. Θέσε τα Ν τεκμήρια σε Ν διαφορετικές συστάδες και υπολόγισε τις ομοιότητες μεταξύ όλων

των ζευγαριών των συστάδων (αρχικά των Ν τεκμηρίων) και αποθήκευσε τις ομοιότητες σε

έναν πίνακα Ν x Ν.

2. Αναζήτησε στον πίνακα ομοιοτήτων το ζευγάρι με τη μεγαλύτερη ομοιότητα και

συγχώνευσε τις δύο αντίστοιχες συστάδες έτσι ώστε να αποτελέσουν μια νέα συστάδα.

3. Ενημέρωσε τον πίνακα ομοιοτήτων επαναϋπολογίζοντας τις ομοιότητες της νέας συστάδας

με όλες τις υπόλοιπες.

4. Επανέλαβε τα βήματα 2,3 μέχρι να παραμείνει μια συστάδα.

(Xu and Wunsch ΙΙ - 2005)

Για την εύρεση της ομοιότητας μεταξύ δύο συστάδων διάφορες μέθοδοι υπάρχουν με

διαφορετικό προσανατολισμό η καθεμιά (Mourtagh - 1983). Από αυτές οι απλή σύνδεση (single

linkage), πλήρης σύνδεση (complete linkage) και μέση σύνδεση (average linkage)

χρησιμοποιούν για τον υπολογισμό της ομοιότητας όλα τα μέλη των συστάδων και για αυτό

θεωρούνται και στηριζόμενες σε γράφο (graph-based) τεχνικές ενώ οι άλλες χρησιμοποιούν

αντιπροσώπους των συστάδων (συνήθως γεωμετρικά κέντρα) οπότε και καλούνται γεωμετρικές

- 38 -

μέθοδοι (Ward’s method, Centroid κλπ). Σύμφωνα με τη μέθοδο της απλής σύνδεσης η

ομοιότητα ανάμεσα σε δύο συστάδες είναι ίση με την μεγαλύτερη ομοιότητα των ζευγών τους το

οποίο σημαίνει με την ομοιότητα των πιο γειτονικών μελών τους (nearest neighbour) και οδηγεί

τελικά σε μεγάλες συστάδες με μικρή συνεκτικότητα. Αντίθετα στη μέθοδο της πλήρης

σύνδεσης η ομοιότητα ανάμεσα σε δύο συστάδες είναι ίση με την μικρότερη ομοιότητα των

ζευγών τους το οποίο σημαίνει με την ομοιότητα των πιο απομακρυσμένων μελών τους και

οδηγεί τελικά σε πιο μικρές και συνεκτικές συστάδες αφού προσπαθεί να φτιάξει συστάδες με

όσο το δυνατό λιγότερο απομακρυσμένα μέλη. Στη μέθοδο της μέσης σύνδεσης (λέγεται και

UPGMA) στην εύρεση της ομοιότητας συμμετέχουν όλα τα μέλη των συστάδων και

συγκεκριμένα υπολογίζεται ο μέσος όρος των ομοιοτήτων όλων των ζευγών. Στην Centroid

(λέγεται και UPGMC) μέθοδο η ομοιότητα προκύπτει από την ευκλείδεια απόσταση των

αριθμητικών κέντρων (αριθμητικοί μέσοι) των συστάδων και παράγει ενδιάμεσα αποτελέσματα

σε σχέση με τις παραπάνω μεθόδους.

Το κύριο μειονέκτημα των ιεραρχικών συσσωρευτικών αλγορίθμων είναι ότι έχουν μεγάλη

πολυπλοκότητα η οποία είναι τουλάχιστον Ο(Ν2). Αυτό δημιουργεί προβλήματα στη χρήση τους

σε μεγάλα σύνολα δεδομένων. Επίσης αν γίνει κάποιο λάθος δεν μπορεί να διορθωθεί στη

συνέχεια αφού σε κάθε βήμα επιλέγεται συγχώνευση δύο συστάδων. Ενεργούν δηλαδή οι

αλγόριθμοι αυτοί με βάση τη βέλτιστη λύση σε κάθε βήμα (άπληστη μέθοδος) και όχι με βάση

τη βέλτιστη λύση συνολικά. Παρόλα αυτά θεωρούνται ότι παράγουν καλά αποτελέσματα και

είναι χρήσιμοι γιατί παράγουν ιεραρχία κλάσεων οι οποίες κλάσεις είναι πιο συνεκτικές όσο

πάμε προς το κάτω μέρος της ιεραρχίας και πιο χαλαρές όσο πλησιάζουμε την κορυφή της.

Φαντάζουν αρκετά χρήσιμοι στις περιπτώσεις όπου υπάρχει λανθάνουσα ιεραρχία κλάσεων στα

δεδομένα.

- 39 -

Οι διαιρετικοί ιεραρχικοί αλγόριθμοι συσταδοποίησης όπως αναφέρθηκε ακολουθούν

αντίστροφη διαδικασία από τους HAC. Σύμφωνα με αυτή στο βήμα 1 ο αλγόριθμος ξεκινά με

όλα τα Ν τεκμήρια σε μια συστάδα και στο βήμα 2 κάθε φορά χωρίζει τη συστάδα σε δύο μέρη.

Η διαδικασία αυτή θα επαναλαμβάνεται μέχρι να προκύψουν Ν διαφορετικές συστάδες. Επειδή

όμως στο βήμα διαχωρισμού για Λ τεκμήρια υπάρχουν 2Λ-1-1 διαφορετικοί διαχωρισμοί σε δύο

μέρη από τους οποίους θα πρέπει να επιλεγεί ο καλύτερος, η διαδικασία αυτή έχει πάρα πολύ

μεγάλη πολυπλοκότητα οπότε πρακτικά δεν χρησιμοποιείται παρά μόνο σε παραλλαγές της (Xu

and Wunsch ΙΙ - 2005).

Στους διαχωριστικούς αλγορίθμους συσταδοποίησης όλα τα αρχικά Ν τεκμήρια επιχειρείται να

εκχωρηθούν σε Κ τον αριθμό προαποφασισμένες αρχικές συστάδες και ο σκοπός τους είναι να

βρουν αυτόν τον διαχωρισμό που δίνει τη βέλτιστη συσταδοποίηση, παράγει δηλαδή τις πιο

συνεκτικές συστάδες. Για να επιτευχθεί αυτό θα πρέπει να εξεταστούν όλες οι δυνατές

περιπτώσεις. Για παράδειγμα για 30 αντικείμενα που πρέπει να εκχωρηθούν σε 3 κλάσεις οι

δυνατοί συνδυασμοί που πρέπει να εξεταστούν (πιθανοί διαχωρισμοί) για να βρεθεί η βέλτιστη

λύση είναι 2x1014. Επομένως κάτι τέτοιο καθίσταται πρακτικά αδύνατο οπότε ευριστικοί

αλγόριθμοι έχουν αναπτυχθεί για την αναζήτηση λύσεων (Xu and Wunsch ΙΙ - 2005). Η

αναζήτηση λοιπόν μια κατά προσέγγιση βέλτιστης λύσης συνίσταται συνήθως στην

βελτιστοποίηση της τιμής μιας συνάρτησης αξιολόγησης (criterion function). Η συνάρτηση του

αθροίσματος των τετραγώνων των σφαλμάτων είναι ένα από τα πιο συνηθισμένα κριτήρια.

Σύμφωνα με αυτή αναζητείται ένας διαχωρισμός όπου θα ελαχιστοποιεί την απόσταση του κάθε

μέλους μιας συστάδας από το αντιπροσωπευτικό μέλος της συστάδας (Xu and Wunsch ΙΙ -

2005). Οι Zhao and Karypis (2001) εξετάζουν οκτώ διαφορετικές συναρτήσεις αξιολόγησης και

συμπεραίνουν ότι επηρεάζουν το αποτέλεσμα της συσταδοποίησης.

- 40 -

Τους διαχωριστικούς αλγορίθμους συσταδοποίησης οι Oikonomakou and Vazirgiannis (2005)

τους κατατάσσουν στους επανατελεστικούς (iterative ή reallocation) και μονού περάσματος

(Single Pass). Ο πιο γνωστός στην πρώτη κατηγορία είναι ο K-Μeans στον οποίο εφαρμόζεται η

παρακάτω διαδικασία:

1. Αρχικοποιείται ένας Κ-διαχωρισμός τυχαία ή στηριζόμενος σε κάποια προηγούμενη γνώση.

Δηλαδή επιλέγονται Κ από τα Ν αρχικά τεκμήρια ως τα αντιπροσωπευτικά των Κ συστάδων

γύρω από τα οποία θα συγκεντρωθούν όλα τα υπόλοιπα τεκμήρια. Δημιουργείται ο πίνακας

με τους αντιπροσώπους των συστάδων.

2. Εκχωρείται το κάθε τεκμήριο στην πλησιέστερη συστάδα, δηλαδή σε αυτή που έχει τη

μεγαλύτερη ομοιότητα με τον αντιπρόσωπό της.

3. Επαναϋπολογίζεται ο πίνακας με τους αντιπροσώπους των συστάδων. Ο κάθε αντιπρόσωπος

τώρα θα είναι το αριθμητικό μέσο των μελών της συστάδας.

4. Επαναλαμβάνονται τα βήματα 2 και 3 μέχρι να μην υπάρχουν αλλαγές στις συστάδες

δηλαδή να μην υπάρχει αλλαγή μέλους από μια συστάδα στην άλλη το οποίο σημαίνει ότι οι

αντιπρόσωποι που επιλέγηκαν τελικά κατάφεραν να συγκεντρώσουν δίπλα τους τα πιο

«κοντινά» (με τη μεγαλύτερη ομοιότητα) τεκμήρια και να διαχωριστούν σε άλλες συστάδες

τα πιο «μακρινά» (με τη μικρότερη ομοιότητα) τεκμήρια.

(Xu and Wunsch ΙΙ - 2005)

Ο K-Μeans είναι αρκετά απλός αλγόριθμος και πολύ γρήγορος αφού η πολυπλοκότητά του είναι

Ο(ΝΚd), όπου το Κ είναι πολύ μικρότερο του Ν και d είναι ο αριθμός των φορών που θα

εκτελεστεί. Εκτελείται συνήθως πάνω από μία φορές για να βρεθεί ο διαχωρισμός που δίνει τις

πιο συνεκτικές συστάδες (ελαχιστοποιείται η τιμή της συνάρτησης αξιολόγησης) δεδομένου του

ότι η αρχική επιλογή των Κ τεκμηρίων ως αρχικοί αντιπρόσωποι των συστάδων είναι τυχαία. Η

μικρή του πολυπλοκότητα τον κάνει κατάλληλο και για μεγάλα σύνολα δεδομένων. Το κύριο

μειονέκτημά του όπως και όλων των παραλλαγών σε αυτή την κατηγορία συνίσταται στον

- 41 -

υπολογισμό του αρχικού αριθμού Κ των συστάδων και την επιλογή των αντιπροσώπων. Επίσης

για να καταφέρει να συγκλίνει προς την βέλτιστη λύση (βέλτιστο διαχωρισμό) εκτελείται πολλές

φορές (d) και η καλύτερη λύση επιλέγεται. Δεν υπάρχει όμως κάποιος βέλτιστος αριθμός

εκτελέσεων του αλγορίθμου. Επίσης είναι επιρρεπής σε κάποια λάθη. Δηλαδή αν ένα τεκμήριο

βρίσκεται μακριά από τους αντιπροσώπους των συστάδων (έχει μικρή ομοιότητα) ή πιο απλά

είναι ανόμοιο με όλα τα άλλα τεκμήρια, αναγκαστικά θα πρέπει να τοποθετηθεί σε μία από τις

συστάδες οπότε και θα χαλάει η συνεκτικότητα της συστάδας που θα το δεχθεί. Για την

αντιμετώπιση των παραπάνω προβλημάτων έχουν προταθεί νέες παραλλαγές του K-Μeans που

βελτιώνουν την απόδοσή του (όπως αναφέρεται στους Xu and Wunsch ΙΙ, 2005, II C p. 653).

Ο “Single Pass” διαχωριστικός αλγόριθμος συσταδοποίησης (Allah, Grosky and Aboutajdine -

2007) συγκαταλέγεται στους πιο απλούς και πιο γρήγορους. Σύμφωνα με αυτόν κάθε τεκμήριο

εκχωρείται στη συστάδα που έχει την μεγαλύτερη ομοιότητα με τον αντιπρόσωπό της και

εφόσον αυτή η ομοιότητα είναι μεγαλύτερη από ένα κατώφλι. Ο αλγόριθμος τελειώνει μετά από

ένα πέρασμα, έτσι παίρνει και το όνομά του, και διαφέρει από τους άλλους διαχωριστικούς

αλγορίθμους, γιατί δεν μοιράζει τα τεκμήρια σε ένα προκαθορισμένο αριθμό από συστάδες αλλά

ο αριθμός των συστάδων προκύπτει δυναμικά κατά τη διαδικασία. Έχει όμως το μειονέκτημά

ότι είναι επιρρεπής στη σειρά με την οποία εξετάζει τα τεκμήρια. Αυτό συμβαίνει γιατί μετά την

εκχώρηση ενός τεκμηρίου σε μια συστάδα επαναϋπολογίζεται ο αντιπρόσωπος της συστάδας

ώστε να λάβει υπόψη και το νεοεισελθέν τεκμήριο με αποτέλεσμα να μετατοπίζεται ο

αντιπρόσωπος διαφορετικά κάθε φορά και προς άλλες κατευθύνσεις με συνέπεια να μένουν

εκτός της συστάδας κάποια επόμενα τεκμήρια ή να συμπεριλαμβάνονται κάποια άλλα για τα

οποία πιθανόν να υπήρχε άλλη αντιμετώπιση αν εξετάζονταν πριν από το νεοεισελθέν τεκμήριο.

Ένας άλλος διαχωρισμός των αλγορίθμων συσταδοποίησης προκύπτει από τον τρόπο με τον

οποίο χειρίζονται – εκχωρούν την ιδιότητα μέλους σε ένα τεκμήριο. Έτσι διακρίνονται στους

- 42 -

crisp (ή hard) και στους fuzzy (ή soft) (Oikonomakou and Vazirgiannis - 2005). Στους πρώτους

ένα τεκμήριο μπορεί να ανήκει σε μία και μόνο συστάδα ενώ στους δεύτερους ένα τεκμήριο

μπορεί να ανήκει σε περισσότερες από μία συστάδες. Παράγουν δηλαδή οι fuzzy αλγόριθμοι

επικαλυπτόμενες συστάδες και φαντάζουν χρήσιμοι ιδίως στη συσταδοποίηση τεκμηρίων του

παγκόσμιου ιστού όταν για παράδειγμα ένα τεκμήριο μπορεί να ανήκει σε πολλές θεματικές

κατηγορίες και χάνουμε πληροφορία αν το κατατάξουμε μόνο σε μια κατηγορία.

Ένας επόμενος διαχωρισμός των αλγορίθμων συσταδοποίησης τεκμηρίων προκύπτει από το

μοντέλο δεδομένων που χρησιμοποιείται για την αναπαράσταση των τεκμηρίων. Το πιο γνωστό

μοντέλο είναι το διανυσματικό μοντέλο (vector space model) κατά το οποίο λαμβάνονται υπόψη

οι όροι (terms) των τεκμηρίων. Έτσι σε μια συλλογή από N τεκμήρια στα οποία υπάρχουν M

διαφορετικοί όροι κατασκευάζεται ένας M x N πίνακας όρων-τεκμηρίων (term-document

matrix) όπου η κάθε στήλη του αντιστοιχεί σε ένα τεκμήριο και είναι ένα διάνυσμα M

διαστάσεων (όσοι οι διαφορετικοί όροι στη συλλογή των τεκμηρίων). Για τις τιμές των

διανυσμάτων αυτών έχουν προταθεί διάφορα σχήματα. Ένα γνωστό σχήμα είναι το tf-idf

σύμφωνα με το οποίο πολλαπλασιάζεται η συχνότητα εμφάνισης του όρου στο τεκμήριο με τη

ανάστροφη συχνότητα των τεκμηρίων της συλλογής στα οποία εμφανίζεται ο όρος έτσι ώστε να

δίνεται μεγαλύτερη σημασία στους σπάνιους όρους και μικρότερη σημασία στους

επαναλαμβανόμενους. Με αυτόν τον τρόπο αποκτούν μικρότερη αξία σύγκρισης λέξεις με μικρή

αξία νοήματος όπως τα άρθρα το οποίο είναι επιθυμητό. Τα προβλήματα αυτού του μοντέλου

είναι ότι σε μεγάλες συλλογές με πολλούς διαφορετικούς όρους τα διανύσματα των τεκμηρίων

έχουν πολλές διαστάσεις (γνωστό και ως «η κατάρα του να έχεις διαστάσεις» - “curse of

dimensionality”) με συνέπεια στους υπολογισμούς. Επίσης σε μια κανονική συλλογή ο πίνακας

όρων-τεκμηρίων είναι αραιός το οποίο οδηγεί σε περιττούς υπολογισμούς. Ένα άλλο εγγενές

μειονέκτημα του μοντέλου είναι ότι δεν λαμβάνεται υπόψη η σειρά εμφάνισης των όρων μέσα

στα τεκμήρια. Αυτό το τελευταίο χαρακτηρίζει το επόμενο μοντέλο το οποίο είναι το

- 43 -

στηριζόμενο σε φράσεις μοντέλο (phrase-based model) σύμφωνα με το οποίο δίνεται έμφαση

στις λέξεις και στη σειρά εμφάνισής τους και όχι στις τιμές των διανυσμάτων όρων. Η

συσταδοποίηση τεκμηρίων εδώ γίνεται εστιάζοντας στις κοινές φράσεις που μοιράζονται τα

τεκμήρια. Οι αλγόριθμοι που στηρίζονται σε αυτό το μοντέλο έχουν το πλεονέκτημα ότι

μπορούν να ονοματίσουν τις συστάδες που παράγουν δίνοντας σε αυτές αναγνώσιμες ετικέτες

(readable labels) από τις φράσεις που μοιράζονται σε αντίθεση με τις ετικέτες - λίστες των πιο

σημαντικών όρων της κάθε συστάδας που δίνουν τα άλλα μοντέλα (Andrews and Fox - 2007).

Αντιπροσωπευτικός αλγόριθμος αυτής της κατηγορίας αποτελεί ο Suffix Tree Clustering – STC

(Zamir and Etzioni - 1998).

Ένας άλλος διαχωρισμός των αλγορίθμων συσταδοποίησης είναι σε αυξητικούς (incremental)

και μη-αυξητικούς (non-incremental) (Kumar – 2000, Xu and Wunsch ΙΙ - 2005). Οι αυξητικοί

αλγόριθμοι μπορούν να αντιμετωπίσουν το πρόβλημα του αποθηκευτικού χώρου και της

πολυπλοκότητας που συνεπάγονται οι μεγάλες συλλογές. Αυτό γίνεται γιατί σε έναν αυξητικό

αλγόριθμο εξετάζεται ένα αντικείμενο τη φορά. Συγκεκριμένα ελέγχεται αν έχει αρκετή

ομοιότητα σύμφωνα με κάποια προκαθορισμένα κριτήρια με τις ήδη υπάρχοντες συστάδες και

γίνεται μέλος σε αυτή με τη μεγαλύτερη ομοιότητα, αλλιώς δημιουργείται μια νέα συστάδα με

μέλος προς το παρόν το νέο αντικείμενο. Το πρόβλημα με τους αυξητικούς αλγορίθμους είναι

ότι εξαρτώνται από τη σειρά των αντικειμένων που εξετάζονται. Ο διαχωριστικός αλγόριθμος

“Single Pass” είναι από τη φύση του αυξητικός αλγόριθμος.

Μια άλλη κατηγορία αλγορίθμων είναι οι στηριζόμενοι σε γράφους αλγόριθμοι. Σύμφωνα με

αυτούς τα τεκμήρια είναι οι κόμβοι ενός γράφου και οι ακμές που τους συνδέουν

αντιπροσωπεύουν τη σχέση μεταξύ τους και συγκεκριμένα φέρουν μια τιμή - βάρος (weight) η

οποία προκύπτει από την ομοιότητα των κόμβων που συνδέουν. Επομένως το πρόβλημα

ανάγεται σε διαχωρισμό του γράφου σε υπογράφους το οποίο γίνεται κόβοντας ακμές έτσι ώστε

- 44 -

για παράδειγμα το άθροισμα των βαρών των ακμών που θα κόβονται να ελαχιστοποιείται. Αυτό

σημαίνει πρακτικά ότι κόβουμε τον γράφο σε τέτοια σημεία ώστε οι ακμές που μένουν μέσα στη

συστάδα να έχουν μεγαλύτερη βαρύτητα από τις ακμές που μένουν εκτός συστάδας και

κόβονται. Οι αλγόριθμοι αυτοί φέρουν καλά αποτελέσματα σε μεγάλα σύνολα δεδομένων αλλά

απαιτούν πολλά resources (κυρίως μνήμη) για την εφαρμογή τους (Oikonomakou and

Vazirgiannis - 2005).

Τέλος αξίζει να αναφερθούν και οι υβριδικοί αλγόριθμοι οι οποίοι συνδυάζουν χαρακτηριστικά

από διάφορες κατηγορίες αλγορίθμων. Χαρακτηριστικό παράδειγμα τέτοιου αλγορίθμου είναι ο

“BiSecting K-Μeans” (Steinbach, Karypis and Kumar - 2000) ο οποίος χρησιμοποιεί τη λογική

της διαιρετικής ιεραρχικής συσταδοποίησης ξεκινώντας από όλα τα τεκμήρια μία συστάδα και

σε κάθε βήμα διαχωρισμού χωρίζει τις συστάδες σε δύο μέρη χρησιμοποιώντας τον

διαχωριστικό αλγόριθμο K-Μeans (με k=2). Σύμφωνα με τους Steinbach, Karypis and Kumar

(2000) αποδίδει καλύτερα από τους HAC (UPGMA) και K-Μeans.

4.3.Μέτρα διαφορετικότητας - ομοιότητας

Ανεξαρτήτου σε ποια κατηγορία ανήκει ο αλγόριθμος συσταδοποίησης, γίνεται χρήση πάντα

μέτρων εγγύτητας (proximity measures) για τη σύγκριση των προς συσταδοποίηση αντικειμένων

(Xu and Wunsch ΙΙ - 2005). Συγκεκριμένα σε έναν αλγόριθμο συσταδοποίησης απαιτείται η

εύρεση της διαφορετικότητας ή ομοιότητας μεταξύ ζευγών αντικειμένων, ή αντικειμένου και

συστάδας, ή συστάδας με συστάδα. Τα μέτρα που χρησιμοποιούνται όταν στη σύγκριση

συμμετέχει ολόκληρη συστάδα είναι διαφορετικά από αυτά στη σύγκριση μεμονωμένων

αντικειμένων εκτός και αν με τη χρήση κάποιων τεχνικών η συστάδα αναπαρασταθεί από

κάποιο εκπρόσωπο αντικείμενο οπότε μπορεί να γίνει χρήση μέτρων εγγύτητας μεμονωμένων

- 45 -

αντικειμένων. Τα μέτρα εγγύτητας μεμονωμένων αντικειμένων συνήθως περιγράφουν τα

αντικείμενα σαν ένα σύνολο από χαρακτηριστικά (features) που αναπαριστούνται σαν ένα

πολυδιάστατο διάνυσμα (στο vector-space model). Τα χαρακτηριστικά αυτά μπορεί να έχουν

διαφορετικούς τύπους δεδομένων και να μετριούνται σε διαφορετικές κλίμακες δεδομένων.

Συγκεκριμένα έχουμε:

- Τύποι δεδομένων (data types)

o Δυαδικά (binary): δύο τιμές

o Διακριτές τιμές (discrete): πεπερασμένο σύνολο διαφορετικών τιμών

o Συνεχείς τιμές (continuous): θεωρητικά άπειρο σύνολο τιμών

- Κλίμακες Δεδομένων (data scales)

o Ποιοτική

Ονομαστική (nominal): οι τιμές είναι απλά διαφορετικά ονόματα π.χ.

ταχυδρομικοί κώδικες, ονόματα χρωμάτων, φύλο, 0 και 1 όταν

αντιπροσωπεύουν Ναι/Όχι.

Τακτική (ordinal): Οι τιμές αντανακλούν μια διάταξη/σειρά π.χ. good,

better, best.

o Ποσοτική

Διάστημα (interval): η διαφορά μεταξύ των τιμών έχει νόημα π.χ. οι τιμές

που προκύπτουν από την ερώτηση: στην κλίμακα από 1 – 10

βαθμολόγησε σε τι βαθμό είσαι ευχαριστημένος από το σεμινάριο.

Αναλογία/Δείκτης (ratio): η κλίμακα έχει και μηδέν ώστε οι δείκτες να

έχουν σημασία π.χ. ύψος, πλάτος, μήκος ενός αντικειμένου ή ποσότητες

της φυσικής όπως ηλεκτρικό ρεύμα, πίεση κλπ.

(Kumar - 2000)

Στα μέτρα εγγύτητας ανήκουν τα μέτρα απόστασης ή διαφορετικότητας (distance ή dissimilarity

measures) τα οποία υπολογίζουν τη διαφορετικότητα δύο αντικειμένων και τα μέτρα ομοιότητας

- 46 -

(similarity measures) που υπολογίζουν την ομοιότητα δύο αντικειμένων. Τα μέτρα απόστασης

βρίσκουν πόσο «απέχει» το ένα διάνυσμα από το άλλο και η τιμή τους είναι ένας θετικός

ακέραιος αριθμός ενώ τα μέτρα ομοιότητας βρίσκουν το πόσο «κοντά» είναι το ένα διάνυσμα

από το άλλο και η τιμή τους είναι ένας κανονικοποιημένος αριθμός στο διάστημα [0,1]. Όσο πιο

μεγάλη τιμή αποδίδεται από ένα μέτρο απόστασης τόσο διαφορετικά είναι δύο αντικείμενα ενώ

αντίθετα όσο πιο μεγάλη τιμή αποδίδεται από ένα μέτρο ομοιότητας τόσο περισσότερο μοιάζουν

δύο αντικείμενα. Συνήθως τα μέτρα διαφορετικότητας συμβολίζονται με Dij ενώ τα μέτρα

ομοιότητας με Sij (για δύο αντικείμενα xi, xj). Με τη χρήση αυτών των μέτρων για ένα σύνολο

από Ν αντικείμενα μπορεί να δημιουργηθεί ένας συμμετρικός πίνακας Ν x Ν ο οποίος

ονομάζεται πίνακας εγγύτητας (proximity matrix) όπου η i,j θέση του αναπαριστά την τιμή του

μέτρου διαφορετικότητας ή ομοιότητας των i,j αντικειμένων (i,j = 1, . . . , N). Ο πίνακας αυτός

είναι απαραίτητος σε κάποιους αλγορίθμους συσταδοποίησης (π.χ. στον HAC).

Τα μέτρα απόστασης χρησιμοποιούνται συνήθως σε περιπτώσεις αντικειμένων με ποσοτικά

χαρακτηριστικά (quantitive features) ενώ τα μέτρα ομοιότητας είναι πιο σημαντικά όταν τα

αντικείμενα έχουν ποιοτικά χαρακτηριστικά (quality features) (Xu and Wunsch ΙΙ - 2005). Το

πιο συνηθισμένο μέτρο απόστασης είναι η Ευκλείδεια απόσταση των αντικειμένων που είναι

ειδική περίπτωση (n = 2) της Minkowski συνάρτησης απόστασης. Χρησιμοποιείται από τον K-

Μeans αλγόριθμο για την εύρεση της απόστασης των αντικειμένων από το κέντρο της κάθε

συστάδας. Τείνει να δημιουργεί σφαιρικές συστάδες.

Minkowski distance Euclidean distance

Για αντικείμενα με δυαδικά χαρακτηριστικά χρησιμοποιούνται μέτρα ομοιότητας. Σε αυτή την

περίπτωση η τιμή του μέτρου διαφορετικότητας προκύπτει από το μέτρο ομοιότητας και είναι:

- 47 -

Dij = 1 – Sij. Σε δύο αντικείμενα λοιπόν με δυαδικά χαρακτηριστικά κατά τη σύγκρισή τους

προκύπτουν οι παρακάτω ποσότητες:

- n00: ο αριθμός των χαρακτηριστικών που δεν υπάρχουν και στα δύο αντικείμενα.

- n11: ο αριθμός των χαρακτηριστικών που υπάρχουν και στα δύο αντικείμενα.

- n10: ο αριθμός των χαρακτηριστικών που υπάρχουν στο πρώτο αντικείμενο και όχι στο

δεύτερο.

- n01: ο αριθμός των χαρακτηριστικών που δεν υπάρχουν στο πρώτο αντικείμενο και

υπάρχουν στο δεύτερο.

Με βάση των παραπάνω ποσοτήτων ορίζονται διάφορα μέτρα ομοιότητας που εξυπηρετούν τη

λύση διαφορετικών προβλημάτων. Δύο από τις συχνά χρησιμοποιούμενες κατηγορίες (Xu and

Wunsch ΙΙ - 2005) είναι οι παρακάτω:

1.

Σε αυτή την κατηγορία μέτρων, λαμβάνονται υπόψη στον υπολογισμό της ομοιότητας και οι

κοινές εμφανίσεις αλλά και οι κοινές απουσίες των χαρακτηριστικών. Επομένως σε δύο

αντικείμενα μιας συλλογής με απουσία των περισσοτέρων χαρακτηριστικών τα παραπάνω

μέτρα θα δίνουν μεγάλες ομοιότητες.

2.

- 48 -

Σε αυτή την κατηγορία μέτρων, δεν λαμβάνονται υπόψη στον υπολογισμό της ομοιότητας οι

κοινές απουσίες των χαρακτηριστικών. Δίνουν έμφαση μόνο στην ταυτόχρονη εμφάνιση κοινών

χαρακτηριστικών. Επομένως σε δύο αντικείμενα μιας συλλογής με απουσία των περισσοτέρων

χαρακτηριστικών τα παραπάνω μέτρα θα δίνουν μεγάλες ή μικρές ομοιότητες ανάλογα μόνο από

τη συνύπαρξη ή όχι κοινών χαρακτηριστικών.

Γενικά για αντικείμενα με μη δυαδικά χαρακτηριστικά ή με διαφορετικού τύπου/κλίμακας

χαρακτηριστικά μπορεί να γίνει χρήση και των παραπάνω δυαδικών μέτρων αφού πρώτα

απεικονιστούν τα χαρακτηριστικά τους σε δυαδικά. Εναλλακτικά θα μπορούν οι τιμές τους να

απεικονιστούν στο διάστημα [0,1] και να γίνει χρήση του μέτρου της Ευκλείδειας απόστασης.

Βέβαια με αυτούς τους τρόπους θα υπάρχει κάποια απώλεια πληροφορίας όταν μεγαλύτερο

εύρος τιμών θα απεικονιστεί στο μικρότερο διάστημα [0,1].

Στην ιδιαίτερη περίπτωση που τα αντικείμενα που συγκρίνονται είναι τεκμήρια π.χ. (τεκμήρια

παγκόσμιου ιστού ή βιβλιογραφικές εγγραφές) τότε αυτά έχουν ως χαρακτηριστικά τους, τους

διαφορετικούς όρους που απαντώνται στη συλλογή των τεκμηρίων (διανύσματα όρων) και οι

τιμές των χαρακτηριστικών προκύπτουν συνήθως από τη συχνότητα εμφάνισης του όρου στο

τεκμήριο ή/και στη συλλογή. Δύο τεκμήρια λοιπόν έχουν μεγάλη ομοιότητα όταν μοιράζονται

κοινές εμφανίσεις όρων. Οι κοινές απουσίες όρων (οι οποίες θα είναι ίσως και χιλιάδες σε μια

μεγάλη συλλογή) δεν πρέπει να λαμβάνονται υπόψη. Το πιο συχνά χρησιμοποιούμενο μέτρο σε

αυτήν την περίπτωση είναι η ομοιότητα συνημίτονου (cosine similarity) η οποία δίνει βαρύτητα

μόνο στις κοινές εμφανίσεις των χαρακτηριστικών. Η τιμή της προκύπτει από τον παρακάτω

τύπο:

- 49 -

cos (d1, d2) = (d1 ● d2) / ||d1|| ||d2|| ,

d1: το διάνυσμα του πρώτου τεκμηρίου, έστω (d11, d12, . . . , d1n))

d2: το διάνυσμα του δευτέρου τεκμηρίου, έστω (d21, d22, . . . , d2n))

d1 ● d2 : το εσωτερικό γινόμενο των διανυσμάτων των τεκμηρίων

||d1|| και ||d2||: τα μέτρα (νόρμες) των διανυσμάτων των τεκμηρίων

Όλα τα παραπάνω μέτρα που αναφέρθηκαν στηρίζονται στην υπόθεση ότι τα αντικείμενα

αναπαρίστανται σύμφωνα με το «vector space» μοντέλο, δηλαδή σαν διανύσματα

χαρακτηριστικών στα οποία δίνονται αριθμητικές τιμές. Τα μέτρα αυτά καλούνται και «token-

based» μέτρα γιατί εξασφαλίζουν ουσιαστικά ομοιότητα ή διαφορετικότητα στο επίπεδο όρου

(token). Στην περίπτωση όμως που έχουμε αντικείμενα που αποτελούνται από ακολουθίες

δεδομένων (sequential data) που συνήθως είναι αλφαβητικές τα παραπάνω μέτρα κρίνονται

ανεπαρκή. Μια κατηγορία μέτρων που αντιμετωπίζουν αλφαβητικά δεδομένα είναι τα «edit

distance» μέτρα (Xu and Wunsch ΙΙ - 2005) σύμφωνα με τα οποία η απόσταση δύο αλφαβητικών

στοιχειοσειρών (character strings) εξαρτάται από τον αριθμό των λειτουργιών επεξεργασίας

(edit operations) που απαιτούνται για να μετατραπεί η μια ακολουθία στην άλλη. Αυτές οι

λειτουργίες συνήθως κοστολογούνται π.χ. ανάλογα με το είδος τους και τη θέση στην οποία

εφαρμόζονται, και εφαρμόζονται πάνω σε μία θέση της ακολουθίας κάθε φορά. Τέτοιες

λειτουργίες μπορεί να είναι η αντικατάσταση, η εισαγωγή και η διαγραφή ενός χαρακτήρα τη

φορά. Το ελάχιστο κόστος που προκύπτει για να μετατραπεί η μια ακολουθία στην άλλη με τη

χρήση αυτών των τριών λειτουργιών ορίζει την κλασική «edit distance» μετρική που ονομάζεται

«Levenshtein distance». Το μειονέκτημα αυτής της κατηγορίας μέτρων ομοιότητας είναι το

κόστος σε χρόνο εκτέλεσης, που αυξάνεται όσο το μέγεθος των αλφαβητικών ακολουθιών

αυξάνεται.

- 50 -

- 51 -

5. Η συσταδοποίηση εγγραφών σε μετα-μηχανή αναζήτησης

5.1.Επιλογή αλγορίθμων Συσταδοποίησης

Όπως εξηγήθηκε σε προηγούμενη ενότητα το πρόβλημα της εύρεσης «όμοιων» εγγραφών στα

επιστρεφόμενα αποτελέσματα που λαμβάνει μια μετα-μηχανή αναζήτησης από διάφορες

πληροφοριακές πηγές μπορεί να αναχθεί σε πρόβλημα συσταδοποίησης τεκμηρίων. Αποτελεί

όμως ένα ιδιαίτερο πρόβλημα συσταδοποίησης τεκμηρίων με τα δικά του χαρακτηριστικά τα

οποία προκύπτουν από τη φύση των δεδομένων που είναι στην περίπτωσή μας οι βιβλιογραφικές

εγγραφές και από το γεγονός ότι αυτό θα γίνεται σε επιγραμμικά συστήματα. Από τις

βιβλιογραφικές εγγραφές όπως αναφέρθηκε, προκύπτουν τα κλειδιά ταυτοποίησης πάνω στα

οποία θα εφαρμοστεί ο αλγόριθμος συσταδοποίησης. Αυτό αμέσως δίνει το πλεονέκτημα ότι αν

τα κλειδιά δεν είναι πολύ μεγάλα η διαδικασία θα γίνεται πιο γρήγορα. Για την επιλογή του

αλγορίθμου ή καλύτερα της κατηγορίας αλγορίθμου συσταδοποίησης πρέπει να σημειωθεί ότι ο

πρώτος και σημαντικός περιορισμός είναι ότι δεν γνωρίζουμε εκ των προτέρων των αριθμό των

συστάδων στις οποίες θα πρέπει να διαχωριστούν τα κλειδιά ταυτοποίησης. Επομένως οι

διαχωριστικοί αλγόριθμοι συσταδοποίησης που έχουν ως είσοδο τον αριθμό των συστάδων

κρίνονται ανεπαρκείς. Επειδή είμαστε σε επιγραμμικό περιβάλλον οι ιεραρχικοί αλγόριθμοι

λόγω πολυπλοκότητας κρίνονται επίσης ανεπαρκείς σε μεγάλα σύνολα δεδομένων. Μένει να

αποδειχθεί σε τι μεγάλα σύνολα δεδομένων συμβαίνει αυτό. Μιλώντας για πολυπλοκότητα

αλγορίθμων πρέπει να σημειωθεί ότι αναζητούνται αλγόριθμοι που θα τερματίζουν σε πολύ λίγα

δευτερόλεπτα γιατί αλλιώς θα δίνεται η εντύπωση στον τελικό χρήστη ότι το σύστημα δεν

απαντά.

- 52 -

Στις μετα-μηχανές αναζήτησης όμως και συγκεκριμένα σε αυτές που απευθύνονται σε

πληροφοριακές πηγές που χρησιμοποιούν το διαδεδομένο στις βιβλιοθήκες πρωτόκολλο

επικοινωνίας Z39.50 τα αποτελέσματα συνήθως δεν επιστρέφονται όλα μαζί αλλά σε σχετικά

μικρές δόσεις (π.χ. 20 εγγραφές τη φορά). Αυτό πρακτικά σημαίνει ότι η μετα-μηχανή

αναζήτησης μπορεί να εφαρμόσει διαδικασίες εύρεσης «όμοιων» εγγραφών με τα νέα

αποτελέσματα κάθε φορά και να μην περιμένει να συγκεντρώσει όλα τα αποτελέσματα και μετά

να εφαρμόσει τη διαδικασία (Sfakakis and Kapidakis - 2003). Αυτή την τακτική ακολουθεί και

το «pazpar2» μόνο που κάνει υποτυπώδη συσταδοποίηση με απλό ταίριασμα των κλειδιών

ταυτοποίησης και δημιουργία αντίστοιχων συστάδων. Επομένως μόλις η μετα-μηχανή

αναζήτησης θα έχει έτοιμα τα πρώτα αποτελέσματα, αφού έχει κάνει και συσταδοποίηση, θα τα

επιστρέφει στο χρήστη. Απλά θα πρέπει ο χρήστης να ενημερώνεται όταν θα ζητά επόμενο

σύνολο αποτελεσμάτων, για την περίπτωση που μια συστάδα εγγραφών που έχει δει, έχει

πιθανόν ενημερωθεί (έχει αποκτήσει και νέες εγγραφές ως μέλη ως αποτέλεσμα επόμενου

σταδίου συσταδοποίησης – με νέα επιστρεφόμενα αποτελέσματα από τις πληροφοριακές πηγές).

Αν η μετα-μηχανή αναζήτησης δεν κάνει συσταδοποίηση σε κάθε επιστρεφόμενο σύνολο

αποτελεσμάτων αλλά εφαρμόσει τη διαδικασία μόλις πάρει τα τελευταία αποτελέσματα τότε

αυτό έχει το μειονέκτημα ότι ο χρήστης δεν έβλεπε «καθαρά» αποτελέσματα μέχρι τώρα, στην

περίπτωση άμεσα ανταποκρινόμενων διεπαφών όπως στην περίπτωση του «pazpar2», και από

την άλλη δημιουργεί συνολική καθυστέρηση ανάλογη του μεγέθους των αποτελεσμάτων που θα

είναι αντιληπτή από τον χρήστη. Ενώ όταν η συσταδοποίηση γίνεται σταδιακά η καθυστέρηση

που εισάγει πιθανόν δεν γίνεται αντιληπτή από το χρήστη γιατί είτε ο χρήστης θα αφιερώνει

έστω ελάχιστο χρόνο για να δει το κάθε σύνολο αποτελεσμάτων ή δε θα ζητήσει να δει πολλές

εγγραφές οπότε και δε θα χρειάζεται να περιμένει το στάδιο της συσταδοποίησης όταν θα

αρχίσει να αυξάνεται σημαντικά το μέγεθος των συνολικά επιστρεφόμενων εγγραφών το οποίο

θα επιβαρύνει πλέον τον αλγόριθμο συσταδοποίησης. Σύμφωνα με αυτό το σενάριο φαντάζουν

ικανοποιητικοί οι αυξητικοί αλγόριθμοι συσταδοποίησης αλλά και άλλοι με μεγαλύτερη

- 53 -

πολυπλοκότητα αν υποτεθεί ότι οι χρήστες συνήθως βλέπουν μόνο τα αρχικά αποτελέσματα σε

μια αναζήτηση. Βέβαια αν χρησιμοποιηθούν αλγόριθμοι με μεγάλη πολυπλοκότητα μπορεί οι

χρήστες να μην καταλαβαίνουν την καθυστέρηση αλλά αν αυτή η καθυστέρηση είναι

μεγαλύτερη από το χρόνο απόκρισης των πληροφοριακών πηγών τότε η μετα-μηχανή

αναζήτησης ενώ θα έχει αποτελέσματα δε θα δείχνει σωστά αποτελέσματα στον χρήστη αφού

πιθανόν να του δείχνει ελλιπείς συστάδες.

Με βάση όλα τα παραπάνω επιλέχθηκε αρχικά να υλοποιηθεί ο αλγόριθμος “Single Pass” που

από τη φύση του είναι αυξητικός, λόγω του ότι είναι αρκετά απλός και πολύ γρήγορος

αλγόριθμος. Επιλέχθηκε επίσης ο ιεραρχικός συσσωρευτικός αλγόριθμος συσταδοποίησης

(HAC) στην κανονική του μορφή αλλά και σε αυξητική μορφή όπως θα αναλυθεί παρακάτω με

τη χρήση των μεθόδων απλής σύνδεσης, πλήρης σύνδεσης και μέση σύνδεσης γιατί παράγει

θεωρητικά καλά αποτελέσματα και για να εξεταστεί κυρίως η αυξητική του μορφή σχετικά με

την επίδραση που θα έχει τόσο στην ταχύτητα εκτέλεσης όσο και στην ποιότητα των

παραγόμενων αποτελεσμάτων σε σχέση με την μη-αυξητική του μορφή. Τέλος ένας ακόμη

αλγόριθμος που υλοποιήθηκε είναι ο υβριδικός “BiSecting K-Μeans” γιατί σε πειράματα που

έχουν γίνει σε τεκμήρια της Biomedical Digital Library MEDLINE (Yoo, Hu - 2006)

αναδεικνύουν ότι παράγει καλύτερα αποτελέσματα και είναι ο πιο γρήγορος σε σχέση με τους

HAC, K-Μeans και τον «phrase-based» Suffix Tree Clustering – STC (Zamir and Etzioni -

1998).

5.2.Επιλογή μέτρων ομοιότητας

Σχετικά με τα μέτρα ομοιότητας τα οποία διαισθητικά θα παίζουν σημαντικό ρόλο στην όλη

διαδικασία επιλέχθηκαν να εξεταστούν τόσο «token-based» μέτρα όσο και «phrase-based»

- 54 -

μέτρα. Σύμφωνα με το διανυσματικό μοντέλο τα κλειδιά ταυτοποίησης είναι διανύσματα όρων

και μας ενδιαφέρει στη μεταξύ τους σύγκριση πόσους κοινούς όρους μοιράζονται και όχι

πόσους μη-κοινούς. Επομένως από τα «token-based» μέτρα κρίνεται κατάλληλη η «Jaccard

similarity» προσαρμοσμένη για μη δυαδικές τιμές αλλά και η «cosine similarity» όπως

αναλύθηκε παραπάνω η οποία αποτελεί και το πιο κοινό μέτρο ομοιότητας στη συσταδοποίηση

τεκμηρίων. Παρόμοιο μέτρο είναι και η «Dice’s coefficient» η οποία επίσης υλοποιήθηκε. Μια

ιδιαίτερη μορφή της «Dice’s coefficient» είναι όταν οι αλφαβητικές ακολουθίες που πρόκειται

να συγκριθούν αντιμετωπίζονται ως «bigrams». Ως «bigrams» μιας αλφαβητικής ακολουθίας

ορίζονται όλα τα ζεύγη συνεχόμενων χαρακτήρων από την αρχή μέχρι το τέλος της ακολουθίας.

Επίσης θα εξεταστεί και η χρήση της «Euclidean distance» μιας και είναι το εξ ορισμού μέτρο

στον αλγόριθμο K-Μeans ο οποίος χρησιμοποιείται από τον υβριδικό αλγόριθμο “BiSecting K-

Μeans”. Από τα «phrase-based» μέτρα ένα μέτρο ευρείας χρήσης είναι η «Jaro» μετρική η οποία

στηρίζεται στον αριθμό και τη σειρά των κοινών χαρακτήρων μεταξύ δύο αλφαβητικών

ακολουθιών. Μια παραλλαγή της, η «Jaro-Winkler» μετρική χρησιμοποιεί επιπλέον στον

υπολογισμό της ομοιότητας το μεγαλύτερο κοινό αρχικό κομμάτι των δύο αλφαβητικών

ακολουθιών και επιβραβεύει (αυξάνει την τιμή ομοιότητας) στις αλφαβητικές ακολουθίες που

έχουν κοινά αρχικά κομμάτια. Επομένως θα εξεταστεί η «Jaro-Winkler» μετρική η οποία φέρει

καλά αποτελέσματα με μειονέκτημα βέβαια την πολυπλοκότητά της οπότε κρίνεται

ικανοποιητική κυρίως σε μικρές αλφαβητικές ακολουθίες και η οποία έχει χρησιμοποιηθεί σε

πειράματα για ταίριασμα αλφαβητικών ακολουθιών (Cohen, Ravikumar, Fienberg - 2003).

Βέβαια οι Cohen, Ravikumar, Fienberg (2003) συμπεραίνουν ότι τα υβριδικά μέτρα οδηγούν σε

καλύτερα αποτελέσματα στην περίπτωση του ταιριάσματος αλφαβητικών ακολουθιών αν και

διαπιστώνουν στα περισσότερα πειράματά τους ότι και τα «token-based» μέτρα αποδίδουν καλά

κατά μέσο όρο στην περίπτωση της συσταδοποίησης. Όλα τα μέτρα εγγύτητας που

υλοποιήθηκαν αναφέρονται αναλυτικά στο Παράρτημα Γ.

- 55 -

5.3.Επιλογή μέτρων αξιολόγησης

Για την αξιολόγηση της απόδοσης των αλγορίθμων συσταδοποίησης διάφορα μέτρα

χρησιμοποιούνται και συνήθως επιλέγονται ανάλογα με το επιστημονικό πεδίο της εφαρμογής.

Παρόλο που δεν υπάρχει μια κοινή αντίληψη για το ποιο μέτρο είναι το καλύτερο (Andrews and

Fox - 2007) δύο μεγέθη που είναι ευρέως γνωστά και κοινά αποδεκτά στο χώρο της

αναζήτησης / ανάκτησης πληροφοριών (Information Retrieval) και περιγράφουν την απόδοση

ενός αλγορίθμου είναι η Ακρίβεια (Precision) και η Ανάκληση (Recall). Η ανάκληση ορίζει

πόσα από τα σχετικά τεκμήρια έχουν επιστραφεί ως αποτέλεσμα μιας ερώτησης σε σχέση με το

σύνολο των σχετικών τεκμηρίων που υπάρχουν στην πληροφοριακή πηγή για τη δεδομένη

ερώτηση, ενώ η ακρίβεια ορίζει πόσα είναι τα σχετικά τεκμήρια που έχουν επιστραφεί σε σχέση

με το σύνολο των επιστρεφομένων τεκμηρίων. Δηλαδή:

Recall = r / R r = επιστρεφόμενα σχετικά τεκμήρια

R= σύνολο σχετικών τεκμηρίων στην πληροφοριακή πηγή

και

Precision = r / D r = επιστρεφόμενα σχετικά τεκμήρια

D= σύνολο επιστρεφόμενων τεκμηρίων

Επειδή είναι δύσκολο να επιστραφούν όλα τα σχετικά τεκμήρια από μια πληροφοριακά πηγή

χρησιμοποιείται ένα μέτρο που συνδυάζει τα παραπάνω μεγέθη το οποίο ονομάζεται F-Measure

και είναι ίσο με:

- 56 -

,όπου R είναι η Ανάκληση και P είναι η Ακρίβεια.

Η τιμή του «α» αν είναι 1 δίνει F-Measure (F1) με ίση συμμετοχή των R και P ενώ διαφορετικά

δίνει προβάδισμα σε κάποιο από τα δύο μεγέθη όταν χρειάζεται να δοθεί μεγαλύτερη σημασία

στην Ανάκληση ή στην Ακρίβεια στις μετρήσεις των πειραμάτων.

Στην περίπτωση της συσταδοποίησης η κάθε συστάδα που δίνει ο αλγόριθμος αντιμετωπίζεται

ως τα επιστρεφόμενα τεκμήρια από την πληροφοριακή πηγή και η κάθε κλάση ως το ιδανικό

επιστρεφόμενο σύνολο τεκμηρίων. Ως κλάσεις θεωρούνται οι ιδανικές ομάδες στις οποίες θα

πρέπει να διαχωριστούν τα αρχικά τεκμήρια. Σύμφωνα με αυτή την υπόθεση προκύπτει το F-

Measure στην περίπτωση της συσταδοποίησης τεκμηρίων αλλά και τα μέτρα Purity και Entropy

όπως παρουσιάζονται στους παρακάτω τύπους.

- 57 -

Στους παραπάνω τύπους τα i, j αναφέρονται στην κλάση i και στη συστάδα j, τα Recall(i,j) και

Precision(i,j) στην Ακρίβεια και στην Ανάκληση αντίστοιχα μεταξύ της κλάσης i και της

συστάδας j και το F(i,j) στο F-Measure μεταξύ της κλάσης i και της συστάδας j . Επίσης n είναι

ο αριθμός των τεκμηρίων και το ni ή nj είναι ο αριθμός των τεκμηρίων στην κλάση i ή j. Από τα

παραπάνω μέτρα η Purity δίνει την καθαρότητα της κάθε παραγόμενης συστάδας, δηλαδή πόσα

από τα τεκμήρια της αντίστοιχης κλάσης υπάρχουν σε αυτή σε σχέση με τον αριθμό των

τεκμηρίων που περιέχει και όσο μεγαλύτερη τιμή έχει τόσο πιο κοντά στην πραγματική κλάση

είναι η παραγόμενη συστάδα. Το μέτρο Entropy δείχνει πως έχουν κατανεμηθεί τα τεκμήρια των

κλάσεων στις διάφορες συστάδες, και όσο μικρότερη τιμή έχει τόσο λιγότερο διάσπαρτα είναι τα

τεκμήρια κλάσεων στις παραγόμενες συστάδες. Η normalized Entropy ορίστηκε για να δίνει

τιμή στο διάστημα [0,1] όπως δίνουν τιμές σε αυτό το διάστημα οι F-Measure και Purity. Εκτός

από αυτά τα μέτρα και άλλα αναφέρονται στη βιβλιογραφία όπως το “misclassification index

(MI)” κλπ (Andrews and Fox – 2007, Yoo and Hu - 2006). Από τα παραπάνω μέτρα θα

χρησιμοποιηθούν τα F-Measure, Purity και normalized Entropy για να μετρήσουν την απόδοση

των χρησιμοποιούμενων αλγορίθμων συσταδοποίησης και μέτρων ομοιότητας.

- 58 -

6. Η πλατφόρμα «pscluster»

6.1.Περιγραφή της πλατφόρμας

Για την εφαρμογή και αξιολόγηση των επιλεγέντων αλγορίθμων συσταδοποίησης και μέτρων

ομοιότητας υλοποιήσαμε μια πλατφόρμα στο περιβάλλον πλατφόρμα προγραμματισμού

Eclipse26, στη γλώσσα προγραμματισμού C++, στο Λειτουργικό Σύστημα “Ubuntu Linux”. Η

πλατφόρμα που υλοποιήθηκε λειτουργεί ως ανεξάρτητη εφαρμογή και δέχεται μια σειρά από

παραμέτρους εκκίνησης (Παράρτημα Δ) για την ομαλή λειτουργία της αλλά εξωτερικεύει και

ένα «C Interface» για τη σύνδεσή της με άλλες εφαρμογές. Αυτό έγινε για να μπορεί να συνδεθεί

με τη μετα-μηχανή αναζήτησης «pazpar2» και να αντικαταστήσει την υποτυπώδη διαδικασία

συσταδοποίησης που έχει. Η λειτουργία της πλατφόρμας καθοδηγείται από ένα βασικό αρχείο

ρυθμίσεων η δομή του οποίου περιγράφεται αναλυτικά στο Παράρτημα Γ.

Όπως αναφέρεται στο Παράρτημα Δ μια από τις βασικές παραμέτρους εκκίνησης είναι το

αρχείο ρυθμίσεων. Σε αυτό δηλώνεται ο αλγόριθμος συσταδοποίησης και τα μέτρα ομοιότητας

που θα χρησιμοποιηθούν. Επίσης δηλώνονται και άλλες παράμετροι που έχουν σχέση με τον

αλγόριθμο συσταδοποίησης που επιλέγεται κάθε φορά. Για παράδειγμα στο αλγόριθμο HAC

δηλώνεται και ο τρόπος υπολογισμού της ομοιότητας μεταξύ δύο συστάδων (inter-cluster

similarity) που μπορεί να είναι η μέθοδος της απλής σύνδεσης, της πλήρης σύνδεσης ή της

μέσης σύνδεσης. Απαραίτητη παράμετρο αποτελεί το αρχείο που περιέχει τα κλειδιά

ταυτοποίησης πάνω στα οποία θα γίνει η συσταδοποίηση. Η δομή του είναι ένα κλειδί

ταυτοποίησης ανά γραμμή (περιγράφεται στο Παράρτημα Α). Τα κλειδιά ταυτοποίησης που

26 http://www.eclipse.org/ [Τελευταία Επίσκεψη: 27/01/2010]

- 59 -

http://www.eclipse.org/

χρησιμοποιήθηκαν στα πειράματα που έγιναν πάνω στην πλατφόρμα είναι κανονοικοποιημένα

όσο αφορά κενούς χαρακτήρες, σημεία στίξεις κλπ. Τα κλειδιά ταυτοποίησης όπως αναλύθηκε

σε προηγούμενη ενότητα είναι συνδυασμός ολόκληρων ή μερών πεδίων των βιβλιογραφικών

εγγραφών. Τα πεδία μιας βιβλιογραφικής εγγραφής όμως διαφέρουν ως προς το είδος των

δεδομένων που φέρουν, το μέγεθός τους, τη σημασία τους στον καθορισμό της μοναδικότητας

μια εγγραφής, στον τρόπο καταλογογράφησής τους, στο είδος των πιθανών λαθών και στη

συχνότητά τους κατά την καταλογογράφηση κλπ γεγονός που προσθέτει μια ιδιαιτερότητα στο

κάθε πεδίο. Τα πεδία «συγγραφέας» και «τίτλος» αποτελούν ένα παράδειγμα διαφορετικότητας.

Το πεδίο «συγγραφέας» είναι συνήθως μικρότερο πεδίο από το πεδίο «τίτλος» οπότε δίνεται η

δυνατότητα να χρησιμοποιηθεί πιο αυστηρό μέτρο ομοιότητας το οποίο συνήθως είναι πιο

χρονοβόρο όπως π.χ. «phrase-based» αντί «token-based» και τα λάθη του συνήθως είναι

ορθογραφικά λάθη. Ενώ στο πεδίο «τίτλος» συνήθως τα λάθη είναι περισσότερα (αλφαβητικά,

έλλειψη ή προσθήκη άρθρων, υπότιτλων κλπ). Για αυτούς τους λόγους θεωρήθηκε σκόπιμο το

κλειδί ταυτοποίησης να μπορεί να χωρίζεται σε υποκλειδιά έτσι ώστε να μπορούν να

εφαρμόζονται διαφορετικά μέτρα ομοιότητας στο καθένα και με διαφορετική αυστηρότητα.

Οι αλγόριθμοι που υλοποιήθηκαν στην πλατφόρμα είναι οι “Matching”, “Single Pass”, “HAC”

και “BiSecting K-Μeans”. Ο αλγόριθμος “Matching” υλοποιήθηκε για να μπορούν να

αξιολογηθούν οι άλλοι αλγόριθμοι, δηλαδή κατά πόσο βελτιώνουν τη διαδικασία εύρεσης

«όμοιων» εγγραφών σε σχέση με το απλό ταίριασμα των κλειδιών ταυτοποίησης που εφαρμόζει

το «pazpar2». Οι αλγόριθμοι “Single Pass” και “HAC” λειτουργούν με οποιοδήποτε αριθμό

υποκλειδιών ενώ ο “BiSecting K-Μeans” λειτουργεί μόνο όταν το κλειδί ταυτοποίησης

αντιμετωπίζεται ως ενιαίο, χωρίς υποκλειδιά. Όλοι οι αλγόριθμοι έχουν υλοποιηθεί να μπορούν

να προσομοιώνουν την αυξητική συσταδοποίηση σύμφωνα με την οποία επαναληπτικά γίνεται

εξέταση κάθε φορά ενός μικρού τμήματος των κλειδιών μέχρι να εξεταστούν στο σύνολό τους.

Σε όλους τους αλγορίθμους η διαδικασία συσταδοποίησης ελέγχεται από τα κατώφλια

- 60 -

ομοιότητας που έχουν δηλωθεί σε επίπεδο υποκλειδιού. Αναλυτικά η λειτουργία τους είναι η

παρακάτω:

- Αλγόριθμος “Matching”

Όπως αναφέρθηκε ο αλγόριθμος αυτός χρησιμοποιείται για την αξιολόγηση των άλλων.

Σύμφωνα με αυτόν τον αλγόριθμο γίνεται απλό ταίριασμα του συνολικού κλειδιού και

δημιουργούνται ανάλογα οι συστάδες.

- Αλγόριθμος “Single Pass”

Τα κλειδιά που πρόκειται να εξεταστούν αντιμετωπίζονται ως διανύσματα τιμών στα

«token-based» μέτρα ή ως αλφαβητικές ακολουθίες στα «phrase-based» μέτρα. Για κάθε

κλειδί υπάρχουν τόσα διανύσματα ή αλφαβητικές ακολουθίες όσος είναι ο αριθμός των

υποκλειδιών. Κάθε συστάδα που δημιουργείται κατά τη διαδικασία αντιπροσωπεύεται από

τον αριθμητικό μέσο των μελών του. Για κάθε συστάδα υπάρχουν τόσοι αντιπρόσωποι όσος

ο αριθμός των υποκλειδιών. Σε κάθε βήμα του αλγορίθμου για κάθε νέο κλειδί, το κάθε

υποκλειδί του συγκρίνεται με τους αντίστοιχους αντιπροσώπους των ήδη υπαρχόντων

συστάδων. Το νέο αυτό κλειδί θα γίνει μέλος της συστάδας με την οποία βρέθηκε να έχει

την μεγαλύτερη συνολική ομοιότητα εφόσον βέβαια το κάθε υποκλειδί του έχει με τον

αντίστοιχο αντιπρόσωπο ομοιότητα μεγαλύτερη από το κατώφλι που έχει οριστεί για το

υποκλειδί αυτό. Σε διαφορετική περίπτωση μια νέα συστάδα δημιουργείται. Η συνολική

ομοιότητα προκύπτει ως ο αριθμητικός μέσος των επιμέρους ομοιοτήτων των υποκλειδιών.

Η τιμή της ομοιότητας για το κάθε υποκλειδί προκύπτει σύμφωνα με το επιλεγμένο μέτρο

ομοιότητας για το κάθε υποκλειδί. Στην περίπτωση των «phrase-based» μέτρων ομοιότητας

ο αλγόριθμος δανείζεται από τον HAC τον τρόπο εύρεσης της ομοιότητας μεταξύ

τεκμηρίου και συστάδας και έτσι γίνεται σύγκριση με όλα τα μέλη της συστάδας για να

βρεθεί η ομοιότητα. Έχουν υλοποιηθεί οι μέθοδοι απλής, πλήρους και μέσης σύνδεσης

- 61 -

όπως και στον HAC. Στην αυξητική του μορφή ο αλγόριθμος σε κάθε επόμενο σύνολο

κλειδιών που πρόκειται να εξετάσει, θεωρεί δεδομένες τις ήδη δημιουργημένες συστάδες

και συνεχίζει την ίδια διαδικασία με τα νέα κλειδιά σα να μην είχε διακοπεί η προηγούμενη

διαδικασία. Η μοναδική επιβάρυνση, στην περίπτωση των «token-based» μέτρων

ομοιότητας, είναι ο επαναϋπολογισμός των διανυσμάτων των κλειδιών αφού νέα κλειδιά

έχουν εισαχθεί στα μέχρι τώρα οπότε και νέοι όροι έχουν προστεθεί (άρα έχει αυξηθεί η

διάσταση των διανυσμάτων και οι τιμές πρέπει να ενημερωθούν).

- Αλγόριθμος “HAC”

Αρχικά υπολογίζεται ο πίνακας εγγύτητας ο οποίος αποτελείται από τόσους υποπίνακες

όσος ο αριθμός των υποκλειδιών. Ο κάθε υποπίνακας είναι δύο διαστάσεων mi x n, όπου mi

είναι ο αριθμός των διαφορετικών όρων στο σύνολο των υποκλειδιών i. Κάθε κλειδί αρχικά

τοποθετείται σε μια διαφορετική συστάδα και στο πρώτο βήμα του ο αλγόριθμος αναζητεί

το ζευγάρι κλειδιών με τη μεγαλύτερη συνολική ομοιότητα. Η συνολική ομοιότητα, όπως

και στον αλγόριθμο “Single Pass”, προκύπτει ως ο αριθμητικός μέσος των επιμέρους

ομοιοτήτων των υποκλειδιών. Το ζευγάρι κλειδιών με τη μεγαλύτερη συνολική ομοιότητα,

εφόσον η κάθε επιμέρους ομοιότητα των αντίστοιχων υποκλειδιών είναι μεγαλύτερη από το

κατώφλι που έχει οριστεί για τα υποκλειδιά αυτά, συγχωνεύεται. Σε διαφορετική

περίπτωση, που έστω και μια επιμέρους ομοιότητα υποκλειδιών είναι μικρότερη από το

αντίστοιχο κατώφλι, δε γίνεται συγχώνευση και ο αλγόριθμος τερματίζει. Σε κάθε επόμενο

βήμα αναζητείται το ζευγάρι συστάδων (ή συστάδας και κλειδιού) που έχει τη μεγαλύτερη

συνολική ομοιότητα προς συγχώνευση. Για την εύρεση της ομοιότητας μεταξύ δύο

συστάδων (ή συστάδας και κλειδιού) υλοποιήθηκαν οι μέθοδοι απλής, πλήρους και μέσης

σύνδεσης. Στην αυξητική του μορφή ο αλγόριθμος σε κάθε επόμενο σύνολο κλειδιών που

πρόκειται να εξετάσει, θεωρεί δεδομένες τις ήδη δημιουργημένες συστάδες και

προσθέτοντας και τα νέα κλειδιά δημιουργεί ένα νέο σύνολο πάνω στο οποίο ξεκινά τη

- 62 -

διαδικασία της εύρεσης συστάδων προς συγχώνευση όπως αυτή περιγράφηκε παραπάνω. Η

επιβάρυνση που συνεπάγεται η αυξητική μορφή όπως και στον αλγόριθμο “Single Pass”,

στην περίπτωση των «token-based» μέτρων ομοιότητας, είναι ο επαναϋπολογισμός των

διανυσμάτων των κλειδιών αφού νέα κλειδιά έχουν εισαχθεί στα μέχρι τώρα οπότε και νέοι

όροι έχουν προστεθεί (άρα έχει αυξηθεί η διάσταση των διανυσμάτων και οι τιμές πρέπει να

ενημερωθούν). Διαισθητικά όμως θα υπάρχει και κέρδος χρόνου αφού η σύγκριση γίνεται

σε μικρότερα σύνολα κλειδιών από την περίπτωση της μη-αυξητικής μορφής. Όμως λογικά

θα έχει διαφορετική απόδοση αφού δεν γίνονται οι ίδιες συγκρίσεις, όπως η αρχική

σύγκριση όλων των ζευγών των κλειδιών με πιθανό επηρεασμό της ποιότητας.

- Αλγόριθμος “BiSecting K-Μeans”

Ο υπολογισμός του πίνακα εγγύτητας και της συνολικής ομοιότητας μεταξύ δύο κλειδιών

γίνεται όπως και στον αλγόριθμο HAC. Η κύρια διαφορά του είναι ότι όλα τα κλειδιά

θεωρούνται αρχικά ότι αποτελούν μια συστάδα και σε κάθε βήμα επιχειρείται η διαίρεση σε

δύο επιμέρους συστάδες. Για τη διαίρεση της συστάδας σε δύο μέρη χρησιμοποιείται ο

διαχωριστικός αλγόριθμος «K-Μeans» (με K=2). Η διαίρεση των συστάδων σε δύο μέρη

συνεχίζεται όσο υπάρχουν συστάδες που έχουν εσωτερική ομοιότητα (Intra-cluster

similarity) μικρότερη από την τιμή που έχει δηλωθεί ως κατώφλι. Για τον υπολογισμό της

εσωτερικής ομοιότητας συστάδας χρησιμοποιούνται οι μέθοδοι υπολογισμού της

εξωτερικής ομοιότητας συστάδων (ανάμεσα σε δύο συστάδες – Inter-cluster similarity) και

συγκεκριμένα οι μέθοδοι απλής, πλήρους και μέσης σύνδεσης. Ο αλγόριθμος όπως έχει

υλοποιηθεί στην αυξητική του μορφή ξεκινά τη διαδικασία πάλι από την αρχή αγνοώντας

τις μέχρι τώρα δημιουργημένες συστάδες. Επομένως αυτό που αναμένεται είναι να

προσθέτει καθυστέρηση στην όλη διαδικασία. Αυτό που απομένει είναι να δειχθεί αν αυτή

η επιβάρυνση στο χρόνο είναι σημαντική ή όχι.

- 63 -

Συγκεντρωτικά οι υλοποιημένοι αλγόριθμοι με τις παραμέτρους τους αναφέρονται στον

παρακάτω πίνακα:

Αλγόριθμος Συσταδοποίησης Χρήση

υποκλειδιών

Αυξητική

μορφή

Matching - -

Single Pass – arithmetic mean Ναι Ναι1

HAC – single linkage Ναι Ναι1

HAC – complete linkage Ναι Ναι1

HAC – average linkage Ναι Ναι1

BiSecting K-Means – single linkage – arithmetic mean Όχι Όχι2

BiSecting K-Means – single linkage – median Όχι Όχι2

BiSecting K-Means – complete linkage – arithmetic mean Όχι Όχι2

BiSecting K-Means – complete linkage – median Όχι Όχι2

BiSecting K-Means – average linkage – arithmetic mean Όχι Όχι2

BiSecting K-Means – average linkage – median Όχι Όχι2

1με δυνατότητα εμφάνισης ενδιάμεσων αποτελεσμάτων2δεν έχει υλοποιηθεί πραγματική αυξητική μορφή αλλά σε κάθε βήμα γίνεται συσταδοποίηση των παλιών και των

νέων δεδομένων αθροιστικά ξανά από την αρχή σα να ήταν το πρώτο δείγμα – εμφανίζει και τα αποτελέσματα στο

κάθε βήμα

Πίνακας υλοποιημένων αλγορίθμων συσταδοποίησης

Μετά το τέλος του αλγορίθμου συσταδοποίησης και εφόσον έχει περαστεί ως παράμετρος

εκκίνησης στην εφαρμογή ένα αρχείο με τις πραγματικές κλάσεις του δείγματος τότε

υπολογίζονται οι τιμές των μέτρων αξιολόγησης F-Measure, Purity και Normalized Entropy για

τη μέτρηση της απόδοσης. Όλα τα αποτελέσματα της συσταδοποίησης, εφόσον ζητηθεί,

αποθηκεύονται σε ένα xml αρχείο το οποίο μπορεί να χρησιμοποιηθεί για περαιτέρω ανάλυση

και περιέχει τα παρακάτω:

- Όλες τις τιμές των παραμέτρων της συσταδοποίησης

- Τις τιμές των μέτρων αξιολόγησης

- 64 -

- Όλα τις παραγόμενες συστάδες (πόσες είναι, από ποια κλειδιά αποτελούνται και τα κλειδιά

τα ίδια)

Για την πιο εύκολη ανάγνωση του αρχείου αποτελεσμάτων έχουν δημιουργηθεί δύο XSLT

Stylesheets (ένα για συνοπτική και ένα για πλήρη εμφάνιση των αποτελεσμάτων) που

παρουσιάζουν τα αποτελέσματα σε μορφή html σελίδας. Η συνοπτική εμφάνιση περιλαμβάνει:

- Τις τιμές των παραμέτρων της συσταδοποίησης

- Τις τιμές των μέτρων αξιολόγησης

- Τον αριθμό των παραγόμενων συστάδων

Στην πλήρη εμφάνιση συγκαταλέγονται και τα κλειδιά ταυτοποίησης της κάθε συστάδας.

Τέλος αξίζει να σημειωθεί ότι για την αξιολόγηση όλων των αλγορίθμων με όλες τις

παραμέτρους τους, και όλων των μέτρων ομοιότητας στην πλατφόρμα υπάρχει η δυνατότητα να

εφαρμοστεί η συσταδοποίηση πάνω στο ίδιο σύνολο κλειδιών επαναληπτικά τόσες φορές όσοι

και οι συνδυασμοί παραμέτρων και μέτρων ομοιότητας (ιδιότητα «check_all» - Παράρτημα Γ).

Υπάρχει δε η δυνατότητα για επαναληπτική συσταδοποίηση μόνο για τις τιμές μιας παραμέτρου.

Για παράδειγμα επαναληπτική συσταδοποίηση για το έλεγχο της επίδρασης της αλλαγής του

κατωφλίου ομοιότητας σε συγκεκριμένο αλγόριθμο με συγκεκριμένες παραμέτρους (π.χ. αρχική

συσταδοποίηση με κατώφλι ομοιότητας 30% και βαθμιαία αυξανόμενο κατά 5% μέχρι 90%).

6.2.Αξιολόγηση πλατφόρμας ως πλαίσιο εφαρμογής συσταδοποίησης

Η πλατφόρμα «pscluster» όπως περιγράφηκε περιληπτικά παραπάνω αποτελεί ένα καλό πλαίσιο

σύγκρισης και εφαρμογής αλγορίθμων συσταδοποίησης και μέτρων αξιολόγησης για την

ταυτοποίηση κλειδιών βιβλιογραφικών εγγραφών με σκοπό την εύρεση και ομαδοποίηση αυτών

- 65 -

των εγγραφών που αναφέρονται σε ίδιες οντότητες. Η πλατφόρμα προσφέρει τρεις γνωστούς

αλγορίθμους συσταδοποίησης τεκμηρίων με διαφορετικά χαρακτηριστικά ο καθένας έτσι ώστε

να αξιολογηθεί πόσο επηρεάζεται το αποτέλεσμα της διαδικασίας της ταυτοποίησης από το

είδος του αλγορίθμου. Η υλοποίηση των τριών αυτών αλγορίθμων συσταδοποίησης έγινε, όπως

αναλύθηκε σε προηγούμενη ενότητα, με βάση τα ιδιαίτερα χαρακτηριστικά των μετα-μηχανών

αναζήτησης σε βιβλιογραφικά δεδομένα. Για την προσθήκη νέων αλγορίθμων συσταδοποίησης

απαιτείται καλή γνώση της δομής του προγράμματος και δεν είναι τόσο απλή διαδικασία γιατί

δόθηκε μεγαλύτερη βαρύτητα στην ταχύτητα εκτέλεσης με αποτέλεσμα οι διάφορες διαδικασίες

μέσα στο πρόγραμμα να μην είναι αρκετά ανεξάρτητες μεταξύ τους έτσι ώστε να μπορεί να

προστεθεί εύκολα μια νέα. Πιο εύκολη είναι η προσθήκη νέων μέτρων ομοιότητας. Εδώ πρέπει

να αναφερθεί και η χρήση μιας έτοιμης βιβλιοθήκης ρουτινών27 για τη χρήση της ρουτίνας που

υλοποιεί τον διαχωριστικό αλγόριθμο συσταδοποίησης «K-Means» ο οποίος ήταν απαραίτητος

για την υλοποίηση του αλγορίθμου «BiSecting K-Means».

Μεγαλύτερη βαρύτητα δόθηκε στην παραμετροποίηση του προγράμματος μέσα από τα διάφορα

αρχεία ρυθμίσεων και τις παραμέτρους εκκίνησης και στην εύκολη χρήση του ως ανεξάρτητη

εφαρμογή αλλά και μέσα από μετα-μηχανή αναζήτησης. Το βασικό αρχείο ρυθμίσεων είναι σε

XML μορφή και εύκολο στην κατανόησή του και δίνει τη δυνατότητα στον χρήστη να επιλέξει

τον αλγόριθμο συσταδοποίησης και τις παραμέτρους μέσα από ένα προεπιλεγμένο σύνολο τιμών

όπως αναφέρεται στο Παράρτημα Γ. Τα κλειδιά ταυτοποίησης είναι απλής μορφής και δίνονται

στην εφαρμογή διαμέσου ενός απλού αρχείου κειμένου (text file), με τον περιορισμό να υπάρχει

ένα κλειδί ανά γραμμή και πριν από το κάθε υποκλειδί να υπάρχει το όνομά του όπως αναλύεται

στο Παράρτημα Α. Ομοίως και οι διαφορετικές οντότητες (κλάσεις) στις οποίες ομαδοποιούνται

πραγματικά τα κλειδιά, δίδονται στο πρόγραμμα διαμέσου ενός απλού αρχείου κειμένου (text

file), με τον περιορισμό να υπάρχει μια κλάση με τα μέλη της ανά γραμμή όπως αναλύεται στο

Παράρτημα Β. Οι κλάσεις δε, όταν δίδονται, δίνουν τη δυνατότητα στην πλατφόρμα για

27 http://bonsai.ims.u-tokyo.ac.jp/~mdehoon/software/cluster/cluster-1.47.tar.gz [τελευταία πρόσβαση: 27/01/10]

- 66 -

http://bonsai.ims.u-tokyo.ac.jp/~mdehoon/software/cluster/cluster-1.47.tar.gz

αξιολόγηση της απόδοσης της διαδικασίας συσταδοποίησης διαμέσου μέτρων αξιολόγησης που

δίνονται στη βιβλιογραφία. Τέλος η πλατφόρμα παράγει πλούσια αποτελέσματα σε μορφή xml

αρχείων αλλά και σε αρχεία απλού κειμένου, για παρατήρηση και ανάλυση της

συσταδοποίησης, τα οποία αντιστοιχούν στις τελικές παραγόμενες συστάδες αλλά και στα

ενδιάμεσα αποτελέσματα στην περίπτωση της προσομοίωσης της αυξητικής συσταδοποίησης.

Αναλυτικά η μορφή των αποτελεσμάτων παρουσιάζεται στο Παράρτημα Ε.

Εναλλακτικά, όπως αναφέρθηκε, η πλατφόρμα μπορεί να συνεργαστεί και με άλλη εφαρμογή,

όπως π.χ. με μετα-μηχανή αναζήτησης που ακολουθεί τη δομή του «pazpar2». Για το σκοπό

αυτό εξωτερικεύει ένα «C Interface» ρουτινών οι κυριότερες των οποίων είναι οι παρακάτω:

void create_pscluster(void** pscluster, const char* pslog_fname, const char* psresults_fname,

const char* psresults_xsl_fname, const char* psclasses_fname): Δημιουργία του βασικού C++

αντικειμένου (object) του προγράμματος που ελέγχει όλη τη διαδικασία της συσταδοποίησης. Το

νέο αντικείμενο είναι βασική παράμετρος σε όλες τις άλλες ρουτίνες του «C Interface».

void insert_document_string(void* pscluster, const char* doc_string): Εισαγωγή ενός κλειδιού

ταυτοποίησης με μορφή μιας συμβολοσειράς χαρακτήρων.

void set_clustering_parameters1(void* pscluster, clustering_parameters cl_params): Θέτει τις

παραμέτρους της συσταδοποίησης (αλγόριθμος, μέτρα ομοιότητας, επιπλέον παράμετροι).

int* do_clustering(void* pscluster, int consider_prev_clustering, int* docsNo, int* clustersNo,

int* firstnewDocPos): Η βασική ρουτίνα που ξεκινά τη διαδικασία της συσταδοποίησης. Αν

είναι επιτυχής επιστρέφει έναν μονοδιάστατο πίνακα ακεραίων αριθμών, μεγέθους ίσο με τον

αριθμό των κλειδιών προς συσταδοποίηση και η κάθε θέση του δηλώνει σε ποια συστάδα ανήκει

- 67 -

το κλειδί με αύξων αριθμό τον δείκτη της κάθε θέση (π.χ. ret_value[5]=7, σημαίνει ότι το 5ο

κλειδί ανήκει στην 7ο συστάδα. Επιστρέφει επίσης των αριθμό των παραγόμενων συστάδων, τον

αριθμό των κλειδιών που συσταδοποιήθηκαν και λαμβάνει υπόψη την περίπτωση της αυξητικής

συσταδοποίησης (consider_prev_clustering=1).

void print_clusters(void* pscluster): Γράφει τα αποτελέσματα της συσταδοποίησης (πλήρη

αποτελέσματα) στο αρχείο αποτελεσμάτων που δηλώθηκε.

double get_duration(void* pscluster): Επιστρέφεται ο χρόνος εκτέλεσης του αλγορίθμου

συσταδοποίησης με ακρίβεια εκατοστού δευτερολέπτου.

double get_fmeasure(void* pscluster):

double get_purity(void* pscluster):

double get_entropy(void* pscluster): Εφόσον έχει περαστεί ως παράμετρος εκκίνησης αρχείο με

τις κλάσεις στις οποίες ανήκουν τα κλειδιά ταυτοποίησης, με τη χρήση των τριών αυτών

ρουτινών λαμβάνεται η τιμή των μέτρων αξιολόγησης F-Measure, Purity και normalized

Entropy αντίστοιχα.

6.3.Αξιολόγηση εφαρμογής συσταδοποίησης βάσει ενδεικτικών συλλογών

Για τη ενδεικτική αξιολόγηση των υλοποιημένων αλγορίθμων συσταδοποίησης και μέτρων

ομοιότητας χρησιμοποιήθηκαν τέσσερις κατηγορίες δειγμάτων (κλειδιά ταυτοποίησης). Στην

πρώτη κατηγορία ανήκουν μικρά κατασκευασμένα δείγματα με σκοπό την παρουσίαση

λειτουργίας της πλατφόρμας. Στη δεύτερη κατηγορία ανήκουν δείγματα που προέκυψαν μετά

από επεξεργασία στα επιστρεφόμενα αποτελέσματα αναζητήσεων στον Συλλογικό Κατάλογο

των Ελληνικών Ακαδημαϊκών Βιβλιοθηκών (ΣΚΕΑΒ) και στον Συλλογικό Κατάλογο των

- 68 -

Δημόσιων Βιβλιοθηκών, για ίδια έργα (works κατά FRBR), με σκοπό την αναγνώριση ίδιων

έργων. Η επεξεργασία αναφέρεται στην παραγωγή των κλειδιών ταυτοποίησης από τα

παραπάνω επιστρεφόμενα αποτελέσματα με τη χρήση του προγράμματος28 κατασκευής κλειδιών

κατά FRBR της Βιβλιοθήκης του Κογκρέσου (Library of Congress), προσαρμοσμένο σε

δεδομένα UNIMARC (Sfakakis, Kapidakis - 2009). Στην τρίτη κατηγορία ανήκουν δείγματα

που παράγονται όπως τα δείγματα της δεύτερης κατηγορίας αλλά με την εφαρμογή μιας

επιπλέον επεξεργασίας29 με σκοπό τη βελτίωση της διαδικασίας αναγνώρισης FRBR έργων.

Τέλος στην τέταρτη κατηγορία ανήκουν δείγματα που αναφέρονται στα κλειδιά ταυτοποίησης

που παράγει η μετα-μηχανή αναζήτησης «pazpar2» μετά από αναζητήσεις σε διάφορες βάσεις

δεδομένων και χρησιμοποιήθηκαν για την αξιολόγηση του χρόνου εκτέλεσης της διαδικασίας

συσταδοποίησης. Συγκεντρωτικά οι παραπάνω κατηγορίες και τα δείγματα που

χρησιμοποιήθηκαν αναφέρονται στους παρακάτω πίνακες:

Κατηγορία Περιγραφή

1 κατασκευασμένα κλειδιά ταυτοποίησης

2 FRBR κλειδιά (με πρόγραμμα παραγωγής της Library of Congress όπως αυτό

τροποποιήθηκε για περίπτωση UNIMARC)

3 FRBR κλειδιά της «κατηγορίας 2» με επιπλέον επεξεργασία

4 Κλειδιά που παράγει το «pazpar2»

Πίνακας1: Κατηγορίες Δειγμάτων

Α/Α Κατηγορία Μέγεθος Κλάσεις Υποκλειδιά Κύριος σκοπός χρήσης

28 http://www.loc.gov/marc/marc-functional-analysis/tool.html [τελευταία επίσκεψη 27/01/2010]29 Για λεπτομερέστερη πληροφόρηση σχετικά με την παραγωγή δειγμάτων για την αναγνώριση έργων (works)

κατά FRBR βλέπε την Διπλωματική εργασία με τίτλο «Σύνθεση FRBR εγγραφών αξιοποιώντας υπάρχουσες βιβλιογραφικές εγγραφές (FRBRization): ομαδοποίηση σχετικών εγγραφών (clustering) και εμφάνισή τους σε on line συστήματα» του κ. Μανόλη Πεπονάκη στα πλαίσια του ΜΔΕ στην Επιστήμη της Πληροφορίας του Ιονίου Πανεπιστημίου του Τμήματος Αρχειονομίας – Βιβλιοθηκονομίας.

- 69 -

http://www.loc.gov/marc/marc-functional-analysis/tool.html

δείγματος

1 1 12 4 τίτλος,

συγγραφέας

Κατάδειξη λειτουργίας και

δυνατοτήτων του «pscluster»

2 2 133 5 τίτλος,


Εύρεση έργων κατά FRBR

3 3 70 1 τίτλος,


Εύρεση έργων κατά FRBR

4 4 300 τίτλος,

συγγραφέας,

τύπος υλικού

Αξιολόγηση χρόνου εκτέλεσης









7 4 1000 τίτλος,




Πίνακας 2: Χρησιμοποιούμενα Δείγματα

Πάνω στα παραπάνω δείγματα διενεργήθηκαν πειράματα με τη χρήση της πλατφόρμας

«pscluster». Συγκεκριμένα πάνω στα δείγματα 1, 2 και 3 δοκιμάστηκαν όλοι οι υλοποιημένοι

αλγόριθμοι συσταδοποίησης και μέτρα ομοιότητας με όλους τους δυνατούς συνδυασμούς

παραμέτρων αλγορίθμου και μέτρων ομοιότητας (πειράματα 1,2,3 παράρτημα Ε) ενώ πάνω στα

δείγματα 4,5,6 και 7 εφαρμόστηκαν όλοι οι υλοποιημένοι αλγόριθμοι συσταδοποίησης αλλά με

ένα επιλεγμένο συνδυασμό παραμέτρων και μέτρων αξιολόγησης. Όλα τα πειράματα

εκτελέστηκαν δύο φορές όπου στην πρώτη φορά λήφθηκαν υπόψη τα υποκλειδιά των δειγμάτων

ενώ στη δεύτερη φορά θεωρήθηκε ότι τα δείγματα αποτελούνται από ένα ενιαίο κλειδί. Από τα

αποτελέσματα των πειραμάτων κατασκευάστηκαν συγκριτικοί πίνακες και γραφικές

παραστάσεις για την αξιολόγηση του χρόνου εκτέλεσης της διαδικασίας συσταδοποίησης και

- 70 -

της απόδοσής της σε σχέση με τη διαδικασία απλού ταιριάσματος που εφαρμόζει το «pazpar2».

Ενδεικτικοί πίνακες και γραφικές παραστάσεις παρουσιάζονται στο Παράρτημα Ε. Από την

ανάλυση των αποτελεσμάτων που έγινε προέκυψαν τα παρακάτω συμπεράσματα τα οποία όμως

λόγω του μικρού αριθμού και μεγέθους των δειγμάτων δεν μπορούν να γενικευτούν, ωστόσο

παρουσιάζουν ενδιαφέρον.

- Χρόνος εκτέλεσης διαδικασίας συσταδοποίησης

Ο χρόνος εκτέλεσης επηρεάζεται όπως ήταν αναμενόμενο από την πολυπλοκότητα του

αλγορίθμου συσταδοποίησης και τη μορφή του (μη-αυξητική ή αυξητική) αλλά και από το

χρησιμοποιούμενο μέτρο ομοιότητας. Επίσης από το γεγονός αν το κλειδί ταυτοποίησης

αντιμετωπίζεται ως ενιαίο ή αν έχει διαχωριστεί σε υποκλειδιά. Σύμφωνα με τα γραφήματα Α

των πειραμάτων 2 και 3 του παραρτήματος Ε, και όπως απεικονίζεται στην παρακάτω εικόνα σε

ένα από αυτά, στην περίπτωση της μη-αυξητικής συσταδοποίησης, ο πιο γρήγορος αλγόριθμος

είναι ο διαχωριστικός “Single Pass” και ακολουθεί ο υβριδικός “BiSecting K-Means” ο οποίος

στην περίπτωση χρήσης της μεθόδου απλής σύνδεσης ως τρόπο υπολογισμού της ομοιότητας

μεταξύ δύο συστάδων είναι σχεδόν ισοδύναμος με τον “Single Pass”. Ακολουθεί με τουλάχιστον

υπερδιπλάσιο χρόνος εκτέλεσης ο HAC.

- 71 -

Δείγμα 2: Μέσος χρόνος εκτέλεσης (σε secs) αλγορίθμων ανά μετρική ομοιότητας(Μη-Αυξητική μορφή - χρήση υποκλειδιών )

0

0,2

0,4

0,6

0,8

1

1,2

1,4

1,6

1,8

2

tf tfidf to tf tfidf to - tf tfidf to - - - -

cosine dice's dice'swith

bigrams

Jaccard's jaro-winkler-a

jaro-winkler-c

jaro-winkler-s

-

hac- ahac- chac- ssingle passmatching

Δείγμα 2: Μέσος χρόνος εκτέλεσης (σε secs) αλγορίθμων ανά μετρική ομοιότητας(Αυξητική μορφή - χρήση υποκλειδιών )

0

0,2

0,4

0,6

0,8

1

1,2

1,4

1,6



bigrams


jaro-winkler-c

jaro-winkler-s

-


Τα δεδομένα όμως αυτά αλλάζουν σημαντικά στη χρήση της αυξητικής μορφής των αλγορίθμων

όπου και παρατηρείται μια μικρή μεν επιβάρυνση στον αλγόριθμο “Single Pass” αλλά

- 72 -

σημαντική μείωση του χρόνου (2 και 3 φορές μικρότερος) στην περίπτωση του HAC. Ο

αλγόριθμος “BiSecting K-Means” δεν έχει υλοποιηθεί στην αυξητική του μορφή και επομένως

εφαρμόζει συσταδοποίηση χωρίς να λαμβάνει υπόψη τις ήδη δημιουργημένες συστάδες οπότε

είναι αναμενόμενη η καθυστέρηση που προσθέτει και έτσι γίνεται ο πιο αργός σε αυτή την

περίπτωση. Σχετικά με τα μέτρα ομοιότητας διαπιστώνεται ότι τα «phrase-based» προσθέτουν

σημαντική καθυστέρηση σε σχέση με τα «token-based» μέτρα. Συγκριτικά τα «token-based»

μέτρα μεταξύ τους έχουν αμελητέες διαφορές εκτός από την ιδιαίτερη περίπτωση του μέτρου

«dice’s coefficient with bigrams» το οποίο είναι και το πιο χρονοβόρο από όλα τα

χρησιμοποιούμενα (τουλάχιστον 4 φορές περισσότερος χρόνος). Τέλος παρατηρείται μια

αύξηση του χρόνου εκτέλεσης στην περίπτωση της χρήσης ενιαίου κλειδιού συγκριτικά με την

περίπτωση χρήσης υποκλειδιών.

Σχετικά με την κλιμάκωση του χρόνου εκτέλεσης με βάση το μέγεθος του δείγματος, σύμφωνα

με το παρακάτω γράφημα παρατηρείται ότι σε μεγάλα δείγματα μόνο ο αλγόριθμος “Single

Pass” και έπειτα ο HAC στην αυξητική του μορφή μπορούν να χρησιμοποιηθούν σε

επιγραμμικό περιβάλλον με την προϋπόθεση μιας μετα-μηχανής αναζήτησης όπου τα

αποτελέσματα τα συγκεντρώνει σε μικρά τμήματα από τις πληροφοριακές πηγές. Για

παράδειγμα ο αλγόριθμος “Single Pass” χρειάζεται γύρω στα 10 δευτερόλεπτα σε δείγμα 1000

κλειδιών στην περίπτωση χρήσης τριών υποκλειδιών ενώ γύρω στα 30 δευτερόλεπτα στην

περίπτωση χρήσης ενιαίου κλειδιού. Μέχρι δείγμα 500 κλειδιών φαίνεται αρκετά ικανοποιητικός

ο “Single Pass” αλλά και οι υπόλοιποι αλγόριθμοι αν θεωρηθεί η περίπτωση της αυξητικής

συσταδοποίησης.

- 73 -

Μέσος χρόνος εκτέλεσης (σε secs)ανά αλγόριθμο, μορφή αλγορίθμου (μη-αυξητικός-no ή αυξητικός-yes:20 ) και αριθμό υποκλειδιών

πάνω σε δείγματα με 300, 500, 800 και 1000 κλειδιά αντίστοιχα το καθένα(Δείγματα 4,5,6,8 )

0102030405060708090

100110120130140150160

3005008001000

300 6,85 23,76 4,89 3,73 2,27 1,85 2,1 2,27 0,39 0,57

500 20,51 125,85 21,01 11,84 11,02 7,19 5,81 6,56 1,04 1,77

800 61 81,92 36,65 43,81 25,1 16,06 18,32 3,3 5,46

1000 103,8 152,67 61,8 79,98 45,12 25,64 29,87 5,57 9,65

no yes:20 no yes:20 no yes:20 no yes:20 no yes:20

1key 1key author+title+medium 1key author+title+medium

bisecting k-means-c hac-c single pass

- Απόδοση διαδικασίας συσταδοποίησης βάσει μέτρων αξιολόγησης

Από τα γραφήματα Β των πειραμάτων 2 και 3 του παραρτήματος Ε διαπιστώνεται ότι όλοι οι

αλγόριθμοι συσταδοποίησης ανεξαρτήτου μέτρου ομοιότητας στις περισσότερες τιμές του

κατωφλίου ομοιότητας αποδίδουν καλύτερα από το απλό ταίριασμα των κλειδιών που

πραγματοποιείται στο «pazpar2» όπως για παράδειγμα απεικονίζεται στο παρακάτω γράφημα

που είναι ένα από τα προαναφερθέντα. Ο αλγόριθμος απλού ταιριάσματος αποδίδει γύρω στο

0,6 σύμφωνα με το μέτρο ομοιότητας F-Measure (μέγιστη τιμή=1) όταν οι άλλοι αλγόριθμοι με

όλους τους πιθανούς συνδυασμούς και κατώφλια ομοιότητας αποδίδουν μεγαλύτερες μέγιστες

τιμές (πάνω από 0,75).

- 74 -

Δείγμα 2: Μέγιστο F-Measure αλγορίθμων ανά μετρική ομοιότητας(Μη-Αυξητική μορφή - χρήση υποκλειδιών)

0,6

0,65

0,7

0,75

0,8



bigrams


jaro-winkler-c

jaro-winkler-s

-

hac- ahac- chac- smatchingsingle pass

Σχετικά με τα μέτρα ομοιότητας και τα όρια που εξετάστηκαν διαπιστώθηκε ότι τα «token-

based» μέτρα αποδίδουν καλύτερα σε χαμηλά κατώφλια ομοιότητας (50% και κάτω με εξαίρεση

το «Dice’s coefficient with bigrams» το οποίο αποδίδει καλά κοντά στο 70%) ενώ τα «phrase-

based» μέτρα αποδίδουν καλύτερα σε υψηλά κατώφλια ομοιότητας (πάνω από 80%) όπως

απεικονίζονται στα γραφήματα Γ και Δ των πειραμάτων 2 και 3 του παραρτήματος Ε και όπως

παρουσιάζεται σε κάποια από αυτά στις παρακάτω εικόνες.

- 75 -

Δείγμα 2: Μέγιστο F-Measure ανά αλγόριθμο για την "token-based" μετρική ομοιότητας "cosine+tfidf" με κλιμάκωση του κατωφλίου ομοιότητας (30%-95%)

( Μη-Αυξητική μορφή - χρήση υποκλειδιών )

0,6

0,65

0,7

0,75

0,8

hac- a hac- c hac- s single pass matching

tfidf -

cosine -

0,30,350,40,450,50,550,60,650,70,750,80,850,90,95

Δείγμα 2: Μέγιστο F-Measure ανά αλγόριθμο για την "phrase-based" μετρική ομοιότητας "jaro-winkler" με κλιμάκωση του κατωφλίου ομοιότητας (30%-95%)

(Μη-Αυξητική μορφή - χρήση υποκλειδιών )

0,3

0,35

0,4

0,45

0,5

0,55

0,6

0,65

0,7

0,75

0,8

hac- a single pass hac- c single pass hac- s single pass matching

- - - -

jaro-winkler-a jaro-winkler-c jaro-winkler-s -

0,300,350,400,450,500,550,600,650,700,750,800,850,900,95

Όσο πιο διαφορετικά είναι τα κλειδιά του δείγματος τόσο πιο χαμηλά είναι τα προαναφερθέντα

κατώφλια για τις «token-based» και τόσο πιο υψηλά για τις «phrase-based». Στα «token-based»

μέτρα όταν χρησιμοποιείται η μέθοδος tf-idf για τον υπολογισμό των τιμών των διανυσμάτων

- 76 -

των τεκμηρίων η απόδοσή τους φαίνεται από πολύ χαμηλά όρια ομοιότητας και πιο χαμηλά από

τους άλλους τρόπους υπολογισμού των τιμών των διανυσμάτων που χρησιμοποιήθηκαν

(αριθμός εμφάνισης του όρου – term occurrences, συχνότητα εμφάνισης του όρου – term

frequency).

Από τα πειράματα που εκτελέστηκαν διαπιστώθηκε ότι για να προκύψει καλή συσταδοποίηση

πρέπει όχι μόνο οι παραγόμενες συστάδες να πλησιάζουν σε αριθμό τις αρχικές κλάσεις αλλά

και να έχουν καλές τιμές όλα τα μέτρα αξιολόγησης που υλοποιήθηκαν. Συγκεκριμένα η τιμή

της Purity όσο πλησιάζει στο 1 σημαίνει ότι οι παραγόμενες συστάδες έχουν μεγάλη Ακρίβεια

(Precision) που σημαίνει ότι ελαχιστοποιούνται οι λάθος ταυτοποιήσεις. Τιμή ίση με 1 σημαίνει

ότι η παραγόμενη συστάδα έχει μόνο μέλη από την αντίστοιχη αρχική κλάση. Βέβαια αυτό δεν

εξασφαλίζει το γεγονός ότι θα έχει και όλα τα μέλη από την αντίστοιχη αρχική κλάση. Δηλαδή

μια αρχική κλάση όταν έχει αναγνωριστεί ως δύο συστάδες τότε αυτό συνεπάγεται «καθαρές»

παραγόμενες συστάδες (Purity=1) αλλά δεν έχουμε πλήρη Ανάκληση (Recall) άρα η τιμή της F-

Measure θα είναι μικρότερη του 1. Επιπρόσθετα η τιμή της Entropy καταδεικνύει αν οι αρχικές

κλάσεις είναι διάσπαρτες σε λάθος συστάδες. Όταν η τιμή της είναι ίση με 0 σημαίνει ότι δεν

υπάρχουν μέλη των αρχικών κλάσεων διάσπαρτα σε πολλές παραγόμενες συστάδες που δεν

αναφέρονται στην ίδια αρχική κλάση. Επομένως όπως και στην περίπτωση της Purity η τέλεια

τιμή της δεν εξασφαλίζει ότι έχουμε απόλυτη Ανάκληση (Recall). Δείχνουν όμως τα μέτρα αυτά

αν έχουμε λάθος ταυτοποιήσεις το οποίο είναι πολύ σημαντικό και μάλλον σημαντικότερο από

τον αν κατάφερε ο αλγόριθμος να κάνει όλες τις ταυτοποιήσεις (μέγιστη τιμή για Ανάκληση).

Βέβαια ενδιαφέρει να αποδίδει ο αλγόριθμος συσταδοποίησης καλύτερα από το απλό ταίριασμα

στο οποίο είναι προφανές ότι απλά δεν επιτυγχάνονται όλες οι πιθανές ταυτοποιήσεις (Recall <

1) αλλά δεν γίνονται λάθος ταυτοποιήσεις (Purity=1, Entropy=0). Στο παρακάτω απόσπασμα

από το Πείραμα 1 του παραρτήματος Ε παρατηρείται ότι, ο αλγόριθμος απλού ταιριάσματος έχει

άριστες τιμές για τα μέτρα Purity και Entropy αλλά η τιμή της F-Measure που είναι ίση με

- 77 -

0,78<1 δηλώνει ότι χάθηκαν ταυτοποιήσεις. Στο συγκεκριμένο πείραμα το αρχικό δείγμα

αποτελείται από 12 κλειδιά τα οποία αντιστοιχούν σε 4 κλάσεις. Ο αλγόριθμος απλού

ταιριάσματος παράγει 8 συστάδες που σημαίνει, όπως εξηγήθηκε παραπάνω, ότι κάποιες από τις

αρχικές κλάσεις τις έχει διαιρέσει σε παραπάνω συστάδες την καθεμιά. Ο διαχωριστικός

αλγόριθμος “Single Pass” αποδίδει το ίδιο με τον αλγόριθμο απλού ταιριάσματος στην

περίπτωση χρήσης του «token-based» μέτρου «cosine+tf-idf» με κατώφλι ομοιότητας 50% αλλά

αποδίδει άριστα στην περίπτωση του «phrase-based» μέτρου «jaro-winkler» με κατώφλι

ομοιότητας 80% αφού καταφέρνει να παράγει συστάδες που είναι μία προς μία ίδιες με τις

αρχικές κλάσεις (F-Measure=1, Purity=1, Entropy=0).

Αλγόριθμος: “Matching”

Similarity MetricDocument Vector

Values

Similarity

ThresholdDocs Clusters F-Measure Purity Entropy

- - - 12 8 0,78 1 0

Αλγόριθμος: “Single Pass”

. . . . . . . . . . . .

cosine tfidf 0,5 12 8 0,78 1 0

. . . . . . . . . . . .

c - jaro-winkler - 0,8 12 4 1 1 0

. . . . . . . . . . . .

Ενδεικτικά κομμάτια από τα αποτελέσματα συσταδοποίησηςπου παράγονται στην πλατφόρμα «pscluster»

Η χρήση των υποκλειδιών επιτρέπει τη χρήση διαφορετικού μέτρου ομοιότητας που προσθέτει

επίσης στην αποδοτικότητα της διαδικασίας. Αναλυτικά τα αποτελέσματα των παραπάνω

πειραμάτων, όπως αναφέρθηκε, παρουσιάζονται στο παράρτημα Ε.

- 78 -

Συμπεράσματα και μελλοντική εργασία

Σε αυτή την εργασία υλοποιήσαμε μια πλατφόρμα για την εφαρμογή και αξιολόγηση

αλγορίθμων συσταδοποίησης και μέτρων ομοιότητας για την αναζήτηση σε δεδομένα εισόδου,

που ακολουθούν ένα υφιστάμενο μοντέλο δεδομένων, ομάδων δεδομένων που αναφέρονται

στην ίδια οντότητα σύμφωνα με κριτήρια που τίθενται κάθε φορά. Η πλατφόρμα χρησιμοποιεί

την XML ως βασική γλώσσα επικοινωνίας με τον χρήστη, κάνοντας έτσι εύκολη την χρήση της.

Ο χρήστης μέσα από αρχεία XML μπορεί να ρυθμίζει τη λειτουργία της επιλέγοντας από ένα

πλούσιο σύνολο αλγορίθμων συσταδοποίησης, μέτρων ομοιότητας και άλλων παραμέτρων το

είδος της διαδικασίας που θα επιτελεστεί. Ως έξοδο η πλατφόρμα δίνει πολλά αποτελέσματα

πάλι σε XML μορφή δίνοντας τη δυνατότητα για εύκολη επεξεργασία τους και την εξαγωγή

συμπερασμάτων. Διαθέτει και μηχανισμό αξιολόγησης της διαδικασίας συσταδοποίησης,

προσφέροντας μεθόδους μέτρησης της ποιότητας των αποτελεσμάτων βάσει συγκεκριμένων

μέτρων αξιολόγησης όπως τα F-Measure, Cluster Purity και Entropy. Συνοδεύεται από δύο

XSLT Stylesheets για την εμφάνιση των αποτελεσμάτων της συσταδοποίησης σε html σελίδες

για την πιο εύκολη ανάγνωσή τους, εμφανίζοντας τις παραμέτρους εισόδου, τις τιμές των

μέτρων αξιολόγησης και τις παραγόμενες συστάδες με τα μέλη τους.

Η πλατφόρμα λειτουργεί ως αυτόνομη εφαρμογή αλλά μπορεί να συνεργαστεί και με μετα-

μηχανή αναζήτησης που ακολουθεί τη μορφή του «pazpar2» συμβάλλοντας έτσι στην ποιοτική

αναβάθμιση των αποτελεσμάτων που επιστρέφει μια μετα-μηχανή αναζήτησης αφού δίνει τη

δυνατότητα ενοποίησης των δεδομένων που συγκεντρώνει η μετα-μηχανή αναζήτησης από τις

διάφορες πληροφοριακές πηγές σε μοναδικές οντότητες κάτω από ένα υφιστάμενο μοντέλο

δεδομένων.

- 79 -

Εφαρμόσαμε την πλατφόρμα πάνω σε ενδεικτικά δεδομένα εισόδου τα οποία αποτελούσαν

κλειδιά ταυτοποίησης βιβλιογραφικών εγγραφών για την αναγνώριση εννοιολογικών οντοτήτων

σε επίπεδο έργου σύμφωνα με το μοντέλο FRBR και βγάλαμε ενδεικτικά συμπεράσματα για την

χρήση της και την απόδοσή της τόσο από πλευράς χρόνου εκτέλεσης όσο και από πλευράς

ποιοτικού αποτελέσματος. Έτσι η δυνατότητα της αυξητικής συσταδοποίησης που προσφέρεται

διαπιστώθηκε ότι επιβαρύνει σε κάποιους αλγορίθμους συσταδοποίησης (π.χ. “Single Pass”)

χρονικά την όλη διαδικασία αλλά σε κάποιους άλλους μειώνει σημαντικά το χρόνο εκτέλεσης

(π.χ. HAC) χωρίς να υποβαθμίζει (σε αξιόλογο βαθμό) την ποιότητα του παραγόμενου

αποτελέσματος κάνοντας έτσι εφικτή τη συνεργασία με μετα-μηχανή αναζήτησης που

συγκεντρώνει τα αποτελέσματα από τις διάφορες πληροφοριακές πηγές τμηματικά. Η

δυνατότητα αντιμετώπισης των κλειδιών ταυτοποίησης ως σύνολο από υποκλειδιά

ταυτοποίησης με καθορισμό διαφορετικών μέτρων ομοιότητας για το καθένα συμβάλει στην

ταχύτερη διεκπεραίωση της διαδικασίας και στην επιθυμητή διαφορετική αντιμετώπιση των

επιμέρους δεδομένων του κλειδιού ταυτοποίησης (π.χ. δεδομένα συγγραφέα, δεδομένα τίτλου)

με σκοπό την επίτευξη καλύτερου αποτελέσματος. Γενικά διαπιστώθηκε ότι οι αλγόριθμοι

συσταδοποίησης με τη χρήση επιλεγμένων μέτρων ομοιότητας συμβάλουν στην αναγνώριση

περισσοτέρων έργων κατά FRBR στα επιστρεφόμενα αποτελέσματα από τον αλγόριθμο απλού

ταιριάσματος των κλειδιών ταυτοποίησης που χρησιμοποιεί για παράδειγμα η μετα-μηχανή

αναζήτησης «pazpar2».

Σύμφωνα με την εμπειρία που αποκομίστηκε από τη χρήση της πλατφόρμας «pscluster» ως

πλαίσιο εφαρμογής και αξιολόγησης αλγορίθμων συσταδοποίησης πάνω σε βιβλιογραφικά

δεδομένα διαπιστώθηκε ότι αποτελεί ένα χρήσιμο και εύχρηστο εργαλείο το οποίο μπορεί να

χρησιμοποιηθεί και σε επιγραμμικά συστήματα με σκοπό την ενοποίηση δεδομένων που

προέρχονται από διάφορες πληροφοριακές πηγές. Μέσα από αυτή τη χρήση όμως αναδείχθηκαν

και μελλοντικά θέματα προς υλοποίηση και διερεύνηση. Έτσι παρόλο που η συγκεκριμένη

- 80 -

υλοποίηση είναι αρκετά εύκολα παραμετρική δεν είναι το ίδιο εύκολα επεκτάσιμη. Επομένως

μια από τις μελλοντικές εργασίες μπορεί να είναι η μεγαλύτερη τμηματοποίηση-διάρθρωση του

κώδικα και ο καθορισμός πρότυπων διεπαφών εισόδου και εξόδου των αλγορίθμων

συσταδοποίησης έτσι ώστε να μπορούν να προστίθενται νέοι αλγόριθμοι συσταδοποίησης και

μέτρα ομοιότητας με πιο εύκολο τρόπο. Σχετικά με τα δεδομένα εισόδου, αξίζει να διερευνηθεί

η συμπεριφορά και απόδοση του συστήματος σε περισσότερα σύνολα δεδομένων, αλλά και σε

άλλα μοντέλα δεδομένων πέραν του FRBR, για να αξιολογηθεί η χρησιμότητα της

συσταδοποίησης ως μέθοδος ομαδοποίησης των δεδομένων σε διαφορετικές οντότητες. Τέλος

μέσα από τη διερεύνηση αυτή θα αξιολογηθούν και οι πληροφορίες εξόδου πλατφόρμας σχετικά

με την επάρκειά τους και την ποιότητά τους στην εξαγωγή συμπερασμάτων.

- 81 -

Παραρτήματα

6.4.Παράρτημα Α: Η μορφή του αρχείου των κλειδιών ταυτοποίησης

Η δομή του αρχείου των κλειδιών ταυτοποίησης είναι ένα κλειδί ταυτοποίησης ανά γραμμή. Το

κάθε κλειδί όπως αναφέρθηκε μπορεί να αποτελείται από πολλά υποκλειδιά. Αυτός ο

διαχωρισμός δηλώνεται στην κάθε γραμμή του αρχείου. Έτσι η κάθε γραμμή του αρχείου θα

έχει τη μορφή:

όνομα-υποκλειδιού [κενός χαρακτήρας] τιμή υποκλειδιού [κενός χαρακτήρας] όνομα-υποκλειδιού

[κενός χαρακτήρας] τιμή υποκλειδιού . . .

Στην περίπτωση μόνο ενός κλειδιού πάλι θα δηλώνεται το όνομά του οπότε και οι γραμμές του

αρχείου θα έχουν τη μορφή:

όνομα-κλειδιού [κενός χαρακτήρας] τιμή κλειδιού

Όλες οι γραμμές πρέπει να έχουν τον ίδιο αριθμό και ονόματα κλειδιών και θα πρέπει να

προσεχθεί ιδιαίτερα το όνομα του υποκλειδιού να μην είναι μια απλή λέξη που μπορεί να

συναντάται μέσα στην τιμή του υποκλειδιού γιατί τότε το πρόγραμμα θα διαβάσει από λάθος

θέση της γραμμής λάθος δεδομένα. Αυτό το πρόβλημα βέβαια υπάρχει μόνο αν έχουμε

περισσότερα από ένα υποκλειδιά.

- 82 -

6.5.Παράρτημα Β: Η μορφή του αρχείου κλάσεων

Η κάθε γραμμή του αρχείου αντιστοιχεί σε μια κλάση. Στην κάθε γραμμή του δηλώνονται

αριθμοί που αντιστοιχούν στις γραμμές του αρχείου κλειδιών ταυτοποίησης και αποτελούν τα

μέλη της κλάσης της γραμμής. Στο παρακάτω παράδειγμα το αρχείο κλειδιών ταυτοποίησης

περιέχει τέσσερις (4) κλάσεις οι οποίες έχουν τρία, τρία, τέσσερα και δύο μέλη αντίστοιχα όπως

περιγράφεται στο αρχείο κλάσεων.

Αρχείο Κλειδιών ταυτοποίησης Αρχείο κλάσεων

1 author ΟΜΗΡΟΣ title ΙΛΙΑΣ 1 5 7

2 author Παναγιώτης Στάικος title Πτυχιακή 2 9 12

3 author Μανώλης Πεπονάκης title Η πτυχιακή μου 3 4 8 11

4 author Μανόλης Πεπονάκης title Η φτυχιακή μου 6 10

5 author ΒΟΜΗΡΟΣ title ΙΛΙΑΣ

6 author Χαλιμά title Παραμύθια

7 author ΟΜΗΡΟΣ title ΙΛΙΑΣ

8 author Μανώλης Πεπονάκης title Η πτυχιακή μου μου

9 author Παναγιώτης Στάικος title Η φτυχιακή μου


11 author Μανώλης Πεπονάκης title Η πτυχιακή

12 author Παναγιώτη Στάικος title Η πτιχιακή μου

- 83 -

6.6.Παράρτημα Γ: Η μορφή του αρχείου ρυθμίσεων του υποσυστήματος

«pscluster»

Το αρχείο ρυθμίσεων είναι ένα XML αρχείο στο οποίο δηλώνεται ο χρησιμοποιούμενος

αλγόριθμος συσταδοποίησης διαμέσου του «clustering_algorithm» στοιχείου (element), η μορφή

των κλειδιών ταυτοποίησης διαμέσου του «mergekeys» στοιχείου (δηλαδή από πόσα και ποια

υποκλειδιά αποτελούνται) και το κάθε υποκλειδί ξεχωριστά διαμέσου του «mergekey»

στοιχείου. Τόσο ο αλγόριθμος συσταδοποίησης όσο και το κάθε υποκλειδί έχουν διάφορες

παραμέτρους που δηλώνονται με τη μορφή xml ιδιοτήτων (attributes). Αναλυτικά η γενική

μορφή του αρχείου ρυθμίσεων είναι η παρακάτω:

<psclustering>

<clustering_algorithm name=""

check_all=""

inter_cluster_sim=""

incremental=""

step=""

print_step_results=""

/>

<mergekeys>

<mergekey name="">

<similarity_computation doc_vector_values=""

similarity_method=""

similarity_threshold=""

similarity_threshold_upper=""

similarity_threshold_step=""

/>

</mergekey>

. . .

</mergekeys>

</psclustering>

- 84 -

Τα παραπάνω XML στοιχεία και ιδιότητες παίρνουν τις τιμές που περιγράφονται στους

παρακάτω πίνακες ανάλογα με τον χρησιμοποιούμενο αλγόριθμο συσταδοποίησης.

1. Αλγόριθμος απλού ταιριάσματος “Matching”

XML Στοιχείο XML Ιδιότητα Επιτρεπτές Τιμέςclustering_algorithm name "matching" mergekey name π.χ. "author"

2. Αλγόριθμος “Single Pass”

XML Στοιχείο XML Ιδιότητα Επιτρεπτές Τιμές Παρατηρήσειςclustering_algorithm name "Single Pass"

inter_cluster_sim "single-link" ή"complete-link" ή"average-link"

Απαραίτητο μόνο όταν similarity_method = "jaro-winkler"

incremental "yes" ή"no"

Αυξητική ή όχι συσταδοποίηση

step π.χ. 20 (20 εγγραφές τη φορά)

Απαραίτητο μόνο όταν incremental="yes"

print_step_results "yes" ή"no"

Για την εκτύπωση ενδιάμεσων αποτελεσμάτων. Απαραίτητο μόνο όταν incremental="yes".

check_all "yes" ή"no"

Για την επαναληπτική συσταδοποίηση με ένα συνδυασμό παραμέτρων κάθε φορά μέχρι να καλυφθούν όλοι. Όταν έχει την τιμή "yes" οι τιμές των ιδιοτήτων inter_cluster_sim, incremental, step, print_step_results, doc_vector_values, similarity_method αγνοούνται.

mergekey name π.χ. "author"similarity_computation doc_vector_values "none" ή

"term occurrences" ή"term frequency" ή"tfidf"

Μέθοδος υπολογισμού των τιμών διανυσμάτων των κλειδιών. Αγνοείται στην περίπτωση της "jaro-winkler".

similarity_method "matching" ή"cosine" ή"dice" ή"dice2" ή"jaccard" ή"jaro-winkler" ή"euclidean"

Μέτρο ομοιότητας

similarity_threshold π.χ. "0.7" (=70% similarity)

Κατώφλι ομοιότητας

similarity_threshold_upper π.χ. "0.95" Ανώτερο κατώφλι ομοιότητας στην περίπτωση δοκιμής αλγορίθμου σε πολλά διαφορετικά κατώφλια και λαμβάνεται υπόψη όταν η τιμή «similarity_threshold_step» είναι διάφορη του μηδενός

similarity_threshold_step π.χ. "0.05" Βήμα προόδου στην περίπτωση δοκιμής αλγορίθμου σε πολλά διαφορετικά κατώφλια

- 85 -

3. Αλγόριθμος “Hierarchical Agglomerative Clustering – HAC”

XML Στοιχείο XML Ιδιότητα Επιτρεπτές Τιμές Παρατηρήσειςclustering_algorithm name "hac"


Μέθοδος υπολογισμού ομοιότητας μεταξύ συστάδων






Για την εκτύπωση ενδιάμεσων αποτελεσμάτων. Απαραίτητο μόνο όταν incremental="yes"."


Για την επαναληπτική συσταδοποίηση με ένα συνδυασμό παραμέτρων κάθε φορά μέχρι να καλυφθούν όλοι. Όταν έχει την τιμή "yes" οι τιμές των ιδιοτήτων inter_cluster_sim, incremental, step, print_step_results, doc_vector_values, similarity_method αγνοούνται.

mergekey name π.χ. "author"similarity_computation doc_vector_values "none" ή


Μέθοδος υπολογισμού των τιμών διανυσμάτων των κλειδιών. Αγνοείται στην περίπτωση της "jaro-winkler"

similarity_method "matching" ή"cosine" ή"dice" ή"dice2" ή"jaccard" ή"jaro-winkler" ή"euclidean"






- 86 -

4. Αλγόριθμος “BiSecting K-Μeans”

XML Στοιχείο XML Ιδιότητα Επιτρεπτές Τιμές Παρατηρήσειςclustering_algorithm name "bisecting K-Μeans"


Μέθοδος υπολογισμού ομοιότητας μεταξύ συστάδων



cluster_center_point "arithmetic-mean" ή"median"

Μέθοδος υπολογισμού αντιπροσώπου συστάδας για τον K-Means

clustering_times π.χ. 10 Αριθμός φορών που θα εκτελεστεί ο αλγόριθμος K-Means




Για την εκτύπωση ενδιάμεσων αποτελεσμάτων. Απαραίτητο μόνο όταν incremental="yes".


Για την επαναληπτική συσταδοποίηση με ένα συνδυασμό παραμέτρων κάθε φορά μέχρι να καλυφθούν όλοι. Όταν έχει την τιμή "yes" οι τιμές των ιδιοτήτων inter_cluster_sim, incremental, step, print_step_results, doc_vector_values, similarity_method αγνοούνται

mergekey name π.χ. "author" Χρήση μόνο ενός κλειδιούsimilarity_computation doc_vector_values "none" ή


Μέθοδος υπολογισμού των τιμών διανυσμάτων των κλειδιών. Αγνοείται στην περίπτωση της "jaro-winkler"

similarity_method "matching" ή"cosine" ή"dice" ή"dice2" ή"jaccard""jaro-winkler" ή"euclidean"






- 87 -

Περαιτέρω ανάλυση χρησιμοποιούμενων XML ιδιοτήτων

1. XML Ιδιότητα “doc_vector_values”

Τιμή Ιδιότητας Μέθοδος υπολογισμού τιμών διανυσμάτων τεκμηρίων

Περιγραφή

“term occurrences” Term occurrences αριθμός εμφανίσεων όρου στο συγκεκριμένο τεκμήριο

“term frequency” Term frequency Συχνότητα εμφάνισης όρου στο συγκεκριμένο τεκμήριο

“tfidf” Tf-idf Συχνότητα εμφάνισης όρου στο συγκεκριμένο τεκμήριο πολλαπλασιαζόμενη με την ανάστροφη συχνότητα των τεκμηρίων στα οποία εμφανίζεται ο όρος σε όλη τη συλλογή των τεκμηρίων.

Πίνακας 1: Μέθοδος υπολογισμού τιμών διανυσμάτων τεκμηρίων που υλοποιήθηκαν στην πλατφόρμα «pscluster»

2. XML Ιδιότητα “inter_cluster_sim”

Τιμή Ιδιότητας Μέθοδος υπολογισμού ομοιότητας

Περιγραφή

“single-link” Single linkage Η ομοιότητα ισούται με την ομοιότητα των πιο «κοντινών μελών» (με τη μεγαλύτερη ομοιότητα) των δύο συστάδων

= max{ sim(d, d’) |d∈c, d’∈c’}

“complete-link” Complete linkage Η ομοιότητα ισούται με την ομοιότητα των πιο «μακρινών μελών» (με τη μικρότερη ομοιότητα) των δύο συστάδων

= min{ sim(d, d’) |d∈c, d’∈c’}

“average-link” Average linkage Η ομοιότητα ισούται με το μέσο όρο των ομοιοτήτων των μελών των δύο συστάδων

= avg{ sim(d, d’) |d∈c, d’∈c’}

- c, c’ οι δύο συστάδες- d, d’ αντιστοιχούν στα μέλη των συστάδων c και c’ αντίστοιχα

Πίνακας 2: Μέθοδοι υπολογισμού ομοιότητας μεταξύ συστάδων που υλοποιήθηκαν στην πλατφόρμα «pscluster»

- 88 -

3. XML Ιδιότητα “similarity_method”

Τιμή Ιδιότητας Μέτρο ομοιότητας Τύπος Υπολογισμού - Περιγραφή30

“matching” Matching Απλό ταίριασμα“cosine” Cosine similarity cos (d1, d2) = (d1 ● d2) / (||d1|| ||d2||)

Η γωνία που σχηματίζουν τα διανύσματα των δύο τεκμηρίων. Όσο μεγαλύτερη η γωνία τόσο πιο διαφορετικά τα τεκμήρια.

“dice” Dice’s coefficient dice (d1, d2) = (d1 ∩ d2) / (||d1||+ ||d2||)

Ο λόγος των κοινών όρων των διανυσμάτων προς το άθροισμα των όρων τους.

“dice2” Dice’s coefficient with bigrams

Dice2 (s, t) = 2 * nt / (n1 + n2)

Ο λόγος των κοινών διγράμματων (bigrams) όρων των τεκμηρίων προς το άθροισμα των διγράμματων όρων τους.

“jaccard” Jaccard similarity jaccard (d1, d2) = (d1 ∩ d2) / (d1 U d2)

“jaro-winkler” Jaro-Winkler similarity JaroWinkler(s, t) = Jaro(s, t) + (prefixLength* PREFIXSCALE * (1 - Jaro(s, t))),

Jaro(s, t) = 1/3 [|s’|/ |s| + |t’|/ |t| + (|s’|-Ts’,t’) / 2|s’| ]

“euclidean” Euclidean distance euclidean (d1, d2) = √[(d11- d21) + ( d12- d22) + … + ( d1n- d2n)]

- d1: το διάνυσμα του πρώτου τεκμηρίου, έστω (d11, d12, . . . , d1n)- d2: το διάνυσμα του δευτέρου τεκμηρίου, έστω (d21, d22, . . . , d2n)- d1 ● d2 : το εσωτερικό γινόμενο των διανυσμάτων των τεκμηρίων- ||d1|| και ||d2||: τα μέτρα των διανυσμάτων των τεκμηρίων- Διγράμματοι όροι μιας αλφαβητικής ακολουθίας: όλα τα ζεύγη συνεχόμενων χαρακτήρων- nt: ο αριθμός των κοινών διγράμματων όρων των δύο τεκμηρίων- n1: ο αριθμός των διγράμματων όρων του πρώτου τεκμηρίου- n2: ο αριθμός των διγράμματων όρων του δευτέρου τεκμηρίου- |s|: ο αριθμός των χαρακτήρων μιας αλφαβητικής ακολουθίας- |s’|: ο αριθμός των χαρακτήρων της s που είναι «κοινά» με την t. Συγκεκριμένα για κάθε

χαρακτήρα της s αν εμφανίζεται στην ίδια θέση (ή σε κάποια κοντινή) στην t τότε θεωρείται κοινός.

- |t’|: ο αριθμός των χαρακτήρων της t που είναι «κοινά» με την s. Συγκεκριμένα για κάθε χαρακτήρα της t αν εμφανίζεται στην ίδια θέση (ή σε κάποια κοντινή) στην s τότε θεωρείται κοινός.

- Ts’,t’:ο αριθμός των μεταγραμματισμών της s’ σχετικά με την t’- prefixLength: το μήκος του κοινού προθέματος των s, t- PREFIXSCALE: παράγοντας που ενισχύει την τιμή της JaroWinkler μεταξύ δύο

αλφαβητικών ακολουθιών που έχουν κοινά προθέματα.Πίνακας 3: Μέτρα ομοιότητας που υλοποιήθηκαν στην πλατφόρμα «pscluster»

30 http://www.dcs.shef.ac.uk/%7Esam/stringmetrics.html [τελευταία πρόσβαση 27/01/2010]

- 89 -

http://www.dcs.shef.ac.uk/~sam/stringmetrics.html

6.7.Παράρτημα Δ: Οι παράμετροι εκκίνησης του προγράμματος «pscluster»

Παράμετρος Επεξήγηση

-c configuration filename Το αρχείο ρυθμίσεων του προγράμματος (Παράρτημα Γ)

-f mergekeys filename Το αρχείο με τα κλειδιά των εγγραφών. Ένα κλειδί ανά

γραμμή. (Παράρτημα Α)

-r results filename Το αρχείο που θα αποθηκευτούν τα αποτελέσματα της

συσταδοποίησης. Τα αποτελέσματα είναι σε XML μορφή.

-x results stylesheet filename <optional>

XSLT Stylesheet για την εμφάνιση των αποτελεσμάτων της

συσταδοποίησης σε html σελίδα.

-s classes filename <optional>

Το αρχείο με τις κλάσεις (Παράρτημα Β). Όταν δίνεται

υπολογίζονται τα μέτρα αξιολόγησης F-Measure, Purity και

Normalized Entropy.

-l log filename <optional>

Κυρίως για λόγους debugging αλλά και για την εκτύπωση του

πίνακα εγγύτητας (ομοιότητες μεταξύ των κλειδιών) και

κάποιων συγκεντρωτικών τιμών των μέτρων αξιολόγησης στην

περίπτωση της επαναληπτικής συσταδοποίησης. Συνδυάζεται

και με την παράμετρο –p.

-p sims <optional>

Εκτυπώνει τον πίνακα εγγύτητας έχοντας ως παραμέτρους

υπολογισμού αυτές που δόθηκαν στο αρχείο παραμέτρων.

-p sims_all <optional>

Εκτυπώνει τον πίνακα εγγύτητας για όλες τις παραμέτρους

υπολογισμού που έχουν υλοποιηθεί.

-n <optional>

Δεν γίνεται συσταδοποίησης. Χρησιμοποιείται σε συνδυασμό

με την παράμετρο –p για τον υπολογισμό απλά του πίνακα

εγγύτητας.

- 90 -

6.8.Παράρτημα Ε: Αποτελέσματα Πειραμάτων

6.8.1. Πείραμα 1: Απλό δείγμα (Δείγμα 1)

Το δείγμα αυτό αποτελείται από 12 εγγραφές οι οποίες συνιστούν 4 διαφορετικές κλάσεις όπως

απεικονίζεται παρακάτω.

Αρχείο Κλειδιών ταυτοποίησης Αρχείο κλάσεων

1 author ΟΜΗΡΟΣ title ΙΛΙΑΣ 1 5 7

2 author Παναγιώτης Στάικος title Πτυχιακή 2 9 12

3 author Μανώλης Πεπονάκης title Η πτυχιακή μου 3 4 8 11

4 author Μανόλης Πεπονάκης title Η φτυχιακή μου 6 10

5 author ΒΟΜΗΡΟΣ title ΙΛΙΑΣ


7 author ΟΜΗΡΟΣ title ΙΛΙΑΣ

8 author Μανώλης Πεπονάκης title Η πτυχιακή μου μου

9 author Παναγιώτης Στάικος title Η φτυχιακή μου


11 author Μανώλης Πεπονάκης title Η πτυχιακή

12 author Παναγιώτη Στάικος title Η πτιχιακή μου

Οι Κλάσεις

1η κλάση ΟΜΗΡΟΥ ΙΛΙΑΔΑ

2η κλάση Η ΠΤΥΧΙΑΚΗ ΤΟΥ ΠΑΝΑΓΙΩΤΗ ΣΤΑΪΚΟΥ

3η κλάση Η ΠΤΥΧΙΑΚΗ ΤΟΥ ΜΑΝΟΛΗ ΠΕΠΟΝΑΚΗ

4η κλάση ΤΑ ΠΑΡΑΜΥΘΙΑ ΤΗΣ ΧΑΛΙΜΑΣ

- 91 -

Στους παρακάτω πίνακες παρουσιάζονται ενδεικτικά κομμάτια (οι συνδυασμοί μέτρων

ομοιότητας, τύπων τιμών διανυσμάτων και κατώφλι ομοιότητας που αποδίδουν καλύτερα) από

τα αποτελέσματα συσταδοποίησης όπως παράγονται στην πλατφόρμα «pscluster»

Αλγόριθμος: “Matching”Similarity Metric Document Vector

ValuesSimilarity Threshold Docs Clusters F-Measure Purity Entropy

- - - 12 8 0,78 1 0

Αλγόριθμος: “Single Pass”– Μη ΑυξητικόςSimilarity Metric Document Vector

ValuesSimilarity Threshold Docs Clusters F-Measure Purity Entropy

cosine term-occ 0,65 12 7 0,85 1 0cosine term-freq 0,65 12 7 0,85 1 0cosine tfidf 0,5 12 8 0,78 1 0dice term-occ 0,65 12 7 0,85 1 0dice term-freq 0,65 12 7 0,85 1 0dice tfidf 0,5 12 8 0,78 1 0dice 2 - 0,55 12 4 1 1 0Jaccard term-occ 0,5 12 8 0,78 1 0Jaccard term-freq 0,5 12 8 0,78 1 0Jaccard tfidf 0,5 12 8 0,78 1 0s - jaro-winkler - 0,8 12 4 1 1 0s - jaro-winkler - 0,85 12 5 0,95 1 0c - jaro-winkler - 0,8 12 4 1 1 0c - jaro-winkler - 0,85 12 5 0,95 1 0a - jaro-winkler - 0,8 12 4 1 1 0a - jaro-winkler - 0,85 12 5 0,95 1 0

Αλγόριθμος: HAC – Μη ΑυξητικόςInter-Cluster Similarity Method

Similarity Metric

Document Vector Values

Similarity Threshold Docs Clusters F-Measure Purity Entropy

single-link cosine term-occ 0,65 12 7 0,85 1 0complete-link cosine term-occ 0,65 12 7 0,85 1 0average-link cosine term-occ 0,65 12 7 0,85 1 0single-link cosine term-freq 0,65 12 7 0,85 1 0complete-link cosine term-freq 0,65 12 7 0,85 1 0average-link cosine term-freq 0,65 12 7 0,85 1 0single-link cosine tfidf 0,5 12 8 0,78 1 0complete-link cosine tfidf 0,5 12 8 0,78 1 0average-link cosine tfidf 0,5 12 8 0,78 1 0single-link dice term-occ 0,65 12 7 0,85 1 0complete-link dice term-occ 0,65 12 7 0,85 1 0average-link dice term-occ 0,65 12 7 0,85 1 0single-link dice term-freq 0,65 12 7 0,85 1 0complete-link dice term-freq 0,65 12 7 0,85 1 0average-link dice term-freq 0,65 12 7 0,85 1 0single-link dice tfidf 0,5 12 8 0,78 1 0complete-link dice tfidf 0,5 12 8 0,78 1 0average-link dice tfidf 0,5 12 8 0,78 1 0

- 92 -

single-link dice 2 - 0,55 12 4 1 1 0complete-link dice 2 - 0,55 12 4 1 1 0average-link dice 2 - 0,55 12 4 1 1 0single-link Jaccard term-occ 0,5 12 8 0,78 1 0complete-link Jaccard term-occ 0,5 12 8 0,78 1 0average-link Jaccard term-occ 0,5 12 8 0,78 1 0single-link Jaccard term-freq 0,5 12 8 0,78 1 0complete-link Jaccard term-freq 0,5 12 8 0,78 1 0average-link Jaccard term-freq 0,5 12 8 0,78 1 0single-link Jaccard tfidf 0,5 12 8 0,78 1 0complete-link Jaccard tfidf 0,5 12 8 0,78 1 0average-link Jaccard tfidf 0,5 12 8 0,78 1 0

single-link jaro-winkler - 0,8 12 4 1 1 0

single-link jaro-winkler - 0,85 12 5 0,95 1 0

complete-link jaro-winkler - 0,8 12 4 1 1 0

complete-link jaro-winkler - 0,85 12 5 0,95 1 0

average-link jaro-winkler - 0,8 12 4 1 1 0

average-link jaro-winkler - 0,85 12 5 0,95 1 0

Με έντονη και πλάγια γραφή τονίζεται η καλύτερη περίπτωση συσταδοποίησης. Ο μη-αυξητικός

HAC είναι ίδιος με τον αυξητικό HAC γιατί ο αριθμός των δειγμάτων είναι μικρότερος του

επιλεγμένου βήματος των 20 δειγμάτων για συσταδοποίηση κάθε φορά.

- 93 -

6.8.2. Πείραμα 2: Ενοποιημένο δείγμα από συλλογικούς καταλόγους (Δείγμα

2)

Το δείγμα αυτό αντιστοιχεί σε 133 εγγραφές οι οποίες προέκυψαν μετά από επεξεργασία στα

επιστρεφόμενα αποτελέσματα αναζητήσεων στον Συλλογικό Κατάλογο των Ελληνικών

Ακαδημαϊκών Βιβλιοθηκών (ΣΚΕΑΒ) και στον Συλλογικό Κατάλογο των Δημόσιων

Βιβλιοθηκών για ίδια έργα (works κατά FRBR). Το δείγμα αποτελείται από κλειδιά

ταυτοποίησης που παρήχθησαν από τις παραπάνω εγγραφές με τη χρήση του προγράμματος31

κατασκευής κλειδιών κατά FRBR της Βιβλιοθήκης του Κογκρέσου (Library of Congress),

προσαρμοσμένο σε δεδομένα UNIMARC (Sfakakis, Kapidakis - 2009). Το δείγμα αναφέρεται

σε 5 διαφορετικά έργα (works κατά FRBR) από τα οποία τα δύο («Ζορμπάς» του Καζαντζάκη,

«Άμλετ» του Σαίξπηρ) είναι από τον Συλλογικό Κατάλογο των Ελληνικών Ακαδημαϊκών

Βιβλιοθηκών (ΣΚΕΑΒ) και τα τρία («Ιλιάδα» του Όμηρου, «Οδύσσεια» του Όμηρου,

«Τελευταίος Πειρασμός» του Καζαντζάκη) από τον Συλλογικό Κατάλογο των Δημόσιων

Βιβλιοθηκών. Τα κλειδιά ταυτοποίησης αποτελούνται από τα υποκλειδιά «title» και «author».

Θεωρείται ότι οι εγγραφές που επιλέγηκαν ανήκουν στον ίδιο τύπο υλικού και συγκεκριμένα

στην κατηγορία «Γλωσσικό Υλικό - Έντυπο» οπότε και δεν προστέθηκε αντίστοιχο υποκλειδί.

Η απουσία της πληροφορίας (αυτού του υποκλειδιού) δεν επηρεάζει την όλη διαδικασία του

clustering αφού η τιμή της είναι κωδικοποιημένη με σταθερό τρόπο χωρίς την ύπαρξη λαθών.

Στους παρακάτω πίνακες και γραφήματα παρουσιάζονται τα αποτελέσματα της εφαρμογής της

συσταδοποίησης (χρόνοι εκτέλεσης, μέτρα αξιολόγησης) στο παραπάνω δείγμα πρώτα με τη

χρήση δύο υποκλειδιών («author», «title») και μετά με την αντιμετώπιση του κλειδιού ως

ενιαίου.

31 http://www.loc.gov/marc/marc-functional-analysis/tool.html [τελευταία επίσκεψη 27/01/2010]

- 94 -


6.8.2.1. Χρήση δύο υποκλειδιών (συγγραφέας, τίτλος) – Πίνακες αξιολόγησης

Δείγμα 2: Μέσος χρόνος εκτέλεσης (σε secs) αλγορίθμων ανά μετρική ομοιότητας(Μη-Αυξητική μορφή - χρήση υποκλειδιών )

0

0,2

0,4

0,6

0,8

1

1,2

1,4

1,6

1,8

2



bigrams


jaro-winkler-c

jaro-winkler-s

-


Δείγμα 2: Μέσος χρόνος εκτέλεσης (σε secs) αλγορίθμων ανά μετρική ομοιότητας(Αυξητική μορφή - χρήση υποκλειδιών )

0

0,2

0,4

0,6

0,8

1

1,2

1,4

1,6



bigrams


jaro-winkler-c

jaro-winkler-s

-


Γραφήματα Α

- 95 -

Δείγμα 2: Μέγιστο F-Measure αλγορίθμων ανά μετρική ομοιότητας(Μη-Αυξητική μορφή - χρήση υποκλειδιών)

0,6

0,65

0,7

0,75

0,8



bigrams


jaro-winkler-c

jaro-winkler-s

-


Δείγμα 2: Μέγιστο F-Measure αλγορίθμων ανά μετρική ομοιότητας(Αυξητική μορφή - χρήση υποκλειδιών)

0,6

0,65

0,7

0,75

0,8



bigrams


jaro-winkler-c

jaro-winkler-s

-


Γραφήματα Β

- 96 -


( Μη-Αυξητική μορφή - χρήση υποκλειδιών )

0,6

0,65

0,7

0,75

0,8


tfidf -

cosine -

0,30,350,40,450,50,550,60,650,70,750,80,850,90,95


( Αυξητική μορφή - χρήση υποκλειδιών )

0,6

0,65

0,7

0,75

0,8


tfidf -

cosine -

0,30,350,40,450,50,550,60,650,70,750,80,850,90,95

Γραφήματα Γ

- 97 -


(Μη-Αυξητική μορφή - χρήση υποκλειδιών )

0,3

0,35

0,4

0,45

0,5

0,55

0,6

0,65

0,7

0,75

0,8


- - - -


0,300,350,400,450,500,550,600,650,700,750,800,850,900,95


(Αυξητική μορφή - χρήση υποκλειδιών )

0,3

0,35

0,4

0,45

0,5

0,55

0,6

0,65

0,7

0,75

0,8


- - - -


0,300,350,400,450,500,550,600,650,700,750,800,850,900,95

Γραφήματα Δ

- 98 -

6.8.2.2. Χρήση δύο υποκλειδιών (συγγραφέας, τίτλος) – Πλήρη αποτελέσματα

αλγορίθμου “ Single Pass ”

Τα παρακάτω αποτελέσματα αποτελούν μορφοποιημένη έξοδο της διαδικασίας συσταδοποίησης

του υποσυστήματος «pscluster».

Πίνακας Α

Incremental Duration Docs Clusters F-Measure Purity Entropy Similarity MetricSimilarity Values

Similarity Threshold

no 0.01 secs 133 22 0.78 1.00 0.00 cosine term-occ 0.30no 0.01 secs 133 23 0.78 1.00 0.00 cosine term-occ 0.35no 0.01 secs 133 24 0.78 1.00 0.00 cosine term-occ 0.40no 0.01 secs 133 25 0.78 1.00 0.00 cosine term-occ 0.45no 0.01 secs 133 27 0.77 1.00 0.00 cosine term-occ 0.50no 0.01 secs 133 28 0.77 1.00 0.00 cosine term-occ 0.55no 0.01 secs 133 29 0.75 1.00 0.00 cosine term-occ 0.60no 0.01 secs 133 30 0.75 1.00 0.00 cosine term-occ 0.65no 0.01 secs 133 30 0.75 1.00 0.00 cosine term-occ 0.70no 0.01 secs 133 40 0.67 1.00 0.00 cosine term-occ 0.75no 0.01 secs 133 41 0.64 1.00 0.00 cosine term-occ 0.80no 0.01 secs 133 46 0.63 1.00 0.00 cosine term-occ 0.85no 0.01 secs 133 49 0.61 1.00 0.00 cosine term-occ 0.90no 0.01 secs 133 50 0.61 1.00 0.00 cosine term-occ 0.95no 0.01 secs 133 22 0.78 1.00 0.00 cosine tf 0.30no 0.01 secs 133 23 0.78 1.00 0.00 cosine tf 0.35no 0.01 secs 133 24 0.78 1.00 0.00 cosine tf 0.40no 0.01 secs 133 25 0.78 1.00 0.00 cosine tf 0.45no 0.01 secs 133 27 0.77 1.00 0.00 cosine tf 0.50no 0.01 secs 133 28 0.77 1.00 0.00 cosine tf 0.55no 0.01 secs 133 28 0.77 1.00 0.00 cosine tf 0.60no 0.01 secs 133 30 0.75 1.00 0.00 cosine tf 0.65no 0.01 secs 133 30 0.75 1.00 0.00 cosine tf 0.70no 0.01 secs 133 40 0.67 1.00 0.00 cosine tf 0.75no 0.01 secs 133 41 0.64 1.00 0.00 cosine tf 0.80no 0.01 secs 133 46 0.63 1.00 0.00 cosine tf 0.85no 0.01 secs 133 49 0.61 1.00 0.00 cosine tf 0.90no 0.01 secs 133 50 0.61 1.00 0.00 cosine tf 0.95no 0.01 secs 133 26 0.77 1.00 0.00 cosine tfidf 0.30no 0.01 secs 133 27 0.77 1.00 0.00 cosine tfidf 0.35no 0.01 secs 133 28 0.76 1.00 0.00 cosine tfidf 0.40no 0.01 secs 133 30 0.72 1.00 0.00 cosine tfidf 0.45no 0.01 secs 133 34 0.70 1.00 0.00 cosine tfidf 0.50no 0.01 secs 133 35 0.69 1.00 0.00 cosine tfidf 0.55no 0.01 secs 133 37 0.67 1.00 0.00 cosine tfidf 0.60no 0.01 secs 133 39 0.66 1.00 0.00 cosine tfidf 0.65no 0.01 secs 133 42 0.64 1.00 0.00 cosine tfidf 0.70no 0.01 secs 133 43 0.64 1.00 0.00 cosine tfidf 0.75no 0.01 secs 133 47 0.62 1.00 0.00 cosine tfidf 0.80no 0.02 secs 133 49 0.61 1.00 0.00 cosine tfidf 0.85no 0.01 secs 133 49 0.61 1.00 0.00 cosine tfidf 0.90

- 99 -

no 0.01 secs 133 49 0.61 1.00 0.00 cosine tfidf 0.95no 0.00 secs 133 22 0.78 1.00 0.00 dice's coefficient term-occ 0.30no 0.01 secs 133 25 0.78 1.00 0.00 dice's coefficient term-occ 0.35no 0.01 secs 133 27 0.77 1.00 0.00 dice's coefficient term-occ 0.40no 0.01 secs 133 27 0.77 1.00 0.00 dice's coefficient term-occ 0.45no 0.01 secs 133 28 0.77 1.00 0.00 dice's coefficient term-occ 0.50no 0.01 secs 133 28 0.77 1.00 0.00 dice's coefficient term-occ 0.55no 0.01 secs 133 30 0.75 1.00 0.00 dice's coefficient term-occ 0.60no 0.01 secs 133 30 0.75 1.00 0.00 dice's coefficient term-occ 0.65no 0.01 secs 133 36 0.71 1.00 0.00 dice's coefficient term-occ 0.70no 0.01 secs 133 40 0.67 1.00 0.00 dice's coefficient term-occ 0.75no 0.01 secs 133 46 0.63 1.00 0.00 dice's coefficient term-occ 0.80no 0.01 secs 133 46 0.63 1.00 0.00 dice's coefficient term-occ 0.85no 0.01 secs 133 49 0.61 1.00 0.00 dice's coefficient term-occ 0.90no 0.01 secs 133 50 0.61 1.00 0.00 dice's coefficient term-occ 0.95no 0.01 secs 133 23 0.78 1.00 0.00 dice's coefficient tf 0.30no 0.01 secs 133 25 0.78 1.00 0.00 dice's coefficient tf 0.35no 0.01 secs 133 27 0.77 1.00 0.00 dice's coefficient tf 0.40no 0.01 secs 133 27 0.77 1.00 0.00 dice's coefficient tf 0.45no 0.01 secs 133 28 0.77 1.00 0.00 dice's coefficient tf 0.50no 0.01 secs 133 28 0.77 1.00 0.00 dice's coefficient tf 0.55no 0.01 secs 133 29 0.77 1.00 0.00 dice's coefficient tf 0.60no 0.01 secs 133 30 0.75 1.00 0.00 dice's coefficient tf 0.65no 0.01 secs 133 36 0.71 1.00 0.00 dice's coefficient tf 0.70no 0.01 secs 133 40 0.67 1.00 0.00 dice's coefficient tf 0.75no 0.01 secs 133 46 0.63 1.00 0.00 dice's coefficient tf 0.80no 0.01 secs 133 46 0.63 1.00 0.00 dice's coefficient tf 0.85no 0.01 secs 133 49 0.61 1.00 0.00 dice's coefficient tf 0.90no 0.01 secs 133 50 0.61 1.00 0.00 dice's coefficient tf 0.95no 0.01 secs 133 27 0.77 1.00 0.00 dice's coefficient tfidf 0.30no 0.01 secs 133 28 0.76 1.00 0.00 dice's coefficient tfidf 0.35no 0.01 secs 133 29 0.74 1.00 0.00 dice's coefficient tfidf 0.40no 0.01 secs 133 31 0.70 1.00 0.00 dice's coefficient tfidf 0.45no 0.01 secs 133 34 0.70 1.00 0.00 dice's coefficient tfidf 0.50no 0.01 secs 133 36 0.69 1.00 0.00 dice's coefficient tfidf 0.55no 0.01 secs 133 37 0.67 1.00 0.00 dice's coefficient tfidf 0.60no 0.01 secs 133 40 0.66 1.00 0.00 dice's coefficient tfidf 0.65no 0.01 secs 133 44 0.63 1.00 0.00 dice's coefficient tfidf 0.70no 0.01 secs 133 44 0.63 1.00 0.00 dice's coefficient tfidf 0.75no 0.01 secs 133 49 0.61 1.00 0.00 dice's coefficient tfidf 0.80no 0.01 secs 133 49 0.61 1.00 0.00 dice's coefficient tfidf 0.85no 0.01 secs 133 49 0.61 1.00 0.00 dice's coefficient tfidf 0.90no 0.01 secs 133 50 0.61 1.00 0.00 dice's coefficient tfidf 0.95no 1.04 secs 133 15 0.62 0.75 0.32 dice's coefficient with bigrams - 0.30no 0.96 secs 133 16 0.69 0.81 0.21 dice's coefficient with bigrams - 0.35no 0.91 secs 133 19 0.67 0.83 0.18 dice's coefficient with bigrams - 0.40no 0.91 secs 133 21 0.72 0.92 0.12 dice's coefficient with bigrams - 0.45no 0.90 secs 133 23 0.63 0.83 0.16 dice's coefficient with bigrams - 0.50no 0.89 secs 133 24 0.64 0.83 0.15 dice's coefficient with bigrams - 0.55no 0.89 secs 133 25 0.62 0.83 0.15 dice's coefficient with bigrams - 0.60no 0.89 secs 133 29 0.75 0.98 0.02 dice's coefficient with bigrams - 0.65no 0.88 secs 133 32 0.73 1.00 0.00 dice's coefficient with bigrams - 0.70no 0.88 secs 133 35 0.72 1.00 0.00 dice's coefficient with bigrams - 0.75no 0.87 secs 133 37 0.72 1.00 0.00 dice's coefficient with bigrams - 0.80no 0.87 secs 133 38 0.70 1.00 0.00 dice's coefficient with bigrams - 0.85no 0.86 secs 133 44 0.66 1.00 0.00 dice's coefficient with bigrams - 0.90no 0.86 secs 133 45 0.66 1.00 0.00 dice's coefficient with bigrams - 0.95

- 100 -

no 0.01 secs 133 27 0.77 1.00 0.00 Jaccard's coefficient term-occ 0.30no 0.01 secs 133 28 0.77 1.00 0.00 Jaccard's coefficient term-occ 0.35no 0.01 secs 133 28 0.77 1.00 0.00 Jaccard's coefficient term-occ 0.40no 0.01 secs 133 30 0.75 1.00 0.00 Jaccard's coefficient term-occ 0.45no 0.01 secs 133 36 0.71 1.00 0.00 Jaccard's coefficient term-occ 0.50no 0.01 secs 133 37 0.69 1.00 0.00 Jaccard's coefficient term-occ 0.55no 0.01 secs 133 40 0.67 1.00 0.00 Jaccard's coefficient term-occ 0.60no 0.01 secs 133 41 0.64 1.00 0.00 Jaccard's coefficient term-occ 0.65no 0.01 secs 133 46 0.63 1.00 0.00 Jaccard's coefficient term-occ 0.70no 0.01 secs 133 48 0.61 1.00 0.00 Jaccard's coefficient term-occ 0.75no 0.01 secs 133 49 0.61 1.00 0.00 Jaccard's coefficient term-occ 0.80no 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient term-occ 0.85no 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient term-occ 0.90no 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient term-occ 0.95no 0.01 secs 133 27 0.77 1.00 0.00 Jaccard's coefficient tf 0.30no 0.01 secs 133 28 0.77 1.00 0.00 Jaccard's coefficient tf 0.35no 0.01 secs 133 28 0.77 1.00 0.00 Jaccard's coefficient tf 0.40no 0.01 secs 133 29 0.77 1.00 0.00 Jaccard's coefficient tf 0.45no 0.01 secs 133 36 0.71 1.00 0.00 Jaccard's coefficient tf 0.50no 0.01 secs 133 37 0.69 1.00 0.00 Jaccard's coefficient tf 0.55no 0.01 secs 133 40 0.67 1.00 0.00 Jaccard's coefficient tf 0.60no 0.01 secs 133 41 0.64 1.00 0.00 Jaccard's coefficient tf 0.65no 0.01 secs 133 46 0.63 1.00 0.00 Jaccard's coefficient tf 0.70no 0.01 secs 133 48 0.61 1.00 0.00 Jaccard's coefficient tf 0.75no 0.01 secs 133 49 0.61 1.00 0.00 Jaccard's coefficient tf 0.80no 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient tf 0.85no 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient tf 0.90no 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient tf 0.95no 0.01 secs 133 33 0.70 1.00 0.00 Jaccard's coefficient tfidf 0.30no 0.01 secs 133 36 0.69 1.00 0.00 Jaccard's coefficient tfidf 0.35no 0.01 secs 133 36 0.69 1.00 0.00 Jaccard's coefficient tfidf 0.40no 0.01 secs 133 39 0.66 1.00 0.00 Jaccard's coefficient tfidf 0.45no 0.01 secs 133 42 0.64 1.00 0.00 Jaccard's coefficient tfidf 0.50no 0.01 secs 133 44 0.63 1.00 0.00 Jaccard's coefficient tfidf 0.55no 0.01 secs 133 44 0.63 1.00 0.00 Jaccard's coefficient tfidf 0.60no 0.01 secs 133 47 0.62 1.00 0.00 Jaccard's coefficient tfidf 0.65no 0.01 secs 133 49 0.61 1.00 0.00 Jaccard's coefficient tfidf 0.70no 0.01 secs 133 49 0.61 1.00 0.00 Jaccard's coefficient tfidf 0.75no 0.01 secs 133 49 0.61 1.00 0.00 Jaccard's coefficient tfidf 0.80no 0.01 secs 133 49 0.61 1.00 0.00 Jaccard's coefficient tfidf 0.85no 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient tfidf 0.90no 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient tfidf 0.95no 0.49 secs 133 4 0.56 0.52 0.65 jaro-winkler (single-link) - 0.30no 0.49 secs 133 4 0.56 0.52 0.65 jaro-winkler (single-link) - 0.35no 0.47 secs 133 5 0.47 0.42 0.77 jaro-winkler (single-link) - 0.40no 0.40 secs 133 7 0.48 0.56 0.57 jaro-winkler (single-link) - 0.45no 0.41 secs 133 9 0.49 0.59 0.52 jaro-winkler (single-link) - 0.50no 0.40 secs 133 11 0.49 0.59 0.51 jaro-winkler (single-link) - 0.55no 0.40 secs 133 14 0.48 0.60 0.51 jaro-winkler (single-link) - 0.60no 0.40 secs 133 17 0.58 0.72 0.36 jaro-winkler (single-link) - 0.65no 0.39 secs 133 19 0.69 0.86 0.23 jaro-winkler (single-link) - 0.70no 0.37 secs 133 24 0.76 0.95 0.07 jaro-winkler (single-link) - 0.75no 0.37 secs 133 27 0.76 0.98 0.03 jaro-winkler (single-link) - 0.80no 0.37 secs 133 31 0.75 0.98 0.03 jaro-winkler (single-link) - 0.85no 0.36 secs 133 37 0.68 0.98 0.02 jaro-winkler (single-link) - 0.90no 0.36 secs 133 46 0.62 1.00 0.00 jaro-winkler (single-link) - 0.95no 0.45 secs 133 6 0.48 0.55 0.62 jaro-winkler (complete-link) - 0.30

- 101 -

no 0.45 secs 133 6 0.48 0.55 0.60 jaro-winkler (complete-link) - 0.35no 0.41 secs 133 7 0.49 0.59 0.55 jaro-winkler (complete-link) - 0.40no 0.41 secs 133 8 0.49 0.59 0.54 jaro-winkler (complete-link) - 0.45no 0.40 secs 133 13 0.48 0.64 0.48 jaro-winkler (complete-link) - 0.50no 0.40 secs 133 15 0.62 0.77 0.29 jaro-winkler (complete-link) - 0.55no 0.40 secs 133 18 0.62 0.76 0.29 jaro-winkler (complete-link) - 0.60no 0.37 secs 133 20 0.64 0.79 0.20 jaro-winkler (complete-link) - 0.65no 0.38 secs 133 24 0.74 0.94 0.09 jaro-winkler (complete-link) - 0.70no 0.38 secs 133 27 0.74 0.95 0.06 jaro-winkler (complete-link) - 0.75no 0.37 secs 133 29 0.73 0.97 0.05 jaro-winkler (complete-link) - 0.80no 0.36 secs 133 34 0.67 0.98 0.03 jaro-winkler (complete-link) - 0.85no 0.36 secs 133 37 0.68 0.98 0.02 jaro-winkler (complete-link) - 0.90no 0.36 secs 133 46 0.62 1.00 0.00 jaro-winkler (complete-link) - 0.95no 0.47 secs 133 5 0.48 0.53 0.65 jaro-winkler (average-link) - 0.30no 0.46 secs 133 5 0.48 0.53 0.65 jaro-winkler (average-link) - 0.35no 0.45 secs 133 6 0.48 0.56 0.58 jaro-winkler (average-link) - 0.40no 0.40 secs 133 7 0.49 0.58 0.54 jaro-winkler (average-link) - 0.45no 0.40 secs 133 10 0.49 0.59 0.51 jaro-winkler (average-link) - 0.50no 0.40 secs 133 13 0.48 0.60 0.51 jaro-winkler (average-link) - 0.55no 0.40 secs 133 16 0.48 0.62 0.48 jaro-winkler (average-link) - 0.60no 0.40 secs 133 17 0.58 0.72 0.36 jaro-winkler (average-link) - 0.65no 0.38 secs 133 20 0.64 0.78 0.22 jaro-winkler (average-link) - 0.70no 0.37 secs 133 24 0.76 0.95 0.07 jaro-winkler (average-link) - 0.75no 0.37 secs 133 28 0.76 0.98 0.03 jaro-winkler (average-link) - 0.80no 0.36 secs 133 32 0.74 0.98 0.03 jaro-winkler (average-link) - 0.85no 0.36 secs 133 37 0.68 0.98 0.02 jaro-winkler (average-link) - 0.90no 0.36 secs 133 46 0.62 1.00 0.00 jaro-winkler (average-link) - 0.95yes:20 0.01 secs 133 22 0.78 1.00 0.00 cosine term-occ 0.30yes:20 0.01 secs 133 23 0.78 1.00 0.00 cosine term-occ 0.35yes:20 0.01 secs 133 24 0.78 1.00 0.00 cosine term-occ 0.40yes:20 0.01 secs 133 25 0.78 1.00 0.00 cosine term-occ 0.45yes:20 0.01 secs 133 27 0.77 1.00 0.00 cosine term-occ 0.50yes:20 0.01 secs 133 28 0.77 1.00 0.00 cosine term-occ 0.55yes:20 0.01 secs 133 29 0.75 1.00 0.00 cosine term-occ 0.60yes:20 0.01 secs 133 30 0.75 1.00 0.00 cosine term-occ 0.65yes:20 0.01 secs 133 30 0.75 1.00 0.00 cosine term-occ 0.70yes:20 0.01 secs 133 40 0.67 1.00 0.00 cosine term-occ 0.75yes:20 0.01 secs 133 41 0.64 1.00 0.00 cosine term-occ 0.80yes:20 0.01 secs 133 46 0.63 1.00 0.00 cosine term-occ 0.85yes:20 0.01 secs 133 49 0.61 1.00 0.00 cosine term-occ 0.90yes:20 0.01 secs 133 50 0.61 1.00 0.00 cosine term-occ 0.95yes:20 0.01 secs 133 22 0.78 1.00 0.00 cosine tf 0.30yes:20 0.01 secs 133 23 0.78 1.00 0.00 cosine tf 0.35yes:20 0.01 secs 133 24 0.78 1.00 0.00 cosine tf 0.40yes:20 0.01 secs 133 25 0.78 1.00 0.00 cosine tf 0.45yes:20 0.01 secs 133 27 0.77 1.00 0.00 cosine tf 0.50yes:20 0.01 secs 133 28 0.77 1.00 0.00 cosine tf 0.55yes:20 0.01 secs 133 28 0.77 1.00 0.00 cosine tf 0.60yes:20 0.01 secs 133 30 0.75 1.00 0.00 cosine tf 0.65yes:20 0.01 secs 133 30 0.75 1.00 0.00 cosine tf 0.70yes:20 0.01 secs 133 40 0.67 1.00 0.00 cosine tf 0.75yes:20 0.01 secs 133 41 0.64 1.00 0.00 cosine tf 0.80yes:20 0.01 secs 133 46 0.63 1.00 0.00 cosine tf 0.85yes:20 0.01 secs 133 49 0.61 1.00 0.00 cosine tf 0.90yes:20 0.01 secs 133 50 0.61 1.00 0.00 cosine tf 0.95yes:20 0.01 secs 133 28 0.74 1.00 0.00 cosine tfidf 0.30yes:20 0.01 secs 133 31 0.71 0.99 0.01 cosine tfidf 0.35

- 102 -

yes:20 0.01 secs 133 33 0.71 1.00 0.00 cosine tfidf 0.40yes:20 0.01 secs 133 34 0.70 1.00 0.00 cosine tfidf 0.45yes:20 0.01 secs 133 34 0.70 1.00 0.00 cosine tfidf 0.50yes:20 0.01 secs 133 37 0.69 1.00 0.00 cosine tfidf 0.55yes:20 0.01 secs 133 40 0.69 1.00 0.00 cosine tfidf 0.60yes:20 0.01 secs 133 41 0.67 1.00 0.00 cosine tfidf 0.65yes:20 0.01 secs 133 42 0.64 1.00 0.00 cosine tfidf 0.70yes:20 0.01 secs 133 43 0.64 1.00 0.00 cosine tfidf 0.75yes:20 0.01 secs 133 45 0.64 1.00 0.00 cosine tfidf 0.80yes:20 0.02 secs 133 50 0.61 1.00 0.00 cosine tfidf 0.85yes:20 0.01 secs 133 50 0.61 1.00 0.00 cosine tfidf 0.90yes:20 0.01 secs 133 50 0.61 1.00 0.00 cosine tfidf 0.95yes:20 0.01 secs 133 22 0.78 1.00 0.00 dice's coefficient term-occ 0.30yes:20 0.02 secs 133 25 0.78 1.00 0.00 dice's coefficient term-occ 0.35yes:20 0.01 secs 133 27 0.77 1.00 0.00 dice's coefficient term-occ 0.40yes:20 0.01 secs 133 27 0.77 1.00 0.00 dice's coefficient term-occ 0.45yes:20 0.01 secs 133 28 0.77 1.00 0.00 dice's coefficient term-occ 0.50yes:20 0.01 secs 133 28 0.77 1.00 0.00 dice's coefficient term-occ 0.55yes:20 0.01 secs 133 30 0.75 1.00 0.00 dice's coefficient term-occ 0.60yes:20 0.01 secs 133 30 0.75 1.00 0.00 dice's coefficient term-occ 0.65yes:20 0.01 secs 133 36 0.71 1.00 0.00 dice's coefficient term-occ 0.70yes:20 0.01 secs 133 40 0.67 1.00 0.00 dice's coefficient term-occ 0.75yes:20 0.01 secs 133 46 0.63 1.00 0.00 dice's coefficient term-occ 0.80yes:20 0.01 secs 133 46 0.63 1.00 0.00 dice's coefficient term-occ 0.85yes:20 0.01 secs 133 49 0.61 1.00 0.00 dice's coefficient term-occ 0.90yes:20 0.01 secs 133 50 0.61 1.00 0.00 dice's coefficient term-occ 0.95yes:20 0.01 secs 133 23 0.78 1.00 0.00 dice's coefficient tf 0.30yes:20 0.01 secs 133 25 0.78 1.00 0.00 dice's coefficient tf 0.35yes:20 0.01 secs 133 27 0.77 1.00 0.00 dice's coefficient tf 0.40yes:20 0.01 secs 133 27 0.77 1.00 0.00 dice's coefficient tf 0.45yes:20 0.01 secs 133 28 0.77 1.00 0.00 dice's coefficient tf 0.50yes:20 0.01 secs 133 28 0.77 1.00 0.00 dice's coefficient tf 0.55yes:20 0.01 secs 133 29 0.77 1.00 0.00 dice's coefficient tf 0.60yes:20 0.01 secs 133 30 0.75 1.00 0.00 dice's coefficient tf 0.65yes:20 0.01 secs 133 36 0.71 1.00 0.00 dice's coefficient tf 0.70yes:20 0.01 secs 133 40 0.67 1.00 0.00 dice's coefficient tf 0.75yes:20 0.01 secs 133 46 0.63 1.00 0.00 dice's coefficient tf 0.80yes:20 0.01 secs 133 46 0.63 1.00 0.00 dice's coefficient tf 0.85yes:20 0.01 secs 133 49 0.61 1.00 0.00 dice's coefficient tf 0.90yes:20 0.01 secs 133 50 0.61 1.00 0.00 dice's coefficient tf 0.95yes:20 0.01 secs 133 29 0.74 1.00 0.00 dice's coefficient tfidf 0.30yes:20 0.01 secs 133 32 0.71 0.99 0.01 dice's coefficient tfidf 0.35yes:20 0.01 secs 133 33 0.71 1.00 0.00 dice's coefficient tfidf 0.40yes:20 0.01 secs 133 34 0.70 1.00 0.00 dice's coefficient tfidf 0.45yes:20 0.01 secs 133 36 0.69 1.00 0.00 dice's coefficient tfidf 0.50yes:20 0.01 secs 133 38 0.69 1.00 0.00 dice's coefficient tfidf 0.55yes:20 0.01 secs 133 41 0.67 1.00 0.00 dice's coefficient tfidf 0.60yes:20 0.01 secs 133 42 0.66 1.00 0.00 dice's coefficient tfidf 0.65yes:20 0.01 secs 133 43 0.64 1.00 0.00 dice's coefficient tfidf 0.70yes:20 0.02 secs 133 44 0.63 1.00 0.00 dice's coefficient tfidf 0.75yes:20 0.02 secs 133 49 0.61 1.00 0.00 dice's coefficient tfidf 0.80yes:20 0.02 secs 133 50 0.61 1.00 0.00 dice's coefficient tfidf 0.85yes:20 0.01 secs 133 50 0.61 1.00 0.00 dice's coefficient tfidf 0.90yes:20 0.01 secs 133 50 0.61 1.00 0.00 dice's coefficient tfidf 0.95yes:20 1.07 secs 133 15 0.62 0.75 0.32 dice's coefficient with bigrams - 0.30yes:20 0.97 secs 133 16 0.69 0.81 0.21 dice's coefficient with bigrams - 0.35yes:20 0.91 secs 133 19 0.67 0.83 0.18 dice's coefficient with bigrams - 0.40

- 103 -

yes:20 0.91 secs 133 21 0.72 0.92 0.12 dice's coefficient with bigrams - 0.45yes:20 0.91 secs 133 23 0.63 0.83 0.16 dice's coefficient with bigrams - 0.50yes:20 0.91 secs 133 24 0.64 0.83 0.15 dice's coefficient with bigrams - 0.55yes:20 0.90 secs 133 25 0.62 0.83 0.15 dice's coefficient with bigrams - 0.60yes:20 0.90 secs 133 29 0.75 0.98 0.02 dice's coefficient with bigrams - 0.65yes:20 0.90 secs 133 32 0.73 1.00 0.00 dice's coefficient with bigrams - 0.70yes:20 0.90 secs 133 35 0.72 1.00 0.00 dice's coefficient with bigrams - 0.75yes:20 0.89 secs 133 37 0.72 1.00 0.00 dice's coefficient with bigrams - 0.80yes:20 0.89 secs 133 38 0.70 1.00 0.00 dice's coefficient with bigrams - 0.85yes:20 0.87 secs 133 44 0.66 1.00 0.00 dice's coefficient with bigrams - 0.90yes:20 0.87 secs 133 45 0.66 1.00 0.00 dice's coefficient with bigrams - 0.95yes:20 0.01 secs 133 27 0.77 1.00 0.00 Jaccard's coefficient term-occ 0.30yes:20 0.01 secs 133 28 0.77 1.00 0.00 Jaccard's coefficient term-occ 0.35yes:20 0.01 secs 133 28 0.77 1.00 0.00 Jaccard's coefficient term-occ 0.40yes:20 0.01 secs 133 30 0.75 1.00 0.00 Jaccard's coefficient term-occ 0.45yes:20 0.01 secs 133 36 0.71 1.00 0.00 Jaccard's coefficient term-occ 0.50yes:20 0.01 secs 133 37 0.69 1.00 0.00 Jaccard's coefficient term-occ 0.55yes:20 0.01 secs 133 40 0.67 1.00 0.00 Jaccard's coefficient term-occ 0.60yes:20 0.01 secs 133 41 0.64 1.00 0.00 Jaccard's coefficient term-occ 0.65yes:20 0.01 secs 133 46 0.63 1.00 0.00 Jaccard's coefficient term-occ 0.70yes:20 0.01 secs 133 48 0.61 1.00 0.00 Jaccard's coefficient term-occ 0.75yes:20 0.01 secs 133 49 0.61 1.00 0.00 Jaccard's coefficient term-occ 0.80yes:20 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient term-occ 0.85yes:20 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient term-occ 0.90yes:20 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient term-occ 0.95yes:20 0.01 secs 133 27 0.77 1.00 0.00 Jaccard's coefficient tf 0.30yes:20 0.01 secs 133 28 0.77 1.00 0.00 Jaccard's coefficient tf 0.35yes:20 0.01 secs 133 28 0.77 1.00 0.00 Jaccard's coefficient tf 0.40yes:20 0.01 secs 133 29 0.77 1.00 0.00 Jaccard's coefficient tf 0.45yes:20 0.01 secs 133 36 0.71 1.00 0.00 Jaccard's coefficient tf 0.50yes:20 0.01 secs 133 37 0.69 1.00 0.00 Jaccard's coefficient tf 0.55yes:20 0.01 secs 133 40 0.67 1.00 0.00 Jaccard's coefficient tf 0.60yes:20 0.01 secs 133 41 0.64 1.00 0.00 Jaccard's coefficient tf 0.65yes:20 0.01 secs 133 46 0.63 1.00 0.00 Jaccard's coefficient tf 0.70yes:20 0.01 secs 133 48 0.61 1.00 0.00 Jaccard's coefficient tf 0.75yes:20 0.01 secs 133 49 0.61 1.00 0.00 Jaccard's coefficient tf 0.80yes:20 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient tf 0.85yes:20 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient tf 0.90yes:20 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient tf 0.95yes:20 0.01 secs 133 35 0.70 1.00 0.00 Jaccard's coefficient tfidf 0.30yes:20 0.01 secs 133 38 0.69 1.00 0.00 Jaccard's coefficient tfidf 0.35yes:20 0.01 secs 133 40 0.69 1.00 0.00 Jaccard's coefficient tfidf 0.40yes:20 0.01 secs 133 42 0.66 1.00 0.00 Jaccard's coefficient tfidf 0.45yes:20 0.01 secs 133 42 0.64 1.00 0.00 Jaccard's coefficient tfidf 0.50yes:20 0.01 secs 133 43 0.64 1.00 0.00 Jaccard's coefficient tfidf 0.55yes:20 0.01 secs 133 44 0.63 1.00 0.00 Jaccard's coefficient tfidf 0.60yes:20 0.01 secs 133 46 0.63 1.00 0.00 Jaccard's coefficient tfidf 0.65yes:20 0.01 secs 133 49 0.61 1.00 0.00 Jaccard's coefficient tfidf 0.70yes:20 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient tfidf 0.75yes:20 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient tfidf 0.80yes:20 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient tfidf 0.85yes:20 0.02 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient tfidf 0.90yes:20 0.01 secs 133 50 0.61 1.00 0.00 Jaccard's coefficient tfidf 0.95yes:20 0.49 secs 133 4 0.56 0.52 0.65 jaro-winkler (single-link) - 0.30yes:20 0.49 secs 133 4 0.56 0.52 0.65 jaro-winkler (single-link) - 0.35yes:20 0.48 secs 133 5 0.47 0.42 0.77 jaro-winkler (single-link) - 0.40yes:20 0.41 secs 133 7 0.48 0.56 0.57 jaro-winkler (single-link) - 0.45

- 104 -

yes:20 0.41 secs 133 9 0.49 0.59 0.52 jaro-winkler (single-link) - 0.50yes:20 0.41 secs 133 11 0.49 0.59 0.51 jaro-winkler (single-link) - 0.55yes:20 0.41 secs 133 14 0.48 0.60 0.51 jaro-winkler (single-link) - 0.60yes:20 0.40 secs 133 17 0.58 0.72 0.36 jaro-winkler (single-link) - 0.65yes:20 0.40 secs 133 19 0.69 0.86 0.23 jaro-winkler (single-link) - 0.70yes:20 0.38 secs 133 24 0.76 0.95 0.07 jaro-winkler (single-link) - 0.75yes:20 0.39 secs 133 27 0.76 0.98 0.03 jaro-winkler (single-link) - 0.80yes:20 0.37 secs 133 31 0.75 0.98 0.03 jaro-winkler (single-link) - 0.85yes:20 0.38 secs 133 37 0.68 0.98 0.02 jaro-winkler (single-link) - 0.90yes:20 0.36 secs 133 46 0.62 1.00 0.00 jaro-winkler (single-link) - 0.95yes:20 0.44 secs 133 6 0.48 0.55 0.62 jaro-winkler (complete-link) - 0.30yes:20 0.45 secs 133 6 0.48 0.55 0.60 jaro-winkler (complete-link) - 0.35yes:20 0.41 secs 133 7 0.49 0.59 0.55 jaro-winkler (complete-link) - 0.40yes:20 0.41 secs 133 8 0.49 0.59 0.54 jaro-winkler (complete-link) - 0.45yes:20 0.41 secs 133 13 0.48 0.64 0.48 jaro-winkler (complete-link) - 0.50yes:20 0.41 secs 133 15 0.62 0.77 0.29 jaro-winkler (complete-link) - 0.55yes:20 0.42 secs 133 18 0.62 0.76 0.29 jaro-winkler (complete-link) - 0.60yes:20 0.38 secs 133 20 0.64 0.79 0.20 jaro-winkler (complete-link) - 0.65yes:20 0.38 secs 133 24 0.74 0.94 0.09 jaro-winkler (complete-link) - 0.70yes:20 0.38 secs 133 27 0.74 0.95 0.06 jaro-winkler (complete-link) - 0.75yes:20 0.38 secs 133 29 0.73 0.97 0.05 jaro-winkler (complete-link) - 0.80yes:20 0.37 secs 133 34 0.67 0.98 0.03 jaro-winkler (complete-link) - 0.85yes:20 0.37 secs 133 37 0.68 0.98 0.02 jaro-winkler (complete-link) - 0.90yes:20 0.36 secs 133 46 0.62 1.00 0.00 jaro-winkler (complete-link) - 0.95yes:20 0.49 secs 133 5 0.48 0.53 0.65 jaro-winkler (average-link) - 0.30yes:20 0.48 secs 133 5 0.48 0.53 0.65 jaro-winkler (average-link) - 0.35yes:20 0.45 secs 133 6 0.48 0.56 0.58 jaro-winkler (average-link) - 0.40yes:20 0.41 secs 133 7 0.49 0.58 0.54 jaro-winkler (average-link) - 0.45yes:20 0.41 secs 133 10 0.49 0.59 0.51 jaro-winkler (average-link) - 0.50yes:20 0.41 secs 133 13 0.48 0.60 0.51 jaro-winkler (average-link) - 0.55yes:20 0.41 secs 133 16 0.48 0.62 0.48 jaro-winkler (average-link) - 0.60yes:20 0.39 secs 133 17 0.58 0.72 0.36 jaro-winkler (average-link) - 0.65yes:20 0.38 secs 133 20 0.64 0.78 0.22 jaro-winkler (average-link) - 0.70yes:20 0.38 secs 133 24 0.76 0.95 0.07 jaro-winkler (average-link) - 0.75yes:20 0.37 secs 133 28 0.76 0.98 0.03 jaro-winkler (average-link) - 0.80yes:20 0.37 secs 133 32 0.74 0.98 0.03 jaro-winkler (average-link) - 0.85yes:20 0.37 secs 133 37 0.68 0.98 0.02 jaro-winkler (average-link) - 0.90yes:20 0.37 secs 133 46 0.62 1.00 0.00 jaro-winkler (average-link) - 0.95

- 105 -

6.8.2.3. Χρήση ενιαίου κλειδιού – Πίνακες αξιολόγησης

Δείγμα 2: Μέσος χρόνος εκτέλεσης αλγορίθμων (σε secs) ανά μετρική ομοιότητας(Μη-Aυξητική μορφή - ενιαίο κλειδί )

0

0,2

0,4

0,6

0,8

1

1,2

1,4

1,6

1,8

2

tf tfidf to tf tfidf to - tf tfidf to - - - (κενό)


bigrams


jaro-winkler-c

jaro-winkler-s

(κενό)

bsk-aabsk-ambsk-cabsk-cmbsk-sabsk-smhac-ahac-chac-smatchingsingle pass

Δείγμα 2: Μέσος χρόνος εκτέλεσης αλγορίθμων (σε secs) ανά μετρική ομοιότητας(Aυξητική μορφή - ενιαίο κλειδί )

0

0,2

0,4

0,6

0,8

1

1,2

1,4

1,6

1,8

2



bigrams


jaro-winkler-c

jaro-winkler-s

(κενό)



- 106 -

Δείγμα 2: Μέγιστο F-Measure αλγορίθμων ανά μετρική ομοιότητας (Μη-Αυξητική μορφή - ενιαίο κλειδί )

0,3

0,35

0,4

0,45

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85



bigrams


jaro-winkler-c

jaro-winkler-s

(κενό)


Δείγμα 2: Μέγιστο F-Measure αλγορίθμων ανά μετρική ομοιότητας (Αυξητική μορφή - ενιαίο κλειδί )

0,3

0,35

0,4

0,45

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85



bigrams


jaro-winkler-c

jaro-winkler-s

(κενό)



- 107 -


(Μη-Αυξητική μορφή - ενιαίο κλειδί )

0,25

0,3

0,35

0,4

0,45

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

bsk-aa bsk-am bsk-ca bsk-cm bsk-sa bsk-sm hac-a hac-c hac-s single pass matching

tfidf (κενό)

cosine (κενό)

0,300,350,400,450,500,550,600,650,700,750,800,850,900,95


(Αυξητική μορφή - ενιαίο κλειδί )

0,25

0,3

0,35

0,4

0,45

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85


tfidf (κενό)

cosine (κενό)

0,300,350,400,450,500,550,600,650,700,750,800,850,900,95


- 108 -


(Μη-Αυξητική μορφή - ενιαίο κλειδί )

0,3

0,35

0,4

0,45

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

bsk-aa bsk-am hac-a single pass bsk-ca bsk-cm hac-c single pass bsk-sa bsk-sm hac-s single pass matching

- - - (κενό)

jaro-winkler-a jaro-winkler-c jaro-winkler-s (κενό)

0,300,350,400,450,500,550,600,650,700,750,800,850,900,95



0,3

0,35

0,4

0,45

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85


- - - (κενό)


0,300,350,400,450,500,550,600,650,700,750,800,850,900,95


- 109 -

6.8.3. Πείραμα 3: Δείγμα που αντιστοιχεί σε ένα FRBR work (Δείγμα 3)

Το δείγμα αυτό αντιστοιχεί σε 70 εγγραφές οι οποίες προέκυψαν μετά από επεξεργασία στα

επιστρεφόμενα αποτελέσματα αναζητήσεων στον Συλλογικό Κατάλογο των Ελληνικών

Ακαδημαϊκών Βιβλιοθηκών (ΣΚΕΑΒ) για το έργο «Πάπισσα Ιωάννα» του συγγραφέα

«Εμμανουήλ Ροΐδη». Το δείγμα αποτελείται από κλειδιά ταυτοποίησης που παρήχθησαν από τις

παραπάνω εγγραφές με τη χρήση του προγράμματος32 κατασκευής κλειδιών κατά FRBR της

Βιβλιοθήκης του Κογκρέσου (Library of Congress), προσαρμοσμένο σε δεδομένα UNIMARC

(Sfakakis, Kapidakis - 2009). Τα κλειδιά ταυτοποίησης αποτελούνται από τα υποκλειδιά «title»

και «author». Θεωρείται ότι οι εγγραφές που επιλέγηκαν ανήκουν στον ίδιο τύπο υλικού και

συγκεκριμένα στην κατηγορία «Γλωσσικό Υλικό - Έντυπο» οπότε και δεν προστέθηκε

αντίστοιχο υποκλειδί. Η απουσία της πληροφορίας (αυτού του υποκλειδιού) δεν επηρεάζει την

όλη διαδικασία του clustering αφού η τιμή της είναι κωδικοποιημένη με σταθερό τρόπο χωρίς

την ύπαρξη λαθών. Στους παρακάτω πίνακες και γραφήματα παρουσιάζονται τα αποτελέσματα

της εφαρμογής της συσταδοποίησης (χρόνοι εκτέλεσης, μέτρα αξιολόγησης) στο παραπάνω

δείγμα πρώτα με τη χρήση δύο υποκλειδιών («author», «title») και μετά με την αντιμετώπιση

του κλειδιού ως ενιαίου.

32 http://www.loc.gov/marc/marc-functional-analysis/tool.html [τελευταία επίσκεψη 27/01/2010]

- 110 -


6.8.3.1. Χρήση δύο υποκλειδιών (συγγραφέας, τίτλος) – Πίνακες αξιολόγησης

Δείγμα 3: Μέσος χρόνος εκτέλεσης αλγορίθμων (σε secs) ανά μετρική ομοιότητας(Μη-Aυξητική μορφή - χρήση υποκλειδιών )

0

0,1

0,2

0,3

0,4

0,5

0,6



bigrams


jaro-winkler-c

jaro-winkler-s

(κενό)

hac-ahac-chac-smatchingsingle pass

Δείγμα 3: Μέσος χρόνος εκτέλεσης αλγορίθμων (σε secs) ανά μετρική ομοιότητας(Aυξητική μορφή - χρήση υποκλειδιών )

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5



bigrams


jaro-winkler-c

jaro-winkler-s

(κενό)



- 111 -

Δείγμα 3: Μέγιστο F-Measure αλγορίθμων ανά μετρική ομοιότητας( Μη-Aυξητική μορφή - χρήση υποκλειδιών )

0,4

0,5

0,6

0,7

0,8

0,9

1



bigrams


jaro-winkler-c

jaro-winkler-s

(κενό)


Δείγμα 3: Μέγιστο F-Measure αλγορίθμων ανά μετρική ομοιότητας( Aυξητική μορφή - χρήση υποκλειδιών )

0,4

0,5

0,6

0,7

0,8

0,9

1

tf tfidf to tf tfidf to - tf tfidf to - - -

cosine dice's dice's withbigrams


jaro-winkler-c

jaro-winkler-s

hac-ahac-chac-ssingle pass


- 112 -


(Μη-αυξητική μορφή - χρήση υποκλειδιών )

0,4

0,45

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

hac-a hac-c hac-s single pass matching

tfidf (κενό)

cosine (κενό)

0,300,350,400,450,500,550,600,650,700,750,800,850,900,95


(Αυξητική μορφή - χρήση υποκλειδιών )

0,4

0,45

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

hac-a hac-c hac-s single pass matching

tfidf (κενό)

cosine (κενό)

0,300,350,400,450,500,550,600,650,700,750,800,850,900,95


- 113 -


(Μη-αυξητική μορφή - δύο υποκλειδιά )

0,4

0,45

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

1

1,05

hac-a single pass hac-c single pass hac-s single pass matching

- - - (κενό)


0,300,350,400,450,500,550,600,650,700,750,800,850,900,95


(Αυξητική μορφή - δύο υποκλειδιά )

0,4

0,45

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

1

1,05

hac-a single pass hac-c single pass hac-s single pass matching

- - - (κενό)


0,300,350,400,450,500,550,600,650,700,750,800,850,900,95


- 114 -

6.8.3.2. Χρήση ενιαίου κλειδιού – Πίνακες αξιολόγησης

Δείγμα 3: Μέσος χρόνος εκτέλεσης αλγορίθμων (σε secs) ανά μετρική ομοιότητας(Μη-αυξητική μορφή - ενιαίο κλειδί )

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

0,55

0,6

0,65

tfidf tfidf - tfidf - - - (κενό)


Jaccard's jaro-winkler-a jaro-winkler-c jaro-winkler-s (κενό)

bsk-aabsk-ambsk-cabsk-cmbsk-sabsk-smhac-ahac-chac-ssingle passmatching

Δείγμα 3: Μέσος χρόνος εκτέλεσης αλγορίθμων (σε secs) ανά μετρική ομοιότητας(Αυξητική μορφή - ενιαίο κλειδί )

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

0,55

0,6

0,65

tfidf tfidf - tfidf - - - (κενό)


Jaccard's jaro-winkler-a jaro-winkler-c jaro-winkler-s (κενό)


Γραφήματα Α’

- 115 -

Δείγμα 3: Μέγιστο F-Measure αλγορίθμων ανά μετρική ομοιότητας(Μη-Aυξητική μορφή - ενιαίο κλειδί )

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1



bigrams


jaro-winkler-c

jaro-winkler-s

(κενό)


Δείγμα 3: Μέγιστο F-Measure αλγορίθμων ανά μετρική ομοιότητας(Aυξητική μορφή - ενιαίο κλειδί )

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1



bigrams


jaro-winkler-c

jaro-winkler-s

(κενό)



- 116 -


(Μη-αυξητική μορφή - ενιαίο κλειδί )

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1


tfidf (κενό)

cosine (κενό)

0,300,350,400,450,500,550,600,650,700,750,800,850,900,95



0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1


tfidf (κενό)

cosine (κενό)

0,300,350,400,450,500,550,600,650,700,750,800,850,900,95


- 117 -


(Μη-αυξητική μορφή - ενιαίο κλειδί )

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1


- - - (κενό)


0,300,350,400,450,500,550,600,650,700,750,800,850,900,95



0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1


- - - (κενό)


0,300,350,400,450,500,550,600,650,700,750,800,850,900,95

Incremental yes:20

Μεγ. από F-Measure

Similarity Metric Similarity Values Algorithm

Similarity Threshold


- 118 -

6.9.Παράρτημα ΣΤ: Στιγμιότυπα χρήσης του υποσυστήματος «pscluster»

Παρaδείγματα αρχείων κλειδιών (με δύο υποκλειδιά ανά γραμμή – “author” και “title”)

- 119 -

Παράδειγμα αρχείου ρυθμίσεων για χρήση αλγορίθμου “Single Pass” με δύο υποκλειδιά

Εκτέλεση του προγράμματος χωρίς παραμέτρους για την εμφάνιση της σύνταξής τους

Εκτέλεση του προγράμματος με παραμέτρους

- 120 -

Συγκριτικά αποτελέσματα χρόνου εκτέλεσης και μέτρου F-Measure κατά την εκτέλεση σε συνδυασμούς παραμέτρων

Συνοπτική εμφάνιση αποτελεσμάτων συσταδοποίησηςΑλγόριθμος “Matching” - Ενιαίο κλειδί

- 121 -

Συνοπτική εμφάνιση αποτελεσμάτων συσταδοποίησηςΑλγόριθμος “Single Pass” - Ενιαίο κλειδί

Συνοπτική εμφάνιση αποτελεσμάτων συσταδοποίησηςΑλγόριθμος HAC - Ενιαίο κλειδί

- 122 -

Συνοπτική εμφάνιση αποτελεσμάτων συσταδοποίησηςΑλγόριθμος “BiSecting K-Means” - Ενιαίο κλειδί

Συνοπτική εμφάνιση αποτελεσμάτων συσταδοποίησηςΑλγόριθμος “Single Pass” - Δύο υποκλειδιά

- 123 -

Πλήρης εμφάνιση αποτελεσμάτων συσταδοποίησηςΑλγόριθμος HAC - Δύο υποκλειδιά

- 124 -

6.10. Παράρτημα Ζ: Οι υπηρεσίες (εντολές) του «pazpar2» πρωτοκόλλου

Το «pazpar2» πρωτόκολλο περιγράφει το είδος και τη μορφή των μηνυμάτων που αντιστοιχούν

στις υπηρεσίες που εξυπηρετεί. Σύμφωνα με το πρωτόκολλο αναγνωρίζεται ως αίτηση

υπηρεσίας ιστού (web service request) του «pazpar2» μόνο όποια αναφέρεται στο αρχείο

“search.pz2”. Κάθε έγκυρη «pazpar2» αίτηση έχει την παράμετρο με όνομα “command”, η τιμή

της οποίας περιγράφει το είδος της υπηρεσίας που ζητείται. Όλη η πληροφορία που απαιτείται

για την κλήση μιας «pazpar2» υπηρεσίας ιστού περνιέται με τη χρήση παραμέτρων σε ένα

«GET-style URI». Η απάντηση είναι ένα XML τεκμήριο. Αναλυτικά οι υπηρεσίες που

υποστηρίζονται από το πρωτόκολλο με τις αντίστοιχες εντολές τους είναι:

6.10.1.Εντολή αρχικοποίησης μιας συνεδρίας (session) – Εντολή “init”

Η εντολή “init” αρχικοποιεί μια νέα συνεδρία η οποίο λήγει μετά την πάροδο κάποιου

συγκεκριμένου άεργου χρόνου (idle time), δηλαδή κάποιου χρονικού διαστήματος χωρίς

δραστηριότητα (εξ ορισμού είναι 1 λεπτό). Στην XML απάντηση υπάρχει το στοιχείο (element)

'status' που ενημερώνει για την επιτυχία ή όχι της εντολής, το στοιχείο 'session' που περιέχει το

αναγνωριστικό (id) για τη νέα συνεδρία το οποίο θα χρησιμοποιείται σε όλες τις επόμενες

εντολές αυτής της συνεδρίας και το στοιχείο 'protocol' που ενημερώνει για την έκδοση του

«pazpar2» πρωτοκόλλου που έχει υλοποιηθεί. Η εντολή “init” μπορεί να δεχθεί μια σειρά από

παραμέτρους ρυθμίσεων (parameter settings), όπως αυτές που περιγράφονται παρακάτω στην

εντολή “settings”, και οι οποίες έχουν ισχύ μόνο στη νέα συνεδρία. Υπερισχύουν των ήδη

υπαρχόντων ρυθμίσεων που αναφέρονται στα ίδια στοιχεία. Επίσης υπάρχει η παράμετρος

“clear” η οποία αν έχει τιμή μη-μηδενική τότε η συγκεκριμένη συνεδρία δε θα χρησιμοποιήσει

- 125 -

τις προκαθορισμένες βάσεις δεδομένων αλλά μόνο αυτές που θα περιγράφονται στις

παραμέτρους ρυθμίσεων.

Σημείωση: Σε όλα τα url των παρακάτω παραδειγμάτων θα θεωρείται ότι το “myportal” είναι η

διεύθυνση του κανονικού εξυπηρετητή παγκοσμίου ιστού (web server) του συστήματος, αν αυτός

λειτουργεί ως ανάστροφος πληρεξούσιος (reverse proxy) και χρησιμοποιείται για να φτάσει η

αίτηση στο «pazpar2» (π.χ. http://localhost/»pazpar2») ή η διεύθυνση του «pazpar2» http server

στην πόρτα που έχει καθοριστεί κατά την εκκίνησή του αν η αίτηση πηγαίνει απευθείας σε αυτόν

(π.χ. http://localhost:8004).

Παραδείγματα χρήσης

Αίτηση (Request) Απάντηση (Response)

myportal/search.pz2?command=init <init>

<status>OK</status>

<session>1</session>

<protocol>1</protocol>

</init>

Απλή εντολή αρχικοποίησης η οποία θα έχει ως αποτέλεσμα ένα νέο αναγνωριστικό συνεδρίας.

Για τη νέα συνεδρία ισχύουν ότι έχει προκαθοριστεί στα αρχεία ρυθμίσεων (καθορισμός

βάσεων δεδομένων, στοιχείων πρόσβασης, στοιχεία εμφάνισης κλπ).

Αίτηση Απάντηση

myportal/search.pz2?

command=init&pz:allow[z3950.loc.gov:7

090/voyager]=0

<init>

<status>OK</status>



</init>

Σε αυτή την εντολή αρχικοποίησης ζητείται να απαγορευτεί η πρόσβαση στη βάση δεδομένων

“z3950.loc.gov:7090/voyager” για τη νέα συνεδρία. Υπερισχύει αυτή η δήλωση έναντι άλλων

- 126 -

για τη συγκεκριμένη βάση δεδομένων στα αρχεία ρυθμίσεων που διάβασε κατά την εκκίνησή

του το «pazpar2» daemon.



command=init&&clear=1&pz:allow[z3950.loc.go

v:7090/voyager]=1

<init>

<status>OK</status>



</init>

Σε αυτή την εντολή αρχικοποίησης ζητείται να «καθαριστούν» όλες οι δηλωμένες ρυθμίσεις

σχετικά με τις βάσεις δεδομένων και να ισχύσουν μόνο αυτές που περνιούνται ως παράμετροι.

Συγκεκριμένα στη νέα συνεδρία θα υπάρχει πρόσβαση μόνο στη βάση δεδομένων

“z3950.loc.gov:7090/voyager”.

6.10.2.Εντολή ανανέωσης της ίδιας συνεδρίας – Εντολή “ping”

Η κάθε νέα συνεδρία που ξεκινά με την εντολή “init” έχει συγκεκριμένη άεργη χρονική περίοδο

(idle time period). Μετά τον εξωχρονισμό (time out) αυτής της άεργης χρονικής περιόδου, η

συνεδρία λήγει. Για να παραμένει σε ισχύ η συνεδρία χρησιμοποιείται η εντολή “ping” η οποία

κρατά τη συνεδρία ενεργή για μία ακόμη χρονική περίοδο. Επομένως ανεξαρτήτως αν υπάρχουν

εντολές ή όχι, αν πρέπει να παραμένει η συνεδρία ενεργή θα πρέπει να χρησιμοποιείται η εντολή

“ping” τακτικά και πριν τον εξωχρονισμό της άεργης χρονικής περιόδου.

Παράδειγμα χρήσης


myportal/search.pz2?command=ping&session=1 <ping>

<status>OK</status>

</ping>

Παρατείνεται η λήξη συνεδρίας με αναγνωριστικό (id) = 1 για μια ακόμη άεργη χρονική

περίοδο.

- 127 -

6.10.3.Εντολή παραμετροποίησης ενεργής συνεδρίας – Εντολή “settings”

Η εντολή “settings” χρησιμοποιείται για να εφαρμόζει ρυθμίσεις στις βάσεις δεδομένων που

είναι ενεργές στη συγκεκριμένη συνεδρία. Συνήθως χρησιμοποιείται για να επιτρέψει την

πρόσβαση σε πόρους περιορισμένης πρόσβασης στην περίπτωση μιας συνεδρίας που ξεκίνησε

από εξουσιοδοτημένο χρήστη ή για να δώσει στοιχεία επαλήθευσης ταυτότητας (authentication)

ενός χρήστη. Κάθε παράμετρος αυτής της εντολής έχει τη μορφή name[target]=value, όπου

‘name’ το όνομα της ρύθμισης (π.χ. pz:allow), ‘target’ το όνομα του πληροφοριακού πόρου και

‘value’ η τιμή που δίνεται. Επειδή όμως οι πληροφορίες αυτές είναι ευαίσθητες για το σύστημα

προτείνεται η χρήση αυτής της εντολής από ένα έμπιστο ιστότοπο (website). Τα ονόματα των

ρυθμίσεων είναι στοιχεία που ανήκουν στον ονοματοχώρο (namespace):

“http://www.indexdata.com/pazpar2/1.0”.




command=settings&session=1&pz:allow[z3950.l

oc.gov:7090/voyager]=1

<settings>

<status>OK</status>

</settings>

Σε αυτή την εντολή ζητείται να επιτραπεί η πρόσβαση στη βάση δεδομένων

“z3950.loc.gov:7090/voyager” για τη συνεδρία με αναγνωριστικό (id)=1. Υπερισχύει αυτή η

δήλωση έναντι άλλων για τη συγκεκριμένη βάση δεδομένων στα αρχεία ρυθμίσεων που

διάβασε κατά την εκκίνησή του το «pazpar2» daemon.

6.10.4.Εντολή αναζήτησης – Εντολή “search”

Η εντολή “search” αρχικοποιεί μια αναζήτηση στις βάσεις δεδομένων που έχουν επιλεγεί στα

αρχεία ρυθμίσεων κατά την εκκίνηση του «pazpar2» daemon μαζί με όποιες τροποποιήσεις

- 128 -

http://www.indexdata.com/pazpar2/1.0

έχουν γίνει στην τρέχουσα συνεδρία, είτε στην εντολή αρχικοποίησης “init” είτε με επόμενες

κλήσεις της εντολής “settings”. Η εντολή “search” δέχεται τις παρακάτω παραμέτρους:

- session : το αναγνωριστικό της ενεργής συνεδρίας.

- query : το ερώτημα σε μορφή CCL33

- filter : επιλογή βάσεων δεδομένων για τη συγκεκριμένη αναζήτηση (προαιρετική

παράμετρος)




command=search&session=1&query=crete

<search>

<status>OK</status>

</search>

Απλή εντολή αναζήτησης σύμφωνα με την οποία ζητούνται εγγραφές που να περιέχουν τη

στοιχειοσειρά (string) “crete”. Η ccl στοιχειοσειρά είναι απλή χωρίς επιπλέον πληροφορίες για

σημείο πρόσβασης, δομής, αποκοπής κλπ. Άρα θα εφαρμοστούν οι προκαθορισμένες τιμές. Η

αναζήτηση θα γίνει πάνω στις βάσεις δεδομένων που έχουν δηλωθεί.



command=search&session=1&query=crete&filte

r=pz:id=localhost:210/grArgos

<search>

<status>OK</status>

</search>

Η ίδια εντολή αναζήτησης με την προηγούμενη με τη διαφορά ότι ζητείται να γίνει μόνο στη

βάση δεδομένων με αναγνωριστικό - id = “localhost:210/grArgos”.


myportal/search.pz2? <search>

33 Common Command Language: http://en.wikipedia.org/wiki/Common_Query_Language (τελευταία επίσκεψη 16/06/2008)

- 129 -

http://en.wikipedia.org/wiki/Common_Query_Language

command=search&session=1&query=crete&filte

r=pz:name=”Argos”

<status>OK</status>

</search>

Η ίδια εντολή αναζήτησης με την προηγούμενη με τη διαφορά ότι ζητείται να γίνει μόνο στη

βάση δεδομένων με όνομα = “Argos”.

6.10.5.Εντολή εμφάνισης πληροφοριών της ενεργής αναζήτησης – Εντολή

“stat”

Η εντολή “stat” παρέχει πληροφορίες για την ενεργή αναζήτηση. Σε κάθε κλήση της και όσο

παραμένει ενεργή (εκτελείται) η αναζήτηση, οι πληροφορίες μπορεί να αλλάζουν. Για

παράδειγμα ο αριθμός των επιστρεφομένων εγγραφών. Δέχεται ως παράμετρο μόνο το

αναγνωριστικό της συνεδρίας.


Αίτηση myportal/search.pz2?command=stat&session=1

Απάντηση <stat>

<activeclients>0</activeclients>

<hits>30</hits>

<records>30</records>

<clients>2</clients>

<unconnected>0</unconnected>

<connecting>0</connecting>

<initializing>0</initializing>

<searching>0</searching>

<presenting>0</presenting>

<idle>2</idle>

<failed>0</failed>

<error>0</error>

</stat>

- 130 -

Έχει προηγηθεί αναζήτηση και η εντολή “stat” επιστρέφει πληροφορίες για την αναζήτηση. Στο

συγκεκριμένο παράδειγμα φαίνεται ότι η αναζήτηση τελείωσε αφού δεν υπάρχουν

‘activeclients’. Το αποτέλεσμα ήταν 30 επιτυχίες (hits) και 30 επιστρεφόμενες εγγραφές

(records). Η αναζήτηση έγινε σε δύο βάσεις δεδομένων (‘clients=2’ και ‘failed=0’) και

ολοκληρώθηκε επιτυχώς (‘error=0’) και οι δύο πελάτες (clients) παραμένουν συνδεδεμένοι και

ανενεργοί (‘idle=2’ και ‘unconnected=0’). Τα XML στοιχεία ‘unconnected’, ‘connecting’,

‘initializing’, ‘searching’, ‘presenting’ και ‘idle’ δείχνουν πόσοι πελάτες (κάθε ένας αντιστοιχεί

σε μια βάση δεδομένων) βρίσκονται στην κατάσταση που δηλώνει το στοιχείο.

6.10.6.Εντολή ανάκτησης εγγραφών – Εντολή “show”

Η εντολή “show” εμφανίζει τις επιστρεφόμενες εγγραφές. Συγκεκριμένα τα «retrieval records»

σύμφωνα με την ενότητα 3.1. Δέχεται τις παρακάτω παραμέτρους:

- session : το αναγνωριστικό της ενεργής συνεδρίας, στην οποία έγινε η αναζήτηση της οποίας

αποτελέσματα ζητούνται να εμφανιστούν.

- start : Από ποιο εγγραφή θα αρχίσει η εμφάνιση (η πρώτη θεωρείται η 0).

- num : Ο αριθμός των εγγραφών που θα εμφανιστούν. Εξ ορισμού τιμή το 20 αν παραληφθεί

η παράμετρος.

- block : Αν έχει την τιμή 1 τότε η εντολή μπλοκάρει και αναμένει μέχρι να υπάρξουν

εγγραφές για εμφάνιση.

- sort : Εδώ δηλώνονται κριτήρια ταξινόμησης που θα ισχύουν μόνο στην τρέχουσα εμφάνιση.

Τα κριτήρια είναι μια λίστα διαχωρισμένη με κόμματα (τα κενά δεν επιτρέπονται) στα οποία

η προτεραιότητα είναι από αριστερά. Μεγαλύτερη προτεραιότητα δηλαδή έχει το πρώτο

πεδίο-κριτήριο. Το κάθε πεδίο-κριτήριο μπορεί να ακολουθείται από άνω και κάτω τελεία (:)

και τον αριθμό 0 ή 1 που δηλώνει ταξινόμηση σε αυτό το πεδίο με φθίνουσα ή αύξουσα

σειρά αντίστοιχα. Εξ ορισμού η ταξινόμηση γίνεται κατά φθίνουσα σειρά.

- 131 -

Προτού εμφανιστούν τα «retrieval records» στον χρήστη, εφαρμόζονται οι διαδικασίες

ταξινόμησης και κατάταξης σχετικότητας που έχουν δηλωθεί στα αρχεία ρυθμίσεων.

Παράδειγμα Χρήσης

Αίτηση myportal/search.pz2?command=show&session=1&start=0&num=2

Απάντηση <show>

<status>OK</status>


<merged>175</merged>

<total>374</total>

<start>0</start>

<num>2</num>

<hit>

<md-author>Tanaka, Michitaro</md-author>

<md-date>1970</md-date>

<md-title>The Acropolis</md-title>

<md-title-responsibility>photographs by Bin Takahasi</md-title-responsibility>

<md-medium>book</md-medium>

<location id="library.ox.ac.uk:210/ADVANCE" name="Oxford University"/>

<recid>

title the acropolis author tanaka michitar medium book

</recid>

</hit>

<hit>


<md-title>Kult und Kultbauten auf der Akropolis</md-title>

<md-title-remainder>

internationales symposion vom 7. bis 9. Juli 1995 in Berlin

</md-title-remainder>

<md-title-responsibility>herausgegeben von Wolfram Hoepfner</md-title-responsibility>


<location id="library.ox.ac.uk:210/ADVANCE" name="Oxford University"/>

<location id="z3950.loc.gov:7090/voyager" name="Library of Congress"/>

- 132 -

<count>2</count>

<recid>

title kult und kultbauten auf der akropolis author medium book

</recid>

</hit>

</show>

Σε αυτή την εντολή ανάκτησης εγγραφών ζητείται να επιστραφούν 2 εγγραφές (num=2)

ξεκινώντας από την πρώτη εγγραφή (start=0) του συνόλου αποτελεσμάτων. Η αναζήτηση που

έχει προηγηθεί είχε ως αποτέλεσμα 374 επιτυχίες (στοιχείο ‘total’). Στις συνολικές εγγραφές

που επιστράφηκαν τελικά (μπορεί να είναι μικρότερο των επιτυχιών) έγινε αναζήτηση

«όμοιων» εγγραφών και τελικά παρέμειναν 175 (στοιχείο ‘merged’) συνολικά διαφορετικές

εγγραφές ή καλύτερα συστάδες εγγραφών. Για κάθε συστάδα όμοιων εγγραφών εμφανίζονται

τα κοινά τους στοιχεία, ο αριθμός των εγγραφών της συστάδας (στοιχείο ‘count’) και η πηγή

της κάθε εγγραφής (στοιχείο ‘location’). Το στοιχείο ‘recid’ αποτελεί το αναγνωριστικό της

κάθε διαφορετικής εγγραφής και η τιμή του θα χρησιμοποιηθεί για αναλυτική ανάκτηση της

κάθε εγγραφής με τη χρήση της εντολής ‘record’ του πρωτοκόλλου. Σύμφωνα με τη λειτουργία

του «pazpar2» ως “recid” θεωρείται μια τιμή στοιχειοσειράς που προκύπτει από τις τιμές

κάποιων πεδίων (π.χ. “title”, “author” και “medium”) οι οποίες τιμές θα χρησιμοποιηθούν ως

κλειδί ταυτοποίησης για τη δημιουργία των συστάδων εγγραφών.

6.10.7.Εντολή ανάκτησης εγγραφής – Εντολή “record”

Η εντολή “record” ανακτά πλήρως μια εγγραφή. Η εγγραφή επιστρέφεται προτού γίνει η

συγχώνευση. Η εντολή δέχεται τις παρακάτω παραμέτρους:

- session : το αναγνωριστικό της ενεργής συνεδρίας στην οποία έγινε η αναζήτηση της οποίας

εγγραφή ζητείται να εμφανιστεί.

- id: Το αναγνωριστικό της εγγραφής όπως αυτό παρέχεται από την εντολή “show”.

- 133 -

- offset : Η παράμετρος είναι προαιρετική. Όταν δίνεται σημαίνει ότι η εγγραφή θα επιστραφεί

σε ανεπεξέργαστη μορφή (raw format), δηλαδή εμφάνιση μόνο των δεδομένων και όχι

ετικετών. Η τιμή 0 σημαίνει ότι είναι εγγραφή της πρώτης βάσης δεδομένων στην οποία

έγινε αναζήτηση, η τιμή 1 σημαίνει ότι είναι εγγραφή της δεύτερης βάσης δεδομένων στην

οποία έγινε αναζήτηση κοκ. Τα δεδομένα θα εμφανιστούν σε XML μορφή και συγκεκριμένα

όλα οι ISO2709 εγγραφές σε MARCXML και οι OPAC εγγραφές σε YAZ OPAC. Όταν η

παράμετρος παραλείπεται τότε η εγγραφή είναι τα «pazpar2» συνοδευτικά δεδομένα

(metadata). Στην περίπτωση που η συγκεκριμένη εγγραφή ανήκει σε μια συστάδα γιατί

βρέθηκαν «όμοιες» εγγραφές με αυτή, τότε επιστρέφονται τα κοινά μεταδεδομένα και από

την κάθε πηγή τα υπόλοιπα μεταδεδομένα της κάθε μία εγγραφής που ανήκει στη συστάδα.

- syntax : Η παράμετρος είναι προαιρετική. Όταν δίνεται καθορίζει το ‘record syntax’ στην

περίπτωση που έχει ζητηθεί ανεπεξέργαστη μορφή (έχει δοθεί η παράμετρος ‘offset’). Στην

περίπτωση που έχει δοθεί η παράμετρος ‘offset’ και δεν δίνεται η παράμετρος ‘syntax’ τότε

ως ‘record syntax’ χρησιμοποιείται αυτό που έχει δηλωθεί στα αρχεία ρυθμίσεων

(pz:requestsyntax).

- esn : Η παράμετρος είναι προαιρετική. Όταν δίνεται καθορίζει το ‘element set name’

(συνήθως στις Z39.50 πηγές είναι το ‘B’ (συνοπτική) και ‘F’ (πλήρης)) στην περίπτωση που

έχει ζητηθεί ανεπεξέργαστη μορφή (έχει δοθεί η παράμετρος ‘offset’). Στην περίπτωση που

έχει δοθεί η παράμετρος ‘offset’ και δεν δίνεται η παράμετρος ‘esn’ τότε ως ‘element set

name’ χρησιμοποιείται αυτό που έχει δηλωθεί στα αρχεία ρυθμίσεων (pz:elements).

- binary : Η παράμετρος είναι προαιρετική. Όταν δίνεται σημαίνει ότι η εγγραφή που έχει

ζητηθεί σε ανεπεξέργαστη μορφή (έχει δοθεί η παράμετρος ‘offset’) δεν θα μετατραπεί σε

XML αλλά θα εμφανιστεί ως ένα δυφιοοκταδικό ρεύμα (octet-stream).

- 134 -


Αίτηση

myportal/search.pz2?command=record&session=1&id=title kult und kultbauten auf der akropolis author medium

book

Απάντηση

<record>

<recid>

title kult und kultbauten auf der akropolis author medium book

</recid>

<md-lccn>97216365</md-lccn>








<md-description>Includes bibliographical references</md-description>

<location id="library.ox.ac.uk:210/ADVANCE" name="Oxford University">

<md-id>UkOxUb12776268</md-id>








<md-publication-place>Berlin</md-publication-place>

<md-publication-name>

Archäologisches Seminar der Freien Universität Berlin

</md-publication-name>

<md-publication-date>1997</md-publication-date>

<md-physical-extent>245 p</md-physical-extent>

<md-physical-format>ill. (1 col.), plans. ;</md-physical-format>

<md-physical-dimensions>30 cm</md-physical-dimensions>

<md-series-title>

Schriften des Seminars für Klassische Archäologie der Freien Universität Berlin

- 135 -

</md-series-title>


<md-description>Plans also on lining papers</md-description>

<md-subject-long>Acropolis (Athens, Greece)</md-subject-long>

<md-subject-long>Temples, Greek, Greece, Athens</md-subject-long>

<md-subject-long>Cults, Greece, Athens</md-subject-long>

<md-subject-long>Architecture, Greek, Religious aspects</md-subject-long>

<md-subject>Acropolis (Athens, Greece)</md-subject>

<md-subject>Temples, Greek</md-subject>

<md-subject>Cults</md-subject>

<md-subject>Architecture, Greek</md-subject>

</location>

<location id="z3950.loc.gov:7090/voyager" name="Library of Congress">

<md-id>1193316</md-id>

<md-lccn>97216365</md-lccn>








<md-publication-place>Berlin</md-publication-place>

<md-publication-name>

Archäologisches Seminar der Freien Universität Berlin

</md-publication-name>

<md-publication-date>c1997</md-publication-date>

<md-physical-extent>245 p</md-physical-extent>

<md-physical-format>ill., plans ;</md-physical-format>

<md-physical-dimensions>31 cm</md-physical-dimensions>

<md-series-title>

Schriften des Seminars für Klassische Archäologie der Freien Universität Berlin

</md-series-title>


<md-subject-long>Athens (Greece)., Acropolis, Congresses</md-subject-long>

<md-subject-long>Temples, Greece, Athens, Congresses</md-subject-long>

<md-subject-long>Gods, Greek, Greece, Athens, Congresses</md-subject-long>

<md-subject-long>Athens (Greece), Religion, Congresses</md-subject-long>

<md-subject-long>Religion grecque, Athènes., ram</md-subject-long>

<md-subject-long>Temples, Grèce, Athènes., ram</md-subject-long>

<md-subject-long>Athènes (Grèce), Acropole., ram</md-subject-long>

<md-subject>Athens (Greece)</md-subject>

- 136 -

<md-subject>Temples</md-subject>

<md-subject>Gods, Greek</md-subject>

<md-subject>Athens (Greece)</md-subject>

<md-subject>Religion grecque</md-subject>

<md-subject>Temples</md-subject>

<md-subject>Athènes (Grèce)</md-subject>

<md-holding>c-GenColl DF287.A2 K86 1997 Copy 1 BOOKS</md-holding>

</location>

</record>

Σε αυτή την εντολή ανάκτησης εγγραφής ζητήθηκε η εγγραφή με id=“title kult und kultbauten

auf der akropolis author medium book”. Αυτή η εγγραφή είναι η δεύτερη εγγραφή της

παραπάνω εντολή “show” η οποία αντιστοιχεί σε μια συστάδα εγγραφών που αποτελείται από

δύο εγγραφές, μία που επιστράφηκε από τη βάση δεδομένων με

id=“library.ox.ac.uk:210/ADVANCE” και μία που επιστράφηκε από τη βάση δεδομένων με

id=“z3950.loc.gov:7090/voyager” όπως εμφανίζεται στα στοιχεία “location”. Όπως φαίνεται

παραπάνω εμφανίζονται τα κοινά στοιχεία των εγγραφών της συστάδας και στη συνέχεια μέσα

στο στοιχείο “location” αναλυτικά τα στοιχεία (μαζί με τα κοινά) της εγγραφής. Εμφανίζεται

ένα στοιχείο “location” για κάθε εγγραφή της συστάδας. Τα στοιχεία που εμφανίζονται έχουν

καθοριστεί στα αρχεία ρυθμίσεων.

6.10.8.Εντολή ανάκτησης όρων – Εντολή “termlist”

Η εντολή “termlist” επιτρέπει την ανάκτηση όρων σύμφωνα με τα σημεία πρόσβασης που

δηλώνονται. Δέχεται ως παραμέτρους το αναγνωριστικό της συνεδρίας και μια λίστα

διαχωρισμένη με κόμματα με τα ονόματα των σημείων πρόσβασης (π.χ. author, subject κλπ) στα

οποία ζητείται ανάκτηση όρων. Στην περίπτωση που δίνεται ως όνομα το ‘xtargets’ τότε

επιστρέφεται μια λίστα με πληροφορίες για τους «πληροφοριακούς πόρους» που έχουν

επιστρέψει τις περισσότερες επιτυχίες κατά τις προηγούμενες αναζητήσεις.


- 137 -


myportal/search.pz2?command=termlist&name=author,subject <termlist>


<list name="author">

<term>

<name>Donald Knuth</name>

<frequency>10</frequency>

</term>

<term>

<name>Robert Pirsig</name>


</term>

</list>

<list name="subject">

<term>

<name>Computer programming</name>


</term>

</list>

</termlist>

Αυτή η εντολή ζητά να επιστραφούν όροι συγγραφέα και θεματικοί όροι. Η εντολή “termlist”

έπεται μιας εντολής αναζήτησης και επιστρέφει όρους για αυτή την αναζήτηση. Στο παράδειγμα

επιστρέφονται δύο όροι συγγραφέα και ένας θεματικός όρος με εμφανίσεις, στις εγγραφές που

ικανοποιούν την προηγούμενη ερώτηση, ίσες με 10, 2 και 10 αντίστοιχα (στοιχεία ‘frequency’).

Το στοιχείο ‘name’ δίνει το όνομα του όρου και κάθε λίστα όρων ξεχωρίζει από τις άλλες αφού

περικλείεται μέσα σε ένα ξεχωριστό στοιχείο ‘list’ το οποίο έχει την ιδιότητα ‘name’ στη οποία

δηλώνεται σε ποιο σημείο πρόσβασης αναφέρονται οι όροι της λίστας.


myportal/search.pz2?command=termlist&name=xtargets <termlist>

<term>

<name>library2.mcmaster.ca </name>


<state>Client_Idle</state>

<diagnostic>0</diagnostic>

</term>

</termlist >

Αυτή η εντολή ζητά να επιστραφούν πληροφορίες για τους «πληροφοριακούς πόρους». Ο κάθε

επιστρεφόμενος όρος αποτελείται από το όνομα του «πληροφοριακού πόρου» (id ή name), τον

- 138 -

αριθμό των επιτυχιών που επέστρεψε στο συγκεκριμένο, την κατάσταση του αντίστοιχου

πελάτη που τον εξυπηρετεί (οι διαφορετικές καταστάσεις παρατίθενται αναλυτικά παρακάτω

στην παρουσίαση της εντολής ‘bytarget’) και ενδεχομένως Z39.50 διαγνωστικοί κωδικοί

(diagnostic codes) οι οποίοι δηλώνουν την κατάσταση των αιτήσεων.

6.10.9.Εντολή εμφάνισης πληροφοριών των ενεργών «πληροφοριακών

πόρων» – Εντολή “bytarget”

Η εντολή “bytarget” είναι παρόμοια με την “termlist” με όνομα ‘xtargets’ αφού επιστρέφει

πληροφορίες για τους «πληροφοριακούς πόρους» (targets). Διαφέρει όμως στο ότι επιστρέφει

πληροφορίες για όλες τις ενεργές συνδέσεις της τρέχουσας συνεδρίας και αυτή η πληροφορία

είναι πιο αναλυτική.

Παράδειγμα Χρήσης


myportal/search.pz2?command=bytarget&id=1 <bytarget>

<status>OK</status>

<target>

<id>z3950.loc.gov/voyager/</id>

<hits>10000</hits>

<diagnostic>0</diagnostic>

<records>65</records>

<state>Client_Presenting</state>

</target>

</bytarget>

Με αυτή την εντολή ζητούνται πληροφορίες για τους ενεργές συνδέσεις σε «πληροφοριακούς

πόρους» στη συνεδρία με αναγνωριστικό (id)=1. Το αποτέλεσμα δείχνει ότι είναι ενεργή μία

σύνδεση στον «πληροφοριακό πόρου» με id=“z3950.loc.gov/voyager” ο οποίος έχει στην

τελευταία αναζήτηση συνολικά 10000 επιτυχίες (στοιχείο ‘hits’) και έχει επιστρέψει 65

εγγραφές (στοιχείο ‘records’). Αυτή τη στιγμή βρίσκεται στη διαδικασία εμφάνισης εγγραφών

- 139 -

(στοιχείο ‘state’ με τιμή ‘Client_Presenting’). Οι τιμές που δείχνουν την κατάσταση της κάθε

σύνδεσης σε κάποιο «πληροφοριακό πόρο» είναι οι ακόλουθες: Client_Connecting,

Client_Connected, Client_Idle, Client_Initializing, Client_Searching, Client_Searching,

Client_Presenting, Client_Error, Client_Failed, Client_Disconnected, Client_Stopped,

Client_Continue.

- 140 -

ΓΛΩΣΣΑΡΙ

Agglomerative Συσσωρευτικός

Authentication Επαλήθευση ταυτότητας

Average linkage Μέση σύνδεση

Bigrams Διγράμματοι όροι

Character string Αλφαβητική στοιχειοσειρά

Classification Ταξινόμηση

Client Πελάτης

Cluster Συστάδα

Clustering Συσταδοποίηση

Clustering algorithm Αλγόριθμος συσταδοποίησης

Complete linkage Πλήρης σύνδεση

Criterion function Συνάρτηση αξιολόγησης

Curse of dimensionality Η κατάρα του να έχεις διαστάσεις

Data clustering Συσταδοποίηση δεδομένων

Deduplication Διαδικασία αφαίρεσης διπλότυπων εγγραφών

Distance or dissimilarity measures Μέτρα απόστασης ή διαφορετικότητας

Divisive Διαιρετικός

Document Τεκμήριο

Document clustering Συσταδοποίηση τεκμηρίων

Duplicate records Διπλότυπες εγγραφές

Edit operations Λειτουργίες επεξεργασίας

Entity Οντότητα

Facet analysis Φασετική ανάλυση

Graph-based Στηριζόμενος σε γράφο

Hierarchical Ιεραρχικός

Hierarchical Agglomerative Clustering Ιεραρχική Συσσωρευτική Συσταδοποίηση

Hierarchical Divisive Clustering Ιεραρχική Διαιρετική Συσταδοποίηση

Hits Επιτυχίες

Idle time Άεργος χρόνος

Incremental Αυξητικός

Inter-cluster similarity Ομοιότητα μεταξύ συστάδων

- 141 -

Intra-cluster similarity Εσωτερική ομοιότητα συστάδας

Iterative (reallocation) Algorithm Επανατελεστικός Αλγόριθμος

Metadata Συνοδευτικά δεδομένα – Μεταδεδομένα

Meta-search engine Μηχανή μετα-αναζήτησης

Namespace Ονοματοχώρος

Non-Incremental Μη-αυξητικός

Octet-stream Δυφιοοκταδικό ρεύμα

On the fly Κατά τη διαδικασία

On-line Επιγραμμικός

Parameter settings Παράμετρος ρυθμίσεων

Partitional Διαχωριστικός

Phrase-based Στηριζόμενος σε φράση

Physical Union Catalog Φυσικός Συλλογικός Κατάλογος

Precision Ακρίβεια

Proximity matrix Πίνακας εγγύτητας

Proximity measures Μέτρα εγγύτητας

Quality features Ποιοτικά χαρακτηριστικά

Quantitive features Ποσοτικά χαρακτηριστικά

Ratio Αναλογία/Δείκτης

Raw format Ανεπεξέργαστη μορφή

Readable labels Αναγνώσιμες ετικέτες

Recall Ανάκληση

Record Cluster Συστάδα εγγραφών

Relevance Ranking Κατάταξη σχετικότητας

Reverse proxy Ανάστροφος πληρεξούσιος

Sequential data Ακολουθίες δεδομένων

Similarity measure Μέτρο ομοιότητας

Single linkage Απλή σύνδεση

Single Pass Algorithm Αλγόριθμος μονού περάσματος

Sorting Ταξινόμηση

String Στοιχειοσειρά

Target Πόρος

Term Όρος

Term frequency Συχνότητα εμφάνισης όρου

Term occurrences Εμφανίσεις όρου

- 142 -

Term-Document matrix Πίνακας όρων-τεκμηρίων

Threshold Κατώφλι

Time out Εξωχρονισμός

Token Όρος

Token-based Στηριζόμενος σε όρο

User interface Διεπαφή χρήστη

Vector space model Διανυσματικό μοντέλο

Virtual Union Catalog Εικονικός Συλλογικός Κατάλογος

Web service Υπηρεσία ιστού

Web service request Αίτηση υπηρεσίας ιστού

Weight Βαθμός, Βάρος

- 143 -

ΣΥΝΤΜΗΣΕΙΣ

API Application programming interface

CCL Common Command Language

CQL Common Query Language

FRBR Functional Requirements for Bibliographic Records

HAC Hierarchical Agglomerative Clustering

TF-IDF Term frequency – Inverse document frequency

UPGMA Unweighted Pair Group Method with Arithmetic mean

UPGMC Unweighted Pair Group Method using Centroids

URI Uniform Resource Identifier

Συντμήσεις που εμφανίζονται στα γραφήματα και στους πίνακες αξιολόγησης των

αποτελεσμάτων των πειραμάτων:

to ή term-occ Term occurrences

tf ή term-freq Term frequency

jaro-winkler-s Jaro-winkler single-linkage

jaro-winkler-c Jaro-winkler complete-linkage

jaro-winkler-a Jaro-winkler average-linkage

hac-s Hierarchical Agglomerative Clustering – single linkage

hac-c Hierarchical Agglomerative Clustering – complete linkage

hac-a Hierarchical Agglomerative Clustering – average linkage

bsk-sa BiSecting K-Means – single linkage – arithmetic mean

bsk-ca BiSecting K-Means – complete linkage – arithmetic mean

bsk-aa BiSecting K-Means – average linkage – arithmetic mean

bsk-sm BiSecting K-Means – single linkage – median

bsk-cm BiSecting K-Means – complete linkage – median

bsk-am BiSecting K-Means – average linkage – median

- 144 -

Βιβλιογραφία

Allah, F. A., Grosky, W. I., and Aboutajdine, D. (2007). “On-Line Single-Pass Clustering Based

on Diffusion Maps”. Z. Kedad et al.(Eds.): NLDB 2007, LNCS 4592, pp. 107–118.

Andrews, Nicholas O. and Fox, Edward A. (2007). “Recent Developments in Document

Clustering”. Department of Computer Science, Virginia Tech, Blacksburg, VA. [Internet].

Διαθέσιμο στο http://eprints.cs.vt.edu/arcfhive/00001000/01/docclust.pdf [Ημερομηνία

Πρόσβασης 27/01/2010].

Cohen, W. W., Ravikumar, P., Fienberg, S. E.(2003). “A Comparison of String Distance Metrics

for Name-Matching Tasks”. American Association for Artificial Intelligence (www.aaai.org).

[Internet]. Διαθέσιμο στο http://www.cs.cmu.edu/~wcohen/postscript/ijcai-ws-2003.pdf

[Ημερομηνία Πρόσβασης 27/01/2010].

Freire, N., Borbinha, J. and Calado, P. (2007). “Identification of FRBR Works Within

Bibliographic Databases: An Experiment with UNIMARC and Duplicate Detection

Techniques”. D.H.-L. Goh et al. (Eds.): ICADL 2007, LNCS 4822, pp. 267–276

IFLA Study Group on the Functional Requirements for Bibliographic Records (2009).

“Functional requirements for bibliographic records: Final Report”. [Internet]. Διαθέσιμο στο

http://www.ifla.org/files/cataloguing/frbr/frbr_2008.pdf [Ημερομηνία Πρόσβασης 27/01/2010].

Index Data (2010). «pazpar2» - User’s Guide and Reference”. [Internet]. Διαθέσιμο στο

http :// www . indexdata . com /» pazpar 2»/ doc /» pazpar 2». pdf [Ημερομηνία Πρόσβασης 27/01/2010].

Jain, A. K., Murty, M. N. and Flynn, P. J. (1999). “Data clustering: a review”. ACM Computing

Surveys. 31 (3), pp. 264-323.

Kumar, V. (2000). “An Introduction to Cluster Analysis for Data Mining”. CSci 8980 Data

Mining (Fall 2000). [Internet]. Διαθέσιμο στο

http://www-users.cs.umn.edu/~han/dmclass/cluster_survey_10_02_00.pdf [Ημερομηνία


Michiel de Hoon, Seiya Imoto, Satoru Miyano (2009). “The C Clustering Library”. The

University of Tokyo, Institute of Medical Science, Human Genome Center, 4-6-1 Shirokanedai,

Minato-ku, Tokyo 108-8639, Japan. [Internet]. Διαθέσιμο στο http :// bonsai . ims . u -

- 145 -

http://bonsai.ims.u-tokyo.ac.jp/~mdehoon/software/cluster/cluster.pdf

http://www-users.cs.umn.edu/~han/dmclass/cluster_survey_10_02_00.pdf

http://www.indexdata.com/pazpar2/doc/pazpar2.pdf

http://www.ifla.org/files/cataloguing/frbr/frbr_2008.pdf

http://www.cs.cmu.edu/~wcohen/postscript/ijcai-ws-2003.pdf

http://www.aaai.org/

http://eprints.cs.vt.edu/arcfhive/00001000/01/docclust.pdf

tokyo . ac . jp /~ mdehoon / software / cluster / cluster . pdf [Ημερομηνία Πρόσβασης 27/01/2010].

Mourtagh, F. (1983). “A Survey of Recent Advances in Hierarchical Clustering Algorithms”.

The Computer Journal. 26 (4), pp. 354-359.

Oikonomakou, N. and Vazirgiannis, M. (2005). “A review of web document clustering

approaches”. Data Mining and Knwoledge Discovery Handbook, pp.921-943.

Paepcke, A. et. al. (1998). “Interoperability for Digital Libraries Worldwide”. Communications

of the ACM. 41 (4), pp. 33-43.

Sfakakis, M. and Kapidakis, S. (2003). “An Architecture for Online Information Integration on

Concurrent Resource Access on a Z39.50 Environment”. ECDL 2003, LNCS 2769, pp. 288–299.

Sfakakis, M. and Kapidakis, S. (2009), "Eliminating query failures in a work-centric library

meta-search environment", Library Hi Tech. 27(2), pp. 286-307.

Sitas, A. and Kapidakis, S. (2008). “Duplicate detection algorithms of bibliographic

descriptions”. Library Hi Tech. 26 (2), pp. 287-301.

Steinbach, M., Karypis, G. and Kumar, V. (2000). “A Comparison of Document Clustering

Techniques”. Technical Report #00-034. Department of Computer Science and Engineering,

University of Minnesota. [Internet] Διαθέσιμο στο

http :// glaros . dtc . umn . edu / gkhome / fetch / papers / docclusterKDDTMW 00. pdf [Ημερομηνία


Toney, S. R. (1992). “Cleanup and deduplication of an international bibliographic database”.

Information Technologies and Libraries. 11 (1), pp. 19-28.

Xu, Rui and Wunsch II, Donald C. (2005). “Survey of Clustering Algorithms”. IEEE

TRANSACTIONS ON NEURAL NETWORKS. 16 (3), pp. 645-678.

Xu, Rui and Wunsch II, Donald C. (2008). “Recent advances in cluster analysis”. International

Journal of Intelligent Computing and Cybernetics. 1 (4), pp. 484-508.

Yoo, I. and Hu, X. (2006). “A Comprehensive Comparison Study of Document Clustering for a

Biomedical Digital Library MEDLINE”. JCDL'06, June 11–15, 2006, Chapel Hill, North

Carolina, USA.

Zamir, O. and Etzioni, O. (1998). “Web Document Clustering: A Feasibility Demonstration”. In

- 146 -

http://glaros.dtc.umn.edu/gkhome/fetch/papers/docclusterKDDTMW00.pdf

http://bonsai.ims.u-tokyo.ac.jp/~mdehoon/software/cluster/cluster.pdf

Proceedings of SIGIR’98, Melbourne, Australia. pp.46-54.

Zhao, Y. and Karypis, G. (2001). “Criterion Functions for Document Clustering: Experiments

and Analysis”. [Internet]. Technical Report 01-40. University of Minnesota, Computer Science

Department. Minneapolis, MN. Διαθέσιμο στο

http://users.cs.dal.ca/~eem/malnis/Readings/Karypis/vscluster.pdf [Ημερομηνία Πρόσβασης

27/01/2010].

Κούης, Δ., Ευθυμίου,Φ., Μπράττης, Π., Τσιμπόγλου, Φ. και Πουλή, Κ. (2007). Ελληνική

βιβλιοθηκονομική κοινότητα και συλλογικοί Κατάλογοι : Ευκαιρίες και προκλήσεις., 2007 . Σε

16ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών, Πειραιάς (GR), 1-3 Οκτωβρίου 2007.

[Internet]. Διαθέσιμο στο http://eprints.rclis.org/12687 [Ημερομηνία Πρόσβασης 27/01/2010].

Μπράττης, Π. Α. (2007). “Παρατηρήσεις και προβλήματα στη βάση του ΣΚΕΑΒ”. [Internet].

Διαθέσιμο στο http://www.unioncatalog.gr/ucportal/wrappers/day2/brattis_txt.pdf [Ημερομηνία


- 147 -

http://www.unioncatalog.gr/ucportal/wrappers/day2/brattis_txt.pdf

http://eprints.rclis.org/12687

http://users.cs.dal.ca/~eem/malnis/Readings/Karypis/vscluster.pdf

::::::ΕΡΓΑΣΤΗΡΙΟ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΚΑΙ...

Documents