informatica umanistica b informazione non strutturata: archivi di testi archivi di immagini
TRANSCRIPT
![Page 1: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/1.jpg)
INFORMATICA UMANISTICA B
INFORMAZIONE NON STRUTTURATA:
ARCHIVI DI TESTI
ARCHIVI DI IMMAGINI
![Page 2: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/2.jpg)
CONTENUTI DI QUESTA LEZIONE
Informazione non strutturata Archivi di testi e Information retrieval Il modello vettoriale di ricerca informazioni Espressioni regolari Archivi di immagini ed image retrieval
![Page 3: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/3.jpg)
INFORMATICA ED ARCHIVI
Una delle funzioni principali dell’informatica e’ la creazione ed utilizzo di archivi elettronici: Di testi Di immagini
Questi archivi contengono informazione NON STRUTTURATA nel senso che non e’ organizzata secondo un modello concettuale predefinito, a differenza delle basi di dati
![Page 4: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/4.jpg)
ARCHIVI ELETTRONICI Collezioni di testi:
Articoli scientifici: e.g., ACL Archive http://ucrel.lancs.ac.uk/acl/
Libri: Project Gutenberg: http://www.gutenberg.org/ LiberLiber: http://www.liberliber.it/ Google Books: http://books.google.it/
Collezioni di documenti storici Il Web (da cercare via Google)
Collezioni di immagini: http://www.iccrom.org/eng/lib/photo.htm Il Web (da cercare via Google Image)
![Page 5: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/5.jpg)
5
DATI NON STRUTTURATI (TESTI) E STRUTTURATI (DB) NEL 1996
0
20
40
60
80
100
120
140
160
Data volume Market Cap
UnstructuredStructured
Lucido di Hinrich Schuetze
![Page 6: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/6.jpg)
6
DATI NON STRUTTURATI (TESTI) E STRUTTURATI (DB) NEL 2006
0
20
40
60
80
100
120
140
160
Data volume Market Cap
UnstructuredStructured
Lucido di Hinrich Schuetze
![Page 7: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/7.jpg)
ALCUNI USI DI QUESTI ARCHIVI
Per chi fa ricerca: facilitano la DISTRIBUZIONE di documenti e/o articoli
Facilitano anche la RICERCA di documenti rilevanti
Permettono di condurre analisi Dell’uso del linguaggio (analisi linguistica /
letteraria / storica) Storiche / filosofiche / etc.
![Page 8: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/8.jpg)
RICERCA DI TESTI: RUDIMENTI DI INFORMATION RETRIEVAL
Information retrieval e’ il nome dell’area dell’Informatica che si occupa del ritrovamento di documenti
Idea fondamentale: estrarre automaticamente dai testi informazioni (INDICI) che ne permettano il ritrovamento
Richiede metodi per INDICIZZARE i documenti Analizzare la ‘query’ Cercare i documenti piu’ rilevanti alla query
![Page 9: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/9.jpg)
DOCUMENTI COME INSIEME DI PAROLE
broad tech stock rally may signal trend - traders.
technology stocks rallied on tuesday, with gains scored broadly across many sectors, amid what some traders called a recovery from recent doldrums.
broadmay rallyralliedsignal stockstocks techtechnology traderstraders trend
DOCUMENTINDEX
![Page 10: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/10.jpg)
RICERCA DI ARCHIVI TESTUALI: GOOGLE
Il Web e’ un enorme archivio elettronico che contiene sia documenti quanto informazioni di ogni tipo
Usato estesamente nelle aree umanistiche per facilitare l’accesso a documenti
I motori di ricerca come Google permettono di ritrovare documenti rilevanti usando PAROLE CHIAVE (KEYWORDS)
![Page 11: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/11.jpg)
RICERCA AVANZATA IN GOOGLE
Immagini digitali
“immagini digitali”
albergo Trento OR Rovereto
![Page 12: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/12.jpg)
RICERCA AVANZATA IN GOOGLE: OR
albergo Trento OR Rovereto
![Page 13: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/13.jpg)
RICERCA AVANZATA IN GOOGLE: -
albergo Trento OR Rovereto –”Hotel Verona”
![Page 14: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/14.jpg)
RICERCA AVANZATA IN GOOGLE
Enrico Salerno
+la morte +e +la fanciulla
Enrico * Salerno
![Page 15: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/15.jpg)
ESPRESSIONI REGOLARI
Le espressioni per la ricerca avanzata in Google sono una versione semplificata di un linguaggio per la ricerca chiamato ESPRESSIONI REGOLARI
Le espressioni regolari sono alla base delle capacita’ di analisi dei testi in linguaggi di programmazione come Java o Perl (e nel motore di ricerca Google)
![Page 16: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/16.jpg)
ESPRESSIONI REGOLARI
/agnolotti|ravioli/
/a[b|bb]ecedario/
/ab+ecedario/
![Page 17: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/17.jpg)
ESPRESSIONI REGOLARI
/[0-9]+/
\d, \w, \s
/[^246]/
![Page 18: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/18.jpg)
USI DI ESPRESSIONI REGOLARI: TROVARE GLI INDIRIZZI DI POSTA ELETTRONICA
[email protected], [email protected], [email protected]
Ma non: asmith, @mactech.com, a@a
^([a-zA-Z0-9_\-\.]+)@((\[[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.)|(([a-zA-Z0-9\-]+\.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(\]?)$
![Page 19: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/19.jpg)
INDICI E RITROVAMENTO
1 if play contains word, 0 otherwise
Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth
Antony 1 1 0 0 0 1
Brutus 1 1 0 1 0 0
Caesar 1 1 0 1 1 1
Calpurnia 0 1 0 0 0 0
Cleopatra 1 0 0 0 0 0
mercy 1 0 1 1 1 1
worser 1 0 1 1 1 0
Brutus AND Caesar but NOT Calpurnia
![Page 20: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/20.jpg)
SOMIGLIANZA IN UNO SPAZIO VETTORIALE
kj
kj
qd
qd *cos
θ
dj
qk
N
i ij
N
i ik
N
iijik
jk
ww
wwdqsim
1
2,1
2,
1,,
,
![Page 21: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/21.jpg)
ALTRI MODI PER ‘STRUTTURARE’ DATI NON STRUTTURATI
Per certi tipi di informazione altri modi di strutturazione sono piu’ appropriati
Molta ricerca corrente si occupa del problema di estrarre automaticamente informazioni che permettano di strutturare diversamente i testi
![Page 22: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/22.jpg)
RICERCA PER ENTITA’
![Page 23: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/23.jpg)
ORGANIZZAZIONE TEMPORALE
![Page 24: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/24.jpg)
LIVEMEMORIES
![Page 25: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/25.jpg)
ANALISI LESSICOGRAFICA DEI TESTI
Tipi di analisi: Concordanze Frequenze Collocazioni
Applicazioni: Lessicografia Analisi dello stile Identificazione degli autori
(Vedi anche modulo D)
![Page 26: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/26.jpg)
ANALISI LESSICOGRAFICA DI TESTI
Identificazione delle parole che occorrono in un testo
Costruzione di INDICI Calcolo delle loro FREQUENZE Costruzione di CONCORDANZE
liste ordinate di parole che si trovano in un testo con il contesto
Identificazione di COLLOCAZIONI “corpo contundente”
![Page 27: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/27.jpg)
CONCORDANZE
1 1, 1 | uomini, sono stati e sono o repubbliche o principati. È principati 2 2, 1 | indrieto el ragionare delle repubbliche, perché altra volta ne ragionai 3 5, 2 | assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore 4 8, 1 | dove si trattassi delle repubbliche. Questi sono quando, o per 5 12, 3 | vede a' principi soli e repubbliche armate fare progressi grandissimi, 6 13, 6 | Alessandro Magno, e come molte repubbliche e principi si sono armati 7 15, 1 | molti si sono immaginati repubbliche e principati che non si
![Page 28: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/28.jpg)
COLLOCAZIONI
NOTTE FONDA, LUNA PIENA, ALTA STAGIONE, CORPO CONTUNDENTE
COLLOCAZIONE: sequenza di due o piu’ parole caratterizzate da un forte legame di associazione
![Page 29: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/29.jpg)
TIPI DI COLLOCAZIONI
TERMINI TECNICI: sistema operativo, corte d’Assise
VERBO SUPPORTO: fare attenzione, prendersi un caffe’, dar manforte
COSTRUZIONI IDIOMATICHE: tagliar la corda, tirare le cuoia
![Page 30: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/30.jpg)
PER SAPERNE DI PIU’…
Modulo D
![Page 31: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/31.jpg)
ANALISI STILISTICA AL COMPUTER
Analisi dello stile di uno scrittore Esempi:
“corpo contundente”: tipico burocratese “broken twig” in James Fenimore Cooper Uso dei colori (specialmente rosso) in “Red
Badge of Courage”
![Page 32: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/32.jpg)
IDENTIFICAZIONE DI AUTORI
Identificazione dell’autore di testi storici / testi anonimi Autori dei libri della Bibbia Autori dei Federalist Papers Autore di “Primary Colors”
![Page 33: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/33.jpg)
ARCHIVI NON TESTUALI:IMMAGINI & MULTIMEDIA
Applicazioni: beni culturali, archeologia, storia dell’arte, film ….
Archivi di immagini Ricerca di immagini Analisi statistica di immagini
![Page 34: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/34.jpg)
IMAGE RETRIEVAL
Ricerca di immagini: Usando didascalie od indici costruiti a mano
(LABELS) Usando indici derivati automaticamente
![Page 35: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/35.jpg)
RITROVAMENTO DI IMMAGINI USANDO DIDASCALIE
![Page 36: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/36.jpg)
CONTENT-BASED IMAGE RETRIEVAL
Estraendo automaticamente tratti dall’immagine (CONTENT-BASED IMAGE RETRIEVAL) Ricerca usando immagini ‘simili’ Vettori di tratti visivi (colore, etc)
Esempi: Retrievr
http://labs.systemone.at/retrievr Image Miner (Uni Bremen / IBM) VIPER (Universita’ di Ginevra) http://viper.unige.ch/
![Page 37: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/37.jpg)
CONTENT-BASED IMAGE RETRIEVAL
![Page 38: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/38.jpg)
RISULTATI
![Page 39: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/39.jpg)
CREAZIONE DI ARCHIVI DI TESTI
La creazione di un archivio di testi richiede l’uso di una grande varieta’ di tecniche informatiche: Possibilmente SCANNERIZZAZIONE ‘Ripulitura’ Trasformazione in un formato STANDARD (XML /
TEI) Sviluppo di metodi di RICERCA
![Page 40: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/40.jpg)
BIBLIOTECHE DIGITALI
Sempre piu’ spesso archivi, biblioteche e musei utilizzano tecniche per la digitalizzazione e la preservazione di documenti in formato digitale
Biblioteche digitali vanno oltre archivi di testi ed immagini in quanto documenti contengono METADATI che forniscono informazioni bibliografiche e collegamenti
![Page 41: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/41.jpg)
DIGITALIZZAZIONE E CONSERVAZIONE Ora che la memoria sta
diventando sempre piu’ economica, e con lo sviluppo di metodi piu’ sofisticati di scannerizzazione delle immagini, e’ pensabile creare versioni elettroniche di documenti antichi e fragili per permetterne l’accesso senza danneggiarli
Esempio: progetti della British Library
![Page 42: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/42.jpg)
PRINCIPALI AREE DI RICERCA NELLE BIBLIOTECHE DIGITALI
Preservazione digitale Metadati:
Text Encoding Initiative (prossima lezione) DUBLIN CORE
Infrastruttura: Open Archival Information System (OAIS)
![Page 43: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/43.jpg)
RIASSUNTO DELLE IDEE PRINCIPALI
Modello vettoriale per la ricerca di informazioni non-strutturate
Espressioni regolari (e versione semplificata per Google)
![Page 44: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb58497959361e8c2cfe/html5/thumbnails/44.jpg)
LETTURE ED APPROFONDIMENTI
Tomasi, capitoli 7 e 9 Google search:
Google search basics: http://www.google.com/support/websearch/bin/answer.py?answer=136861
http://en.wikipedia.org/wiki/Google_search GriseldaOnline: http://www.griseldaonline.it/ Robert Harris,
The Personal Computer as a tool for literary analysis