classification ~ mixture modeling - inafbrescia/documents/astroinfoedu/brescia_l2-dm-ai... ·...
TRANSCRIPT
Classification ~ Mixture Modeling
M. Brescia - Data Mining - lezione 2 1
A lot of DM involves automated classification or mixture modeling – How many kinds of data objects are there in my data set? – Which object belongs to which class with what probability? • Different classes often follow different correlations – Or, correlations may define the classes which follow them • Classes/clusters are defined by their probability density distributions in a parameter space
Clustering: Definition
M. Brescia - Data Mining - lezione 2 2
Given a set of data points, each having a set of attributes, and a similarity measure among them, find clusters such that
Data points in one cluster are more similar to one another. Data points in separate clusters are less similar to one another.
Similarity Measures: Euclidean Distance if attributes are continuous. Other problem-specific Measures.
Clustering: Definition
M. Brescia - Data Mining - lezione 2 3
Suddivisione di un insieme di elementi, (rappresentati in forma varia all’interno di uno spazio di parametri), in clusters significa identificare dei sottogruppi accomunati da determinate caratteristiche (parametri).
Gli algoritmi che associano elementi a vari clusters possono essere probabilistici o deterministici. Nel primo caso, per ogni elemento vi è associata una probabilità o grado di appartenenza ad uno o più clusters. In questo tipo di associazione, generalmente, la somma delle probabilità associate ad un elemento è pari ad 1, ma non è sempre questo il caso. Altri algoritmi sono in grado di generare una struttura gerarchica di clusters (struttura ad albero), in cui sulla sommità della struttura lo spazio dei parametri viene suddivisa in un numero limitato di clusters, ciascuno dei quali a sua volta viene suddiviso in vari sub-clusters, proseguendo tale suddivisione fino al livello base con granularità massima
Un qualunque metodo di clustering consiste in una fase in cui si applica una regola o insieme di regole che associano (raggruppano) i vari elementi tra loro. In questo senso, il clustering può divenire una fase intermedia di un processo complesso di “esplorazione” di uno spazio di parametri, piuttosto che il suo fine ultimo (esempio tipico: un processo di “classificazione”)
Gaussian Mixture Modeling
M. Brescia - Data Mining - lezione 2 4
Data points are distributed in some N-dimensional parameter space, xj , j = 1, … N
There are k clusters, wi , i = 1, …, k, where the number of clusters, k, may be either given by the scientist, or derived from the data themselves
Each cluster can be modeled as an N-variate Gaussian with mean μi and covariance matrix Si
Each data point has an association probability of belonging to each of the clusters, Pi
A Popular Technique: K-Means
M. Brescia - Data Mining - lezione 2 6
Start with k random cluster centers Assume a data model (e.g., Gaussian) – In principle, it can be some other type of a distribution Iterate until it converges Repeat for a different k if needed Determine the optimal k : – Monte-Carlo Cross-Validation – Bayesian Information Criterion (BIC)
Some Problems in Clustering Analysis
M. Brescia - Data Mining - lezione 2 7
Data heterogeneity, biases, selection effects … Non-Gaussianity of clusters (data models) Missing data, upper and lower limits Non-Gaussian (or non-Poissonian) noise Non-trivial topology of clustering Useful vs. “useless” parameters …
Outlier population, or a non-Gaussian tail?
Useful vs. “Useless” Parameters
M. Brescia - Data Mining - lezione 2 8
Clusters (classes) and correlations may exist/separate in some parameter subspaces, but not in others
Clustering and Classification
M. Brescia - Data Mining - lezione 2 9
Answering the questions like: – How many statistically distinct kinds of things are there in my data, and which data object belongs to which class? – Are there anomalies/outliers? (e.g., extremely rare classes) – I know the classes present in the data, but would like to classify efficiently all of my data objects • Clustering can be: 1. Supervised: a known set of data objects (“ground truth”) can be used to train and test a classifier – Examples: Artificial Neural Nets (ANN), Decision Trees (DT) 2. Unsupervised: the class membership (and the number of classes) is not known a priori; the program should find them – Examples: Kohonen Nets (SOM), Expectation Maximization (EM), various Bayesian methods…
searches for rare or new types of objects
M. Brescia - Data Mining - lezione 2 10
Now consider ~ 109 data vectors in ~ 102 - 103 dimensions …
Association: Definition
M. Brescia - Data Mining - lezione 2 11
Given a set of records each of which contain some number of items from a given collection;
Produce dependency rules which will predict occurrence of an item based on occurrences of other items.
Sequential Pattern Discovery
Given is a set of objects, with each object associated with its own timeline of events, find rules that predict strong sequential dependencies among different events:
Regression: Definition
M. Brescia - Data Mining - lezione 2 12
Predict a value of a given continuous valued variable based on the values of other variables, assuming a linear or nonlinear model of dependency.
Greatly studied in statistics, neural network fields.
Examples: Predicting sales amounts of new product based on expenditure.
Predicting wind speed as a function of temp., humidity, air pressure, etc.
Time series prediction of stock market indices.
Ricerca supervisionata di un’associazione da un dominio Rn ad uno Rm, con n>m
distinguiamo 2 tipi: curve fitting e function approximation. La prima tenta di validare un’ipotesi che la distribuzione dei dati segua una certa funzione; la seconda tenta di trovare una funzione che correli i dati senza alcuna assunzione a priori circa la forma funzionale della distribuzione dei dati;
•Curve fitting: date le coppie di vettori (x, y) e la forma funzionale che si vuole associare, il sistema trova i migliori parametri che identificano l’associazione ipotizzata; •Function approximation: date le coppie di vettori (x, y), il sistema trova il modello che meglio identifica la correlazione tra i dati (ad esempio una “black box” neurale che approssima una funzione analitica);
Data Mining and Induction Principle
M. Brescia - Data Mining - lezione 2 13
Induction vs Deduction
Deductive reasoning is truth-preserving:
1. All horses are mammals
2. All mammals have lungs
3. Therefore, all horses have lungs
Induction reasoning adds information:
1. All horses observed so far have lungs.
2. Therefore, all horses have lungs.
1. All horses are animals 2. All animals have lungs 3. Therefore, all horses have
lungs
Wrong deduction (the 2nd hypothesis is wrong)
Hypothesis-Based vs. Exploratory-Based
M. Brescia - Data Mining - lezione 2 14
The hypothesis-based method: Formulate a hypothesis of interest.
Design an experiment that will yield data to test this hypothesis.
Accept or reject hypothesis depending on the outcome.
Exploratory-based method: Try to make sense of a bunch of data without an a priori hypothesis! The only prevention against false results is significance:
ensure statistical significance (using train and test etc.) ensure domain significance (i.e., make sure that the results make sense to a domain expert)
Experimental Scientist: Assign level of fertilizer randomly to plot of land. Control for: quality of ground, amount of sunlight,... Compare mean yield of fertilized and unfertilized plots
Data Miner: Notices that the yield is somewhat higher under trees where birds roost. Conclusion: droppings increase yield. Alternative conclusion: moderate amount of shade increases yield. (“Identification Problem”)
Core methods and their scaling
M. Brescia - Data Mining - lezione 2 15
In modern data sets: DD >> 1, DS >> 1 Data Complexity Multidimensionality Discoveries But the bad news is …
The computational cost of clustering analysis: K-means: K × N × I × D Expectation Maximization: K × N × I × D2
Monte Carlo Cross-Validation: M × Kmax2 × N × I × D2
Some dimensionality reduction methods do exist (e.g., PCA, class prototypes, hierarchical methods, etc.), but more work is needed
Terascale (Petascale?) computing and/or better algorithms
N = no. of data vectors, D = no. of data dimensions K = no. of clusters chosen, Kmax = max no. of clusters tried I = no. of iterations, M = no. of Monte Carlo trials/partitions
Core methods and their scaling
M. Brescia - Data Mining - lezione 2 16
Querying: nearest-neighbor O(N), spherical range-search O(N), orthogonal range-search O(N) Density estimation: kernel density estimation O(N2), mixture of Gaussians O(N) Regression: linear regression O(D3), kernel regression O(N2), Gaussian process regression O(N3) Classification: nearest-neighbor classifier O(N2), nonparametric Bayes classifier O(N2), support vector machine O(N3D) Dimension reduction: principal component analysis O(D3), non-negative matrix factorization, kernel PCA O(N3), maximum variance unfolding O(N3) Outlier detection: by robust L2 estimation, by density estimation, by dimension reduction Clustering: k-means O(N), hierarchical clustering O(N3), by dimension reduction Time series analysis: Kalman filter O(D3), hidden Markov model, trajectory tracking 2-sample testing: n-point correlation O(Nn) Cross-match: bipartite matching O(N3)
Artificial Neural Nets (ANN)
M. Brescia - Data Mining - lezione 2 17
Input: various image shape parameters
Output: star, p(s) galaxy, p(g) Other, p(o)
Unsupervised Classifiers
M. Brescia - Data Mining - lezione 2 19
Star Star+fuzz Gal1 (E?) Gal2 (Sp?)
No training data set - the program decides on the number of classes present in the data, and partitions the data set accordingly
How to Incorporate external Knowledge?
M. Brescia - Data Mining - lezione 2 21
Still an open problem in the machine learning • In principle, it should lead to an improved classification • The problem occurs both in a “single pass” classification, and in combining of multiple passes • In machine learning approaches, must somehow convert the external or a priori knowledge into classifier inputs - but the nature of this information is qualitatively different from the usual input (individual measurement vectors)
Two Approaches Using ANN:
1. Include the external knowledge among the input parameters Object dependent Dataset dependent 2. A two-step classification:
Image Parameters {p1, …, pn}
External parameters coordinates, seeing, etc.
Image Parameters {p1, …, pn}
External parameters
Combining Multiple Classifications
M. Brescia - Data Mining - lezione 2 22
Metaclassifier, or a committee of machines with a chairman?
Example of combined data mining
M. Brescia - Data Mining - lezione 2 24
Sistema SW in grado di rivelare la presenza di eventi di fumo (potenziale incendio) da video ricavati da telecamere ottiche fisse generiche in open space. Inoltre l’obiettivo comprende anche lo sviluppo e la verifica di un primo prototipo SW di rivelazione di fumo.
Modulare: composto da moduli SW indipendenti, ciascuno in grado autonomamente di effettuare una detection nell’ottico di eventi di fumo con un certo grado di confidenza, sfruttando specifiche e circoscritte peculiarità in open space; Incrementale: facilmente espandibile, mediante successive integrazioni di ulteriori moduli di detection che permettano di ottimizzarne le prestazioni. Particolare attenzione è quindi rivolta, in fase di progettazione SW, allo standard di interfaccia I/O per i vari moduli; Basato su uno schema “gated expert”: i moduli singoli di analisi forniscono in output un valore reale di confidenza (peso) rispetto al proprio esito di detection. Si prevede di combinare insieme i vari output dei moduli in un modulo finale di tipo supervisionato. Dal confronto di volta in volta tra output del sistema e valutazione dell’oracolo, il modulo finale è in grado di apprendere (training incrementale) dai propri errori (falsi positivi e/o falsi negativi), guadagnando in affidabilità e prestazione, fino ad acquisire l’autonomia decisionale (capacità di generalizzazione); Parametrizzato: il programma del prototipo è dotato di file esterni di configurazione, onde permettere a runtime di modificare ed adattare i parametri; Compatibile: sistema autonomo, ma potenzialmente in grado di essere opportunamente adattato alle esigenze di interfacciamento con altri sistemi SW di detection da camere ottiche;
Example of combined data mining
M. Brescia - Data Mining - lezione 2 25
GRD (Grayed Regions Detection): modulo che sfrutta informazioni sulla deviazione standard in RGB dei campioni video nel tempo; CBS (Chromaticity-based Background Subtraction): modulo per il confronto tra i valori di crominanza del frame video corrente e quello del modello di background. L’algoritmo CBS è utile sia per estrarre immagini di background di riferimento, da utilizzare in altri successivi moduli di detection, sia per l’operazione di background subtraction; SMRD (Slow Moving Regions Detection): modulo di background subtraction con estrazione delle regioni dinamiche. Si basa sul confronto tra immagini di background, corrispondenti alla scena rilevata con diversa (parametrizzata) frequenza di updating; SDR (Shadow Detection and Removal): modulo per identificare e rimuovere le zone d’ombra dinamiche proiettate nelle immagini da falsi eventi di fumo. Ad esempio passaggio di nuvole o banchi di nebbia compatti; SCRD (Smoke Colored Regions Detection): modulo per identificare in YUV le cosiddette regioni smoke-colored, in parte sfruttando la conoscenza delle regioni dinamiche estratte da altri moduli esterni;
Example of combined data mining
M. Brescia - Data Mining - lezione 2 26
Il modulo Moving Regions cross-check and validation fa il check fra output dei 2 moduli CBS e SMRD, per fornire le regioni corrette ai moduli successivi. L’output di ciascun modulo viene fornito al modulo CA (Compound Algorithm), che implementa il training adattivo, effettuando la combinazione pesata delle decisioni di tutti i moduli, in base al responso target dell’oracolo. Il modulo sfrutta il paradigma del machine learning e si basa sulla combinazione delle valutazioni dei singoli moduli di detection. La sua evoluzione è garantita da un training supervisionato mediante confronto (MSE) tra l’output dei vari moduli e quello corretto. L’identificazione di falsi positivi o negativi ottenuta da questo confronto viene utilizzata per adattare, tramite legge matematica, i pesi associati alle varie decisioni dei singoli moduli di detection, innescando un meccanismo virtuoso di trial-and-error guidato.
Example of combined data mining
M. Brescia - Data Mining - lezione 2 27
COLORE COMBUSTIBILE
bianco Fosforo, Paglia
Giallo/marrone Nitrocellulosa, Polvere da sparo, Acido nitrico,
Zolfo, Acido solforico
grigio /bianco residui vegetali secchi
marrone rossiccio cespugli o zone boscate
Grigio/marrone Carta, Legno, Stoffa
Marrone Olio da cucina
Marrone/nero Nafta, Diluente per vernici
Nero Benzina, Carbone, Catrame, Plastica, Cherosene,
Olio lubrificante
Viola Iodio
COLORE GRIGIO Il grigio su una scala RGB varia da un GRIGIO 5% (valore esadecimale = F7F7F7) R = 247 G=247 B =247 fino a GRIGIO 80% (valore esadecimale = 2F2F2F) R= 47 B=47 G=47 Inferiore a 5% viene considerato bianco (255 255 255 come valore massimo) e superiore ad 80% nero( 0 0 0 come massimo) In qualsiasi caso la tonalità di grigio ha un valore uguale per tutti e 3 i valori RGB COLORE MARRONE I colori marrone conosciuti sono MARRONE CHIARO(BF4200) MARRONE SCURO (824200) MARRONE AVANA (424200) La variazione sarebbe tecnicamente solo sulla scala di rosso ( BF , 82 , 42 )
ANALISI DEI COLORI
Example of combined data mining
M. Brescia - Data Mining - lezione 2 28
TIPO COMBUSTIBILE QUANTITA’ DI FUMO
Incendio radente a lettiera foglie secche, strobili,
frammenti di corteccia, rametti
morti
Fumo scarso
Incendio radente di strato
erbaceo
strato erbaceo secco senza
interessamento dei fusti di
eventuali piante presenti.
più alto è il livello di umidità
dello strato erbaceo, tanto
più bianco risulterà il colore
del fumo generato
Incendio radente di strato
arbustivo
Arbusti fumosità non è in genere
molto elevata.
Incendio a chioma passivo Alcune chiome degli alberi, fumo denso e alto
Incendio a chioma attivo Fronte unico delle chiome degli
alberi
Fumo denso e alto
Incendio a chioma
indipendente
Fronte delle fiamme
indipendente sulle chiome
Fumo denso e alto
Incendio a barriera Unione di incendio a chioma e
radente
Fumo denso ed alto
Incendio sotterraneo
superficiale
orizzonti organici: materia
organica in via di decomposizione
(foglie e radici morte, escrementi,
ecc...)
Si evidenziano zone nere più
o meno circolari che
emettono scarso fumo
bianco
Incendio sotterraneo
profondo
gli apparati radicali o gli strati di
torba
non si nota alcuna emissione
di fumo
l’incendio di ceppaia (evolve
in radente o sotterraneo)
Ceppi di castagno, ceppi di oliveti Fumo scarso
Densità e assorbanza del fumo Fumo vs Nebbia Variabilità indotta da condizioni meteo Tipologie di incendio fumo
Example of combined data mining
M. Brescia - Data Mining - lezione 2 29
GRD - Grayed Region Detection
Definiamo grigio un oggetto che nelle tre bande RGB ha valori uguali. 0 0 0 corrisponderà quindi al nero mentre 255 255 255 al bianco, esistono quindi 256 tipi di grigio e sono tutti generabili da un incendio boschivo. Definiamo una zona “ingrigita” quando i suoi pixel risultano più grigi (scarto quadratico medio più piccolo) la definiamo “degrigita” quando i suoi pixel risultano meno grigi (scarto quadratico medio più grande)
nel caso di fumo in una prima fase il fumo semi-trasparente si posiziona a ridosso del background rendendolo più grigio e in una seconda fase (fumo denso) copre completamente lo stesso. Nel secondo caso, i pixel che vanno a coprire la zona del fumo saranno dei grigi (con buona approssimazione) mentre nel primo caso, invece, l'immagine di sfondo sarà percepita come ingrigita, questo si traduce matematicamente in una riduzione dello scarto quadratico medio dei 3 canali che in buona sostanza cercano di appiattirsi su un solo valore, riducendo le differenze.
Example of combined data mining
M. Brescia - Data Mining - lezione 2 30
GRD - Grayed Region Detection
1. Per il primo frame calcola scarto quadratico medio di ogni riquadro e dell'intero frame; 2. Sposta i valori di scarto quadratico medio di ogni riquadro e dell'intero frame nelle variabili
relative al frame precedente; 3. Per il frame attuale calcola scarto quadratico medio di ogni riquadro e dell'intero frame; 4. Confronta i valori dei riquadri interni con quelli analoghi del frame precedente; 5. Se si manifesta un ingrigimento sopra soglia controlla:
1. Il comportamento dei riquadri vicini; 2. Il comportamento globale;
6. Se tutto è compatibile con i criteri sopra esposti segnala il riquadro come riquadro “affumicato”;
7. Ritorna al punto 2.
Example of combined data mining
M. Brescia - Data Mining - lezione 2 31
Il prototipo SW basato sul modulo GRD è stato verificato, in termini di capacità di detection di eventi di fumo con telecamera fissa, utilizzando campioni video generici individuati sul web. In tutti i casi risulta perfettamente funzionante. In generale, dato un video a telecamera fissa, è possibile configurare il modulo affinché riconosca correttamente le zone di fumo rendendolo customizzabile in base alle caratteristiche della zona monitorata (es. distanza del campo di vista della telecamera, zone di transito, etc…).
DM: Confluence of Multiple Disciplines
M. Brescia - Data Mining - lezione 2 32
Data Mining
Database Technology
Statistics
Other Disciplines
X-Informatics
Information Science
Machine Learning
Visualization
Data Mining and Data Warehousing
M. Brescia - Data Mining - lezione 2 33
RECALL: Data Warehouse: a centralized data repository which can be queried for business benefit. Data Warehousing makes it possible to extract archived operational data
overcome inconsistencies between different legacy data formats integrate data throughout an enterprise, regardless of location, format, or communication requirements incorporate additional or expert information
OLAP (On-line Analytical Processing) vs OLTP (On-line Transactional Processing) Multi-Dimensional Data Model (Data Cube) DW with intelligent data marts, based on metadata engineering, to enhance interoperability among different data centers
From OLAP to OLAM
M. Brescia - Data Mining - lezione 2 34
Data
Warehouse
Meta Data
MDDB
OLAM
Engine
OLAP
Engine
User GUI API
Data Cube API
Database API
Data cleaning
Data integration
Layer3
OLAP/OLAM
Layer2
MDDB
Layer1
Data
Repository
Layer4
User Interface
Filtering & Integration Filtering
Databases
Mining query Mining result
DBMS, OLAP, and Data Mining
M. Brescia - Data Mining - lezione 2 35
DBMS OLAP Data Mining
Task Extraction of detailed
and summary data
Summaries, trends and
forecasts
Knowledge discovery
of hidden patterns
and insights
Type of result Information Analysis Insight and Prediction
Method
Deduction (Ask the
question, verify
with data)
Multidimensional data
modeling,
Aggregation,
Statistics
Induction (Build the
model, apply it to
new data, get the
result)
Example question
Who purchased
mutual funds in
the last 3 years?
What is the average
income of mutual
fund buyers by
region by year?
Who will buy a
mutual fund in the
next 6 months and
why?
Example – weather data
M. Brescia - Data Mining - lezione 2 36
Day outlook temperature humidity windy play
1 sunny 85 85 false no
2 sunny 80 90 true no
3 cloudy 83 86 false yes
4 rainy 70 96 false yes
5 rainy 68 80 false yes
6 rainy 65 70 true no
7 cloudy 64 65 true yes
8 sunny 72 95 false no
9 sunny 69 70 false yes
10 rainy 75 80 false yes
11 sunny 75 70 true yes
12 cloudy 72 90 true yes
13 cloudy 81 75 false yes
14 rainy 71 91 true no
DBMS:
Example – weather data
M. Brescia - Data Mining - lezione 2 37
By querying a DBMS containing the above table we may answer questions like:
What was the temperature in the sunny days? {85, 80, 72, 69, 75}
Which days the humidity was less than 75? {6, 7, 9, 11}
Which days the temperature was greater than 70? {1, 2, 3, 8, 10, 11, 12, 13, 14}
Which days the temperature was greater than 70 and the humidity was less than 75? The intersection of the above two: {11}
OLAP: Using OLAP we can create a Multidimensional Model of our data (Data Cube).
For example using the dimensions: time, outlook and play we can create the following model.
sunny rainy cloudy
Week 1 0 / 2 2 / 1 2 / 0
Week 2 2 / 1 1 / 1 2 / 0
Example – weather data
M. Brescia - Data Mining - lezione 2 38
Data Mining:
we can produce the following decision tree:
outlook = sunny humidity = high: no
humidity = normal: yes
outlook = cloudy: yes
outlook = rainy windy = true: no
windy = false: yes
outlook
YES
sunny cloudy rainy
humidity
high
windy
normal false true
NO NO
Artificial Intelligence
M. Brescia - Data Mining - lezione 2 39
Identificazione ed emulazione dei processi mentali
Creare macchine che simulino il comportamento e le funzionalità della mente
Primo approccio
Esplicare i processi mentali paragonando la mente ad una macchina
Secondo approccio
AI – the two approaches
M. Brescia - Data Mining - lezione 2 40
C e r vel lo
M en te
A n a l is i e d
e s tr a p o la zio n e
d e l le
c a r a tte r is tic h e
b io lo g ic h e
fu n zio n a li
A n a l is i e d
e s tr a p o la zio n e d e i
m e c c a n is m i
e la b o r a tiv i e d i
p e n s ie r o
p rim o ap p ro ccio
p r oce s s o d i
e m u laz ion e
m ac c h in a
p e n s an te
seco n d o ap p ro ccio
M ac c h in a
A n a l is i e d
e s tr a p o la zio n e d e i
m e c c a n is m i d i
fu n zio n a m e n to
C e r vel lo +
M en te
A n a l is i e d
e s tr a p o la zio n e d e i
m e c c a n is m i
fu n zio n a li e d
e la b o r a tiv i
s in te s ip r oce s s o
c ogn i ti vo
Soft Computing
M. Brescia - Data Mining - lezione 2 41
Cibernetica Teoria dell’informazione
È la mente che deve indirizzare e suggerire la
creazione di macchine capaci di emulare
i suoi processi
Robotica Intelligenza Artificiale
Soft Computing
The Neurons
M. Brescia - Data Mining - lezione 2 42
NEURONE
potenziale di -70 millivolt
In un cervello umano vi sono
100 miliardi di neuroni Ciascuna e’ in contatto con circa
100.000 altre cellule nervose
~ 100.000.000.000.000 di connessioni
Transmission of thought
M. Brescia - Data Mining - lezione 2 43
assone : trasduzione segnale da elettrico a chimico
dendrite : trasduzione segnale da chimico ad elettrico
neurotrasmettitori
spazio sinaptico
sinapsi
neurone A
neurone B
bits (unità di trasmissione)
assone
dendrite
Synapsis
M. Brescia - Data Mining - lezione 2 44
Pensiero!
attraversamento dello spazio vuoto (spazio sinaptico)
dendrite (segnale chimico)
assone (segnale chimico)
Neurotrasmettitori (segnale elettrico)
In ogni istante decine di migliaia di messaggi, eccitatori e inibitori, afferiscono al neurone.
L’informazione totale è la somma algebrica dei segnali
afferenti al neurone. Se la somma è > della soglia, IL NEURONE SPARA!
1 millisecondo I segnali afferenti possono innescare fenomeni di inibizione (polarizzazione negativa), o eccitazione (polarizzazione positiva)
Specialization
M. Brescia - Data Mining - lezione 2 45
Zone circoscritte del cervello hanno sviluppato un autonomo livello di specializzazione in particolari funzionalità dell’organismo ospite
….e le informazioni?
The memory
M. Brescia - Data Mining - lezione 2 46
La corteccia è composta da alcune decine di miliardi di neuroni.
Si presenta sottoforma di una vasta ed estremamente uniforme disposizione di cellule preposte alla gestione di:
• carattere
• morale
• personalità
• idee
• comportamenti
• pensiero
memoria
La sua morfologia penalizza il paragone con le normali memorie di un computer, ben localizzate e circoscritte.
The memory
M. Brescia - Data Mining - lezione 2 47
MODELLO HEBBIANO
MODELLO REALE
Il processo di memorizzazione avviene tramite le sinapsi. L’elemento elementare di memorizzazione è il neurone!
Il processo di memorizzazione avviene tramite le sinapsi. L’elemento elementare di memorizzazione E’ LA SINAPSI!
spazio limitato!
NO LIMITS!
Natural Intelligence
M. Brescia - Data Mining - lezione 2 48
Il parallelo tra software e mente non è del tutto lecito!
A questo punto:
pensiero fisicamente identificabile come una reazione a catena di sinapsi
una concatenazione di pensieri porta ricorsivamente all’elaborazione di pensieri più complessi
l’insieme di queste reazioni si manifesta in comportamenti (risposte a stimoli esterni)
“L’intelligenza è la predisposizione e capacità ad adattarsi a nuove situazioni, mediante l’uso combinato di conoscenze innate e apprese attraverso l’esperienza accumulata durante l’esistenza!”
Natural Intelligence
M. Brescia - Data Mining - lezione 2 49
Adattamento
Auto
Riproduzione
Mutazioni
genetiche
ComportamentoApprendimento
IntelligenzaEsperienza
Selezione
naturale
Conoscenza
innata
Conoscenza
acquisita
Stimoli
esterni
Memoria
ottimizzazione
arricchimento
specializzazione
INPUT
OUTPUT
elaborazione
generalizzazione
Natural artificial intelligence
M. Brescia - Data Mining - lezione 2 50
….la nascita di una scienza dedicata all’emulazione del cervello è intimamente legata allo sviluppo teorico e tecnologico dell’informatica.
“L’informatica nasce come scienza in grado di risolvere problemi traducibili in sequenze finite di azioni, (algoritmo), in un tempo dipendente sia dalla complessità del problema, sia dalle capacità computazionali dello strumento utilizzato” Von Neumann
Il limite è l’incapacità di trattare problemi riconducibili a ragionamenti di tipo approssimativo ed associativo!
“quasi caldo” “quasi freddo”
Ragionamento approssimato
Ragionamento associativo
Artificial Intelligence
M. Brescia - Data Mining - lezione 2 51
….nasce dunque l’esigenza di estendere il paradigma di Von Neumann, basato sull’elaborazione dei dati, passando all’elaborazione della conoscenza!
….subito un problema:
<< l’idea di introdurre concetti come associatività e incertezza nel processo di elaborazione artificiale dell’informazione ci pone dinnanzi ad un drammatico quesito: una macchina è in grado di pensare? O la mente può essere ricondotta ad un programma di calcolo? >>
conseguenza: dicotomia di pensiero!
“ un programma al computer è una mente! ”
“ il pensiero è dunque riconducibile ad un processo di manipolazione di simboli! “
“ un programma al computer è parte di un sistema di analisi dei processi cognitivi, da cui comprendere i meccanismi della mente! “
IA “forte” SIMBOLISTI
IA “debole” CONNESSIONISTI
Artificial Intelligence
M. Brescia - Data Mining - lezione 2 52
“ L’ IA è l’insieme di modelli che simulano i meccanismi alla base del pensiero e del processo di apprendimento della mente umana, per comprenderne il funzionamento interno! “
L’approccio simbolista è confutabile!
• I processi mentali di un essere intelligente comprendono :
• logica
• razionalità
• sentimento
• fantasia
• intuito
traducibili in simboli
non traducibili in simboli
• L’unica forma di intelligenza che conosciamo è fondata su un sistema nervoso composto da una rete di “connessioni” tra cellule neuroniche!
Darwin ha vinto!
AI & Cybernetics
M. Brescia - Data Mining - lezione 2 53
Nel dopoguerra si avvertiva l’esigenza di unificare le forze, creando una ricerca interdisciplinare, basata sulla sintesi dei fenomeni legati alla mente e all’intelligenza, che portasse alla formulazione di un modello unico!
Nel 1947, Norbert Wiener scrive “ Cybernetics ” : “ La cibernetica consiste nell’instradamento dei processi mentali, basato sul controllo quantitativo dell’informazione trasmessa fra due elementi di calcolo, facenti parte di un unico organismo…”
Ispirano la sviluppo di
• informatica
• robotica
• bioingegneria
Nel 1980, Eduardo R. Caianiello scrive “ La Cibernetica “ : “L’analisi cibernetica è il metodo fondato sull’analisi graduale di un processo cognitivo in passi ben definiti, procedendo dall’osservazione del fenomeno, dalla comprensione del fenomeno, per scaturire nella decisione dell’azione da compiere, culminando nell’esecuzione del comportamento… “
Metodo della scatola grigia
Suddivisione del fenomeno in blocchi più piccoli di cui si conosce il funzionamento interno (blocchi grigi), conservando la “GESTALT” o globalità dei fenomeni percettivi
Conseguenza: creazione di modelli neurali basati sullo studio della rete di connessioni che costituisce il cervello (scatola nera) fino all’analisi delle singole sinapsi (scatole grigie)!
Some Data Mining Software & Projects
M. Brescia - Data Mining - lezione 2 54
General data mining software packages: • Weka (Java): http://www.cs.waikato.ac.nz/ml/weka/ • RapidMiner: http://www.rapidminer.com/ • Orange: http://orange.biolab.si/ • DAME: http://dame.dsf.unina.it/ • Knime: http://www.knime.org/ Packages: • FANN (C): http://leenissen.dk/fann/wp/ • SOM (Matlab): http://www.cis.hut.fi/somtoolbox/ • Netlab: http://www1.aston.ac.uk/eas/research/groups/ncrg/resources/netlab/ • LibSVM: http://www.csie.ntu.edu.tw/~cjlin/libsvm/
Examples of DM tools: DAME
M. Brescia - Data Mining - lezione 2 55
Web-based, distributed DM infrastructure specialized in Massive Data Sets exploration with machine learning methods Contains tools for classification, regression, clustering, visualization: Neural Networks, SOM, SVM, GA, etc. Lots of documentation
http://dame.dsf.unina.it/
Examples of DM tools: WEKA
M. Brescia - Data Mining - lezione 2 56
A collection of open source machine learning algorithms for data mining tasks Algorithms can either be applied directly to a dataset or called from your own Java code Comes with its own GUI Contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization
http://www.cs.waikato.ac.nz/ml/weka/
Examples of DM tools: Orange
M. Brescia - Data Mining - lezione 2 57
Open source data visualization and analysis Data mining through visual programming or Python scripting components for machine learning extensions for bioinformatics and text mining Available for Windows, Mac, Linux
http://orange.biolab.si/
Examples of DM tools: Mirage
M. Brescia - Data Mining - lezione 2 58
Java Package for exploratory data analysis (EDA), correlation mining, and interactive pattern discovery
http://cm.bell-labs.com/who/tkh/mirage/
Examples of DM tools: Knime
M. Brescia - Data Mining - lezione 2 59
http://www.knime.org/
graphical workbench for the entire analysis process: data access, data transformation, initial investigation, powerful predictive analytics, visualisation and reporting. The open integration platform provides over 1000 modules (nodes),
REFERENCES
M. Brescia - Data Mining - lezione 2 60
I. Witten E, Frank & M. Hall, Data Mining: Practical Machine Learning Tools and Techniques, 3rd Ed., Morgan Kaufmann, 2011 P. Janert, Data Analysis with Open Source Tools, O’Reilly, 2010 J. Han, M. Kamber, & J. Pei, Data Mining: Concepts and Techniques, 2nd Ed., Morgan Kaufmann, 2005 P.-N. Tan, M. Steinbach, & V. Kumar, Introduction to Data Mining, Adisson Wesley, 2005 M. Dunham, Data Mining: Introductory and Advanced Topics, Prentice-Hall, 2002. ISBN: 9780130888921 R. J. Roiger & M. W. Geatz, Data Mining: A Tutorial-Based Primer, Addison-Wesley, 2002. ISBN: 9780201741285