applicazione di metodi statistici alla classificazione del traffico in reti dati

27
Applicazione di metodi statistici alla lassificazione del traffico in reti dat Alessandro Finamore Marco Mellia Fabio Neri Relatori:

Upload: rajah-stone

Post on 01-Jan-2016

47 views

Category:

Documents


1 download

DESCRIPTION

Applicazione di metodi statistici alla classificazione del traffico in reti dati. Alessandro Finamore. Marco Mellia Fabio Neri. Relatori:. Il problema della classificazione. Traffico generico. Internet Service Provider. Qual è il protocollo della comunicazione ?. 1/17. - PowerPoint PPT Presentation

TRANSCRIPT

Applicazione di metodi statistici allaclassificazione del traffico in reti dati

Alessandro Finamore

Marco MelliaFabio Neri

Relatori:

1/17

Il problema della classificazione

Traffico generico

Qual è il protocollo della comunicazione?

2/17

Il problema della classificazione

Porta:

Porta: 4662/4672

Porta:

Porta:

Payload: “bittorrent”

Payload: E4/E5

Payload:

Payload: protocollo RTP

Skype Bittorrent

Gtalk eMule

3/17

Classificazione statistica

Caratterizzazione statistica delle comunicazioni

Fase 1

Statistiche

Fase 3

Testing

Sviluppo del sistema di predizione

Analisi degli errori di classificazione

Fase 2

PredizioneTraffico noto

4/17

Classificazione statisticaFase 1

Statistiche

Fase 3

Testing

Fase 2

PredizioneTraffico noto

Caratterizzazione statistica delle comunicazioni Test2

5/17

Chunking e 2

Primi N bytePrimi N byte

C chunks da

b bits

21

2C[ ], … ,

Vettore di statistiche

Frequenze dei valori assunti dai chunk

Distribuzioneuniforme

Esempio di chunk di 4bit

6/17

random

Esempio di chunk di 4bit

6/17

random

deterministico

Esempio di chunk di 4bit

6/17

random

deterministico

mixed

Esempio di chunk di 4bit contatore

7/17

8/17

Classificazione statisticaFase 1

Statistiche

Fase 3

Testing

Fase 2

PredizioneTraffico noto

Caratterizzazione statistica delle comunicazioni

Sviluppo del sistema di predizione Test

Distanza geometrica tra punti in uno spazio

2

Classificazione geometrica

9/17

21

2C[ ], … ,

Iperspazio

Regioni di classificazione

Distanza Euclidea

Support VectorMachine

2i

2j

classe

classe

classenon nota

Distanza Euclidea

10/17

2i

2j Centroide

media aritmetica

Distanza Euclidea

10/17

2i

2j

Veri Neg.“lontani”

Veri Pos. “vicini”

Centroide media aritmetica

Distanza Euclidea

10/17

2i

2j

Falsi Positivi

Centroide media aritmetica

Ipersfera

Distanza Euclidea

10/17

2i

2j Centroide

media aritmetica

Ipersfera Falsi Negativi

Distanza Euclidea

10/17

2i

2j Centroide

media aritmetica

Ipersfera min { Falsi Pos. } min { Falsi Neg. }

Affidabilità distanza euclidea

Support Vector Machine

11/17

Spazio dei campioni(dim. D)

Kernel function

Spazio delle feature

(dim. ∞)

Kernel functions Clusterizzazione più

semplice

Support Vector Machine

11/17

Support vectors

Support vectors

Kernel functions Clusterizzazione più

semplice

Margine Massimizzazione Bordo di classificazione Support Vector LibSVM

Support Vector Machine

11/17

Kernel functions Clusterizzazione più

semplice

Margine Massimizzazione Bordo di classificazione Support Vector

Classificazione Distanza dal bordo

LibSVM

Probabilità

p ( classe )

12/17

Classificazione statistica

Caratterizzazione statistica delle comunicazioni

Fase 1

Statistiche

Fase 3

Testing

Sviluppo del sistema di predizione

Analisi degli errori di classificazione

Fase 2

PredizioneTraffico noto

Test

Distanza geometrica tra punti in uno spazio

2

Analisi dei Falsi Positivi e Falsi Negativi

13/17

Analisi delle tracce datiInternet

Fastweb

Training + Other Modello Traffico noto Falsi Negativi Traffico generico Falsi Positivi

Traccia

RTPeMuleDNS

Trafficonoto

other

Trafficogenerico

circa 1 giorno di cattura

20 GByte ditraffico UDP

14/17

Errori % per alcuni casi critici

Caso A Caso BRtp 0.08 0.23Edk 13.03 7.97Dns 6.57 19.19

Caso A Caso B0.01 0.083.99 0.11.39 2.36

Caso A Caso Bother 13.6 17.01

Distanza euclidea SVM

Caso A Caso B36.68 26.92

Le SVM descrivono bene la geometria delle nuvole … ma è difficile eliminare lo spazio non rappresentativo

Traf. noto(Falsi Neg.)

Traf. gen.(Falsi Pos.)

Introduzione di una classe complementare

15/17

Errori % per alcuni casi critici

Caso A Caso BRtp 0.08 0.23Edk 13.03 7.97Dns 6.57 19.19

Caso A Caso B0.01 0.083.99 0.11.39 2.36

Caso A Caso B- 0.050.98 0.540.12 2.14

Caso A Caso Bother 13.6 17.01

Distanza euclidea SVMSVM con classe complementare

Caso A Caso B36.68 26.92

Caso A Caso B- 0.18

16/17

Prestazioni

Il calcolo del può richiedere molta memoria

Effettuate solo analisi offline

Attraverso ottimizzazione mirate è possibile ottenere risultati anche online

Numero di bit per chunk Numero di chunk

2

La tempistica di predizione è lineare

Valutazione puntuale difficile

Numero di bit per chunk Numero di chunk Numero di protocolli Numero di Support Vector

17/17

Conclusioni

Il è un utile operatore di classificazione2

Le SVM danno risultati migliori ma richiedono l’uso di una classe complementare

Un semplice classificatore a distanza euclidea può essere efficace