la métrologie sur les réseaux : enjeux et quelques problèmes intéressants
DESCRIPTION
La métrologie sur les réseaux : enjeux et quelques problèmes intéressants. Métropolis METROlogie Pour L’Internet et les Services. Projet RNRT. Labellisation en 2001 Projet phare du RNRT en 2001 Projet exploratoire sur 36 mois Date de début : Novembre 2001 LIP6 (coordinateur) - PowerPoint PPT PresentationTRANSCRIPT
La métrologie sur les réseaux :
enjeux et quelques
problèmes intéressants
MétropolisMETROlogie Pour L’Internet et les
Services
Projet RNRT
Labellisation en 2001 Projet phare du RNRT en 2001 Projet exploratoire sur 36 mois Date de début : Novembre 2001
LIP6 (coordinateur) FT R&D, GET, INRIA, Eurecom, LAAS,
Renater
Objectifs
Développer un cadre commun pour la métrologie des réseaux IP Mesure de la Qualité de Service Développement de modèles réalistes Analyse des protocoles et du
comportement du réseau Dimensionnement des réseaux
Organisation du projet
SP 1 : Etat de l’art sur la métrologie dans les réseaux SP 2 : Classification et dimensionnement SP3 : Analyse du réseau SP4 : Méthodes pour la mesure et échantillonnage SP5 : Modélisation SP6 : Tarification et SLA SP7 : Plate-formes de mesures
Approche méthodologique
Plateforme de mesure
PassiveActive
Dép
loiem
ent
0 500 1000 1500 2000 2500 3000 3500 4000
Interprétation
Relier les effets auxcauses
Mesu
res
0 500 1000 1500 2000 2500 3000 3500 4000
0 500 1000 1500 2000 2500 3000 3500 4000
Méthodologies
Classificatio
n
Vérificatio
n d
eS
LA
Surveillance
Dim
ensio
nn
emen
t
An
alyse etco
mp
réhen
sion
...
Retombées applicatives
ModélisationModèlesréalistes
Méthodesprobabilistes et
statistiques
Modélisationempirique
Modélisationmathématique
Scénarios pour lasimulation etl’émulation
Ech
anti
llon
age
Sp
atia
l, te
mp
ore
l et
app
licat
if
SP 2 : Classification et dimensionnement
Objectifs Effectuer un classification des flots
Granularité Type d’application Protocoles
Définir des méthodes de dimensionnement et valider celle ci
Répartition de charge
Tomographie réseau
Tomographie réseau
Inférer l’intérieur du réseau par des mesures marginales Estimation de matrices de trafic Inférence de la topologie du réseau Inférence des caractéristiques du
réseau
Dimensionnement du réseau
Estimation des matrices de trafic
ATL
ORL
NYC
PEN
RLY
CHI
KC
SJ
SEA
STK
83
3
3
10
2
3
5
5
4
15
13
4
4
Determiner la matrice de trafic
Seul le trafic de chaque lien est connu
Objectif Estimer la matrice
de trafic avec des informations limitées
= POPs avec mesuresPOP = Point of Presence
Xj: Demande de trafic pour la paire de POP j
A: matrice de routage Yi: trafic sur le lien i
c = n * (n - 1)
ArxcXc = Yr
ATL
ORL
NYC
PEN
RLY
CHI
KC
SJ
SEA
STK
83
3
3
10
2
3
5
5
4
15
13
4
4
Notations
est un système linéaire fortement sous-déterminé
La solution est une optimisation statistique
Deux directions, 3 techniques : Approche déterministe :
Programmation linéaire Approche Statistique :
Bayesienne Approche EM
Arxc Xc = Yr
Techniques de résolution
Suppose Avec and = Estimation MLE de par Algorithme EM L’algorithme nécessite un bon point de
départ (A priori nécessaire) Minimum locaux
Estimation des composants de X par:
Approche EM
Classification de flots
Classification de flots dans l’Internet
Objectifs de la Classification des flots Caractérisation du trafic
pour comprendre Rasoir d’Occam
Ingénierie de trafic pour traiter
Améliorer la QoS Surveillance
Détecter les flots anormaux Classification comportementale Data mining
Notre approche Caractériser chaque flot par son histogramme Classifier en fonction des histogrammes
Histogrammes ?
Histogrammes et classification
Chaque histogramme Chaque histogramme est une réalisation d’une
distribution aléatoire La classification se fait à l’aide d’un
mélange de loi de Dirichlet.
où appartient au simplex La distribution marginale de chaque bin suit
une distribution béta
11
( , , ) , 1n
n ii
F f f f
1 n
1
1 1 1( , , ) 1 1
1
( , , )n
nn n
n
D X X X X
1, , nX X
1
0 , 1n
i ii
X X
, 1 , ii
i i
A
i iAii i
AX B x x x A
A
Procédure d’inférence
Mélange de Dirichlet Paramètre à estimer
Probabilité a posteriori probabilité
d’appartenance aux classes Appartenance au classe par MAP
Critère de Maximum de vraisemblance Maximum d’a posteriori pour l’appartenance
aux classes. L’optimisation des paramètres de ce
mélange utilise l’algorithme SAEM. Réduit le problème des minimums locaux
1 , ,
1i i ni
k
i
P x p D x
1, , ,i i nip ikt
Méthode SAEM
Classification sur Internet
Données brutes Volume de trafic d’un flot BGP
Granularité de 5 mins (SNMP) Application dans l’ingénierie de trafic
Mesure dans un lien OC-48 Autour de 2600 flots BGP dans le cœur de réseau 800 sont négligeables
Le nombre d’observations est inférieur à 2 Chaque histogramme est calculée sur une journée
de données 24*12 échantillons 20 bins par histogramme
Comportement de la log-vraisemblance
4 classes
4 classes
Vert : 21% des flots 70%BPBleu : 20% des flots 17% BPNoir : 41% des flots 7% BPRouge : 18% des flots 6% BP
Zoologie d’Internet
Stabilité
SP 3 : Analyse du réseau
Objectifs Analyser in vivo le réseaux
Analyse des flots TCP Analyse des délais dans les routeurs Etude des attaques
Caractérisation du trafic Internet
Diversité du trafic Internet (1)
Caractéristiques générales du trafic IP 2 grandes classes de trafic : streaming (audio/vidéo) et
élastique (données) 3 entités principales de trafic : paquets, flots, sessions
Répartition par protocole Prédominance de TCP (> 95% des octets transférés)
TCP UDP Autres
% paquets 85 - 90 10 - 15 négligeable
% octets 94 - 98 2 - 6 négligeable
Diversité du trafic Internet (2)
Répartition par application Prédominance
“classique” de HTTP
Emergence récente et rapide du trafic Pair à pair
80 % du trafic dans certains réseaux
M ain TCP applications throughputs
0
5000
10000
15000
20000
25000
30000
35000
40000
Time
Th
rou
gh
pu
t (k
bit
s/s)
Other
Telnet
RealAudio
MediaPlayer
Quake
Napster
NNTP
SMTP
FTP
HTTPS
HTTP
HTTP SMTP POP3 FTP NNTP Autres
MCI 1997 % paquets 75 6 - 3 < 1 15
Lien Domestique % octets 80 5 - 5 2 8
POP 1 FT 2000 % paquets 65 2 3 5 2 23
Sens montant % octets 33 8 1 9 < 1 48
POP 1 FT 2000 % paquets 65 2 3 6 2 22
Sens descendant % octets 64 0 2 9 3 22
Caractéristiques du trafic IP
Trois entités de trafic (échelles de temps) Paquets: unités élémentaires traitées par la couche IP
Flots: suite cohérente de paquets (même instance d’une application donnée)
Trafic streaming : Communication téléphonique ou video
Trafic élastique : Fichier, message, objet d’une page HTML, …
Sessions: "connexions" au niveau usager Session Telnet, connexion FTP, e-mail Navigation Web : ensemble de pages HTML
Application
Transport TCP, UDP
Réseau, IP
Trafic IP observé Trafic de Poisson
Débit intégré sur
0.01 s
0.1 s
1 s
Modélisation - Processus paquets
Trafic au niveau paquets - Introduction sur l’auto-similarité Processus d’arrivée : extrême variabilité Mono- ou multi-fractal, LRD, phénomènes d’échelle, …
Modèle générique de trafic (TCP)
Hypothèses du modèle Les sessions sont indépendantes, apparaissent selon un
processus de Poisson (un « invariant » de l’Internet) Les flots sont générés « en série » au sein des sessions Le partage de la Bande Passante est équitable entre les
flots présents (idéalisation du contrôle dynamique exercé par TCP)
La performance, en termes de débit moyen de transfert des flots, est insensible aux caractéristiques détaillées des flots
Arrivées de flots
Fin de session
Temps de « lecture »
Début de session
Modélisation - Processus flots (1) Processus d’arrivée des flots
Dépend des différentes définitions possibles des flots (Granularité, Time Out de terminaison, …)
Arrivées non conformes à un processus de Poisson Possible LRD (dépendances à long terme) ?
Fonction d’auto-corrélation des inter-arrivées de micro-flots TCP
Distribution des inter-arrivées de micro-flots TCP
Modélisation - Processus flots (2) Distribution de la taille des flots (en paquets, octets, durée)
Comportement “heavy-tailed” : très bon ajustement par une loi de Pareto (décroissance sous forme de fonction puissance)
Extrême variabilité de la taille des flots : la variance, voire la moyenne, de la loi théorique peuvent être infinies
Phénomène “souris/éléphants” : les flots TCP de taille supérieure à 10 Mo, 1/1000 en nombre, contribuent pour 50% de la charge totale en trafic
Modélisation - Processus sessions
Trafic au niveau sessions Périodes d’activité des utilisateurs Arrivées conformes à un processus de Poisson Longueur, durée des sessions : loi de distribution
“heavy-tailed” (Pareto)Distribution des inter-
arrivées de sessionsFonction d’auto-corrélation des
inter-arrivées de sessions
Etude du passage du micro au macro
Les régles de composition des flots microscopiques et macroscopiques ne sont pas les mêmes
Comment étudier le passage du au Système de couplage
Deux problèmes intéressants Etude de convergence Inférence statistique des paramètres de
couplages
1 2
1
, ,...,t k t k t t t
li i i n
tk
x x f x x x
SP 4 : Méthodes pour la mesure et échantillonnage
Objectifs Développement d’une théorie de
l’échantillonnage Similaire à la théorie classique dans le
traitement de signal Echantillonnage
Spatial Temporel Applicatif
Mesures actives Un agent emet des paquets sur le réseau
Chaque paquet est une sonde qui s’imprégne de l’état du réseau en le traversant
A la réception le processus de pertes et de délai est extrait
Modèle sous-jacent Le réseau est ressenti grâce à ces effets
Les effets sont les pertes et les délais
D(t)
S(t)
T1 T2 T3 T4T1+D(T1)
T2+D(T2)
T3+D(T3)
T4+D(T4)
Challenges existants
Développer une théorie de l’échantillonnage pour la mesure dans le réseau PASTA ou PIZZA ????
Comment échantillonner dans un graphe Quelle est la taille d’Internet ? Quelle sont les performances d’un
algorithme de routage
Objectifs Développer des modèles réalistes du
réseau Macroscopique
Modèle de flots Microscopique
Modèles de TCP Comment passer du micro au macro
Vers une théorie macroéconomique du réseau
SP 5 : Modélisation
Modélisation empirique
De l’interprétation
Des mesures Mais que veulent t’elle
dire ? Interprétation?
Relier les effets aux causes
Être capable de prédire le comportement
A différentes échelle de temps Pouvoir réagir
L’interprétation nécessite un a priori
0 1000 2000 3000 4000 5000 60000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 500 1000 1500 2000 2500 3000 3500 4000
Approches de modélisation Approche descriptive
Le réseau est un boite noire de structure inconnue
Décrire les observations par le biais de paramètres descriptifs statistique
Moyenne, variance, Paramètres de Hurst multi-fractaux, etc…
Approche haut en bas On commence par les
observations et on calcule les paramètres descriptifs
Problème Cela ne répond pas au pourquoi? Cela ne répond pas au what if? Il est difficile d’interpréter les
résultats de modèlisation L’Interpretation nécessite des a
priori Nous n’utilisons pas toute
l’information disponible Nous pouvons utiliser notre a priori
sur le phénomène aboutissant à l’observation
Approche constructive Approche classique Utilise un modèle explicatif des
processus internes au réseau Le réseau est constitué de files
d’attentes, routeurs, liens, … Appliquer la simulation ns or
des méthodes analytiques de files d’attente ou le network calculus, etc…
Approche de bas en haut On commence avec les scenarii
d’entrée et la structure du réseau et obtient les mesures de performances
Problèmes La Généralisation est difficile
Trop de paramètres Les résultats de simulation ne
ressemblent pas aux mesures réelles
L’approche est en boucle ouverte
Objectifs de modélisation Nous avons besoin de modèles pour
Interpréter les mesures Relier les effets aux causes
Developper des descriptions réalistes de réseaux réels
Afin de controller la QoS dans les réseaux réels Définir des scénarios pour des évaluations
réalistes En nourissant des modèles avec des paramètres
réalistes calibrés sur des traces empiriques Il faut mélanger les approches descriptives
et constructives
La caverne de PlatonSocrate. - … Figure-toi des hommes dans une demeure souterraine, en forme de caverne, ayant sur toute sa largeur une entrée ouverte à la lumière;…Figure-toi maintenant le long de ce petit mur des hommes portant des objets de toute sorte…, qui dépassent le mur, Glaucon— Voilà, s'écria-t-il, un étrange tableau et d'étranges prisonniers.- Ils nous ressemblent, répondis-je; et d'abord, penses-tu que dans une telle situation ils aient jamais vu autre chose d'eux-mêmes et de leurs voisins que les ombres projetées par le feu sur la paroi de la caverne qui leur fait face ?
Cadre de l’interprétation
Modèlea priori
Yobservations
ˆˆ ,X
contexte
Xcachés
0 500 1000 1500 2000 2500 3000 3500 4000
Y
Quelle est la cause cachée (X et ) qui a abouti à l’observation de Y Quelle est ma compréhension du phénomène qui génère l’observation ?
Le modèle a priori condense cette compréhension dans Y=M(X,)
Interprétation
Nous avons à résoudre deux problèmes inverses
Le problème de modélisation Quelles sont les paramètres de contexte qui
décrivent le mieux l’environnement Le problème d’interprétation
Connaissant les paramètres quelle est la valeur de l’entrée cachée X qui décrit le mieux l’observation
Beaucoup de problèmes de modélisation peuvent s’exprimer dans ce cadre
L’interprétation de mesures actives La tomographie du réseau
Interprétation de mesures actives Mesures actives
Un agent de mesure envoit des paquets sur le réseau Chaque paquet est une sonde qui s’imprégne des
informations du chemin qu’il emprunte A la réception les pertes et le délai sont extrait et
stockés Modèle sous-jacent
Les effets du réseau sur le flot de mesure sont les délais et les pertes
D(t)
S(t)
T1 T2 T3 T4T1+D(T1)
T2+D(T2)
T3+D(T3)
T4+D(T4)
Mesure active
Trace obtained between France and US
50 msec interval, Pkt size = 100 Bytes
0 1000 2000 3000 4000 5000 60000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Modèle a priori pour l’interprétation Nous supposons a priori que le réseau peut être
décrit par un simple goulot d’étranglement qui est nourrit par un traffic MMPP
Chaque état de traffic MMPP génère un traffic de Poisson de débit
La matrice de transition suit une chaîne de Markov de matrice de transition
Les paramètres de contexte sont =(µ ,K, i, ij) L’entrée X est la suite des états de la MMPP
K BufferMeasurementTraffic
Internet Traffic {i, ij }
µ
Problème de modèlisation
Résultats de la EM =(20, 1.2594,1.07)=(0.03, 0.65, 0.32)
0004.0003.00001.0
0002.0028.0026.0
0006.00645.00651.0
'Q
Problème d’interprétation
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
0
1
2
Trace simulée
How to solve it ?
Problème de modèlisation Méthode de maximum de vraisemblanc Méthode Bayésienne
Problème d’interprétation Maximul d’a posteriori
Conclusion
Verrous
Techniques d’échantillonnages Avancée sur la généralisation Avancée sur l’échantillonnage temporel
Modèles réalistes de trafic Développement de différentes classes de modèles
Analyse et compréhension Bonne compréhension des différents phénomènes
du réseau Analyse des attaques
Dimensionnement Travaux sur l’estimation des matrices de trafic Estimation de l’impact du Pair-à-pair sur le
dimensionnement
Obstacles rencontrés
Définition de la bonne granularité des mesures
Passage du microscopique au macroscopique
Transformation de l’expertise en méthodologie
Problèmes liées à la confidentialité
Retombées du projet Déploiement d’une plateforme de mesure
A notre connaissance la plus importante hors des Etats-Unis Bonne visibilité de la communauté de recherche
française Nationale: AS Métrologie Européenne: NoE E-Next, EuroNGI, contact avec Géant et
DANTE Internationale: Collaboration ave SPRINT, AT&T, INTEL, etc.. Organisation de colloques
IMC 2002, INTIMATE 2003, PAM 2004, IMC 2004 Nombreuses demandes d’expertise
Collaboration dans l’améliorations de produits Rapprochement IPANEMA, QosMos Relations avec QosMetrix
Retombées du projet 1 Draft IETF
Utilisation de RTCP pour effectuer des mesures (Timur Friedman)
Publications 3 revues 22 Conférences internationales
2004 : 2 Sigmetrics, 3 PAM, 2 ICC, etc… 8 conférences francophones 7 soumission en cours 6 publications communes entres partenaires
Essaimage Nombreuses actions vers la communauté réseau
25 tutoriels et interventions invités
Résultats actuels Émergence d’une communauté de recherche
visible Multidisciplinaire Nombreuses publications
Ouverture de nouveaux axes de recherches Topologie du réseau Surveillance et détection d’anomalies Echantillonage