introduction aux donn ees fonctionnelles - institut …mas/coursmastermas.pdf ·  ·...

26
Chapitre 1 Introduction aux Donn´ ees Fonctionnelles La statistique pour donn´ ees fonctionnelles ou analyse des donn´ ees fonction- nelles ´ etudie des observations qui ne sont pas des variables r´ eelles ou vectorielles mais des courbes al´ eatoires. Exemples : – La courbe des temp´ eratures relev´ ee en un point donn´ e du globe est un pro- cessus ` a temps continu compl` etement al´ eatoire. Si on observe la temp´ erature pendant N jours il peut ˆ etre int´ eressant de d´ ecouper la courbe de d´ epart on N courbes qui tracent la temp´ erature pour chacune des journ´ ees d’obser- vation. Chacune des ces courbes journali` eres peut alors ˆ etre vue comme un ´ el´ ement d’un ´ echantillon de taille N constitu´ e de donn´ ees fonctionnelles. – Actuellement des exp´ eriences sont men´ ees sur le campus de l’INRA qui visent ` etudier la croissance de plants de ma¨ ıs issus de vari´ et´ es diff´ erentes et soumis ` a des conditions exp´ erimentales diff´ erentes. Pour chaque plant de ma¨ ıs les appareils de mesure recueillent une fonction qui est bien elle-mˆ eme al´ eatoire (elle d´ epend de la vari´ et´ e de ma¨ ıs, de conditions exp´ erimentales et d’autres fluctuations...) – Dans les deux exemples pr´ ec´ edents les courbes al´ eatoires d´ ependent du temps mais la situation peut ˆ etre diff´ erente. L’analyse spectrom´ etrique des mat´ eriaux (qui vise ` a d´ eduire des propri´ et´ es physico-chimiques par l’exa- men d’un spectre de lumi` ere issu du mat´ eriau) produit aussi des courbes al´ eatoires index´ ees par une longueur d’onde (et plus par le temps) L’´ electrocardiogramme d’un patient, le cours d’une action, un signal audio sont d’autres exemples de donn´ ees fonctionnelles. On peut montrer qu’un image peut aussi ˆ etre mod´ elis´ ee par une fonction al´ eatoire (qui d´ epend cette fois-ci de deux variables). Regarder un film sur support digital revient donc ` a passer en revue un ´ echantillon (cons´ equent certes) de donn´ ees fonctionnelles un peu particuli` eres... La mod´ elisation math´ ematique est assez immuable. Nous avons besoin d’un espace de fonctions not´ e F (nous supposerons que c’est au moins un espace de Banach s´ eparable) et d’un espace de probabilit´ e Ω. Une variable al´ eatoire fonctionnelle est alors une application mesurable X →F . L’espace F est constitu´ e de fonctions d´ efinies sur [0, 1] et ` a valeurs r´ eelles par exemple on peut 1

Upload: trinhhuong

Post on 23-May-2018

219 views

Category:

Documents


1 download

TRANSCRIPT

Chapitre 1

Introduction aux DonneesFonctionnelles

La statistique pour donnees fonctionnelles ou analyse des donnees fonction-nelles etudie des observations qui ne sont pas des variables reelles ou vectoriellesmais des courbes aleatoires.

Exemples :

– La courbe des temperatures relevee en un point donne du globe est un pro-cessus a temps continu completement aleatoire. Si on observe la temperaturependantN jours il peut etre interessant de decouper la courbe de depart onN courbes qui tracent la temperature pour chacune des journees d’obser-vation. Chacune des ces courbes journalieres peut alors etre vue comme unelement d’un echantillon de taille N constitue de donnees fonctionnelles.

– Actuellement des experiences sont menees sur le campus de l’INRA quivisent a etudier la croissance de plants de maıs issus de varietes differenteset soumis a des conditions experimentales differentes. Pour chaque plant demaıs les appareils de mesure recueillent une fonction qui est bien elle-memealeatoire (elle depend de la variete de maıs, de conditions experimentaleset d’autres fluctuations...)

– Dans les deux exemples precedents les courbes aleatoires dependent dutemps mais la situation peut etre differente. L’analyse spectrometrique desmateriaux (qui vise a deduire des proprietes physico-chimiques par l’exa-men d’un spectre de lumiere issu du materiau) produit aussi des courbesaleatoires indexees par une longueur d’onde (et plus par le temps)

L’electrocardiogramme d’un patient, le cours d’une action, un signal audiosont d’autres exemples de donnees fonctionnelles. On peut montrer qu’un imagepeut aussi etre modelisee par une fonction aleatoire (qui depend cette fois-cide deux variables). Regarder un film sur support digital revient donc a passeren revue un echantillon (consequent certes) de donnees fonctionnelles un peuparticulieres...

La modelisation mathematique est assez immuable. Nous avons besoin d’unespace de fonctions note F (nous supposerons que c’est au moins un espacede Banach separable) et d’un espace de probabilite Ω. Une variable aleatoirefonctionnelle est alors une application mesurable X : Ω → F . L’espace F estconstitue de fonctions definies sur [0, 1] et a valeurs reelles par exemple on peut

1

2 CHAPITRE 1. INTRODUCTION AUX DONNEES FONCTIONNELLES

encore preciser les choses. Une v.a. fonctionnelle pourra etre alors vue commeuneapplication X : Ω × [0, 1] → R. Si ω0 ∈ Ω est fixe la fonction X (ω0, ·) est unetrajectoire de X. Si t0 ∈ [0, 1] est fixe X (·, t0) est une simple v.a. reelle.

Dasn toute la suite, une fois que l’espace F aura ete bien specifie nous nementionnerons pas les indices comme ω ou t. Par exemple pour considerer un n-echantillon de donnees fonctionnelles nous noterons invariablement :X1, X2, ..., Xn.

1.1 Pourquoi des donnees fonctionnelles ?

On n’observe jamais une fonction integralement sur toute sa trajectoire. Ilfaudrait pour cela disposer d’instrument de mesures avec une vitesse d’enregis-trement infinie. Meme les cotations les plus rapides sur les marches financiersentierement informatises sont intercalees de quelques millisecondes. Quand lesdonnees fonctionnelles arrivent elles sont pour ces raisons toujours sous formevectorielle. Ainsi on n’observera pas, par exemple X (t) ∀t mais on disposera de[X (t1) , X (t2) , ..., X (tp)] ou les tj constituent une grille de discretisation. Selonle phenomene etudie p peut varier entre quelques unites et plusieurs millions.

Ce type de donnees n’est pas nouveau et a ete etudie pendant longtemps viades techniques multivariees (en voyant X comme un vecteur aleatoire dans Rppour continuer l’exemple precedent). Mais deux problemes apparaissent.

– Si la frequence de discretisation des courbes est elevee (i.e. si p est grand)on peut se retrouver dans des situations ou la taille de X est de l’ordrevoire plus grande que la taille de l’echantillon lui-meme. Cette situationpeut poser des problemes redhibitoires tant sur le plan theorique que dansles aspects numeriques. Cette problematique est commune avec celle debeaucoup de problemes de la statistique en grande dimension.

– En traitant X comme un vecteur on perd completement sa vraie nature,celle de processus en temps continu ou plus generalement de fonction.L’operation de derivation, par exemple, n’a pas de sens dans ce cadre. Ilest logique alors de se poser la question de methodes alternatives danslesquelles, a defaut de saisir X (t) ∀t on pourrait se contenter d’une ap-

proximation X qui, elle, serait une vraie fonction.Cette derniere approche constitue ce que l’on pourrait appeler, par analo-

gie avec la terminologie de la statistique bayesienne, le paradigme des donneesfonctionnelles. Ce paradigme serait resume dans l’acte de foi suivant :

Devant l’impossibilite de reconstruire parfaitement une donnee denature fonctionnelle, je suis pret a ne considerer qu’une

approximation de cette fonction. J’espere, en respectant ainsi lanature initiale de l’echantillon, ameliorer les resultats de l’inference

par rapport a un traitement multivarie.

Il est alors important de definir ce que l’on entend par approximation d’unefonction. Ce concept sera developpe et explicite au sein du chapitre suivant ducours.Pour faire simple disons que l’on cherche a effectuer le passage suivant :

[X (t1) , X (t2) , ..., X (tp)] 7−→ X (t) =

D∑i=1

aiφi (t)

1.2. RUDIMENTS THEORIQUES 3

ou D est un entier naturel, les ai sont des coefficients reels et les φi constituentune base de l’espace F . Bien entendu toutes ces grandeurs dependent du vecteurdes X (tj) et sont donc a priori aleatoires. Reconstruire une version de X ouapproximer X reviendra donc pour nous determiner un developpement de Xdans une base de fonctions.

Le fait que F soit un espace vectoriel (nous avons dit un espace de Banach)est crucial, sinon le developpement dans une base peut ne pas avoir de sens.

Il est frequent que la base φi ne soit pas aleatoire mais fixee (ce sera le casau chapitre suivant) et que seuls les ai et D soient aleatoires. Toutefois uneexception notable existe : elle est associee a l’ACP fonctionnelle de X.

1.2 Rudiments theoriques

1.2.1 Quelques espaces de fonctions classiques

Pour ne pas se placer dans un cadre trop theorique on ne s’interesse ici qu’ades fonctions definies sur un intervalle compact de R qui sera fixe a [0, 1] . Maisle lecteur doit rester conscient que la plupart des ouvrages d’analyse, en lienavec la resolution des EDP, s’interessent a des fonctions definies sur Rd ou surun domaine de Rd.

Exemple 1 : L’espace des fonctions avec m derivees continues :

Cm ([0, 1]) =f : f (m) ∈ C0 ([0, 1])

.

Exemple 2 : Les espaces Lp :

Lp ([0, 1]) =

f : [0, 1]→ R :

∫ 1

0

|f (t)|p dt < +∞.

On note souvent[∫ 1

0|f (t)|p dt

]1/p= ‖f‖p ;

Exemple 3 : Les espaces de Sobolev :

Wm,p ([0, 1]) =

f ∈ Lp ([0, 1]) : ∀i ∈ 1, ...,m ,

∫ 1

0

∣∣∣f (i) (t)∣∣∣p dt < +∞

.

De nombreux autres espaces de fonctions existent comme les espaces deHolder, de Besov. J’en mentionne ici deux autres que nous retrouverons dans lechapitre consacre a l’analyse de Fourier : l’espace des fonctions a C∞ a supportcompact et l’espace des fonctions a decroissance rapide :

f : R→ R : ∀p, limt→±∞

tp |f (t)| = 0

.

1.2.2 Brefs rappels d’analyse

Un espace de Banach est un espace vectoriel norme complet (toute suite deCauchy converge). Soit F un espace de Banach separable (la separabilite signifieque l’espace n’est pas ’trop’ grand). On note F∗ le dual de F . On rappelle queF∗ est l’espace des application lineaires et continues de F vers R. Cet espaceF∗ jouera un role important pour la definition de la covariance plus tard. On

4 CHAPITRE 1. INTRODUCTION AUX DONNEES FONCTIONNELLES

note enfin 〈·, ·〉 le crochet de dualite entre F et F∗ : si x ∈ F et f ∈ F∗ alors〈x, f〉 = f (x) ∈ R.

Attention : des differences notables existent entre les espaces classiques eu-clidiens de type Rd, bien connus et pour lesquels beaucoup de raisonnementsintuitifs permettent des analogies. Ici l’espace F sera en general de dimensioninfinie. Cela induit des differences geometriques notables. J’en retiens deux atitre d’exemple :

– Les normes sur F ne sont pas equivalentes. Dit autrement : ce n’est parcequ’une suite converge avec une norme qu’elle convergera avec une autrenorme. Il sera donc crucial, chaque fois que l’on se place dans un espacede fonctions donne de bien specifier la norme utilisee si celle-ce n’est pasevidente.

– Les boules ne sont pas compactes. Du coup les ensembles compacts ontdes formes non intuitives, beaucoup plus plates qu’en dimension infinie ;il est par exemple impossible d’inclure une boule dans un compact dansce type d’espace de dimension infinie. On dit que F n’est pas localementcompact. Le theoreme de Riesz explicite tres bien les liens entre dimensionet compacite locale.

On s’interessera assez souvent a des cas particuliers importants des espacesde Banach : les espaces de Hilbert. Un espace de Hilbert H est un espace deBanach dans le quel la norme est issue d’un produit scalaire

Theoreme 1 Si H est un espace de Hilbert separable alors (i) Il existe des basesdenombrables (on les notera (ei)i∈N ou (φi)i∈N) et (ii) Tout vecteur x ∈ H sedecompose de facon unique dans la base sous la forme x =

∑i∈N 〈x, ei〉 ei. Enfin

tout element f de H∗ peut se mettre sous la forme f = 〈·, h〉 ou h ∈ H. On peutdonc legitimement assimiler H∗ a H.

Les espaces de Hilbert forment un cadre privilegie pour les statisticiens tra-vaillant sur les donnees fonctionnelles. Ils generalisent de la facon la plus intuitiveles espaces euclidiens et les principaux outils d’analyse associes, notamment lanotion de projection. Ces espaces fonctionnels simples disposent aussi d’excel-lentes proprietes probabilistes.

1.3 Bases de probabilites

Une variable aleatoire fonctionnelle (ou element aleatoire) a ete definie plushaut comme une variable aleatoire definie sur une espace de probabilite classique(Ω,A,P)et a valeurs dans un espace de fonctions dote d’une tribu (F ,F) . Ici Fla tribu associee a F sera dans toute la suite la tribu borelienne donc engendreepar la norme.

On peut commencer par definir trois grandeurs tres importantes :– L’esperance de la variable X notee EX est un element non aleatoire de F

autrement dit (EX) (·) est une fonction. Dire qu’une v.a. fonctionnelle Xest centree reviendra donc ici a dire que l’esperenace de X est la fonctionidentiquement nulle.

– L’operateur de covariance de X generalise la notion de matrice de cova-riance. Notons le Γ. Cet operateur Γest lineaire, continu si E ‖X‖2 existe,et applique F∗ sur F . Il est defini de la facon generale suivante : pour tout

1.3. BASES DE PROBABILITES 5

h dans F∗ :Γ (h) = E [〈X − EX, f〉 (X − EX)]

Developpons un peu l’expression suivante afin de l’expliciter. La variablealeatoire reelle 〈X − EX, f〉 est mulitpliee scalairement a X − EX. Leresultat de Γ (h)est donc non aleatoire et a valeurs dans F . La linearitede l’operation decoule de celle du crochet de dualite.

– La fonctionnelle caracteristique ϕ est une application de F∗ dans C. Elleest definie par :

ϕ (h) = E exp (i 〈X,h〉)

Attention : Cette fonctionnelle ϕ ne dispose pas dans le cas de v.a. fonc-tionnelles de proprietes aussi interessantes que pour de v.a. euclidiennes.En particulier l’equivalence entre convergence en loi d’une suite de v.a. etla convergence de la suite des fonctionnelles caracteristiques devient fausseen general.

Un cas particulier important est celui ou F =H est un espace de Hilbert.Si rien ne change vraiment au sujet de EX il n’en est pas de meme pour Γqui dispose alors de proprietes tres interessantes et que je vais developper unpeu. En effet si F est un espace de Hilbert alors F∗ est assimilable a H et onassimilera Γ a un operateur lineare de H vers H.

Theoreme 2 Supposons que X est centree, verifie E ‖X‖2 < +∞ et que F =Hest un espace de Hilbert separable. Alors Γ est un operateur lineaire, continu,autoadjoint et positif de H vers H. On peut meme montrer qu’il est a tracedonc Hilbert-Schmidt (Cf mini-appendice sur les operateur lineaires). En par-ticulier il admet un spectre denombrable. Ses elements propres s’ils sont notes(λi, φi)i∈N ∈ R+×H verifient Γφi = λiφi ou les valeurs propres λi sont rangeespar ordre decroissant et, en plus d’etre positives verifient

∑i λi. Les vecteurs

propres (φi)i∈N consitituent une base orthonormee de H et disposent de pro-prietes d’optimalite en terme de projection.

Il est alors possible de developper dans la base des (φi)i∈N le processus Xlui-meme. Cette ecriture prend le nom de developpement de Karhunen-Loeve

Definition 3 On appelle developpement de Karhunen-Loeve de X l’ecriture deX sous forme de la serie aleatoire suivante :

X = EX +

+∞∑i=1

√λiηiφi (1.1)

ou les (λi, φi)i∈N sont les elements spectraux de Γ. Les (ηi)i∈N sont alors desvariables aleatoires reelles centrees, reduites et non correlees.

Il est possible d’expliciter ce developpement de facon simple et rapide. Sup-posons X centree. Puisque les (φi)i∈N constituent une base on a toujours :

X =∑+∞i=1 〈X,φi〉φi. Notons alors ηi = 〈X,φi〉 /

√λi. Il est alors simple de voir

que Eηi = 0 et que Eη2i = E 〈X,φi〉2 /λi = 1 puisque E 〈X,φi〉2 = 〈Γφi, φi〉 = λi.

Enfin si i 6= j Eηiηj = E (〈X,φi〉 〈X,φj〉) /√λiλj ou E (〈X,φi〉 〈X,φj〉) =

〈Γφi, φj〉 = λi 〈φi, φj〉 = 0.

6 CHAPITRE 1. INTRODUCTION AUX DONNEES FONCTIONNELLES

Le lien entre operateur de covariance et fonction de covariance :La structure de covariance des processus -qui sont des fonctions aleatoires

particulieres- ou des champs aleatoires est souvent explicitee par une autre gran-deur que l’operateur de covariance : la fonction de covariance. C’est une fonctionde deux variables. Dans le cas d’un processus Zt indexe par t ∈ R+ elle s’ecrit

C (s, t) = EZtZs.

Dans le cas simple ou Z est dans l’espace L2 ([0, T ]) = H et si l’on pose X (·) =Z· il n’est pas tres complique de montrer la relation entre Γ et C (·, ·) :

(Γf) (t) =

∫ T

0

C (s, t) f (s) ds.

Autrement dit l’operateur de covariance s’ecrit dans ce cas comme un operateura noyau dont le noyau est la fonction de covariance.

De facon encore plus generale si X ∈ H Γ est representable dans une base(φi)i∈Npar une matrice de taille infinie, symetrique et positive. La cellule (i, j)de cette matrice s’ecrit :

Γi,j (∈ R) =

∫ T

0

∫ T

0

C (s, t)φi (s)φi (t) dsdt.

Le cas important des fonctions gaussiennes :

Definition 4 Une variable aleatoire fonctionnelle X sur l’espace de Banach Fest gaussienne si pour tout element f ∈ F∗ 〈X, f〉 est une variable aleatoirereelle distribuee selon la loi normale. Dans le cas particulier des processus, Ztest un processus gaussien si

∑ni=1 αiZti est distribuee selon une loi normale,

pour tout choix de n, des ti et des αi.

Exemple 5 Deux exemples de fonctions gaussiennes : le mouvement BrownienW et le pont Brownien B et leurs developpements KL associes :

Wt =+∞∑i=1

1

(k − 1/2)πηiφi φi =

√2 sin ((k − 1/2)πt)

Bt =

+∞∑i=1

1

kπηiφi φi =

√2 sin (kπt)

ou les ηi sont des variables aleatoires qui suivent la loiN (0, 1) et sont independantes.

Remarque 6 Dans le cas d’une fonction aleatoire gaussienne le developpement(1.1) reste vrai mais les ηi sont alors independantes et suivent une loi N (0, 1).

1.4 Convergences stochastiques

Les notions de convergence presque sure, en probabilite, en moyenne quadra-tique, en loi, etc, existent aussi pour les suites de variables aleatoires a valeurssur des espaces de fonctions (ou plus generalement sur des espaces de dimensioninfinie).

On n’evoquera pas ici la convergence en loi qui necessite quelques subtilitesallant au-dela du cadre de ce cours.

1.4. CONVERGENCES STOCHASTIQUES 7

Definition 7 Soit Zn une suite de variables aleatoires a valeurs sur un espacede Banach separable muni de la norme ‖·‖. On dit que Zn converge en probabilitevers Z (qui peut etre aleatoire ou non) si, pour tout ε > 0, P (‖Zn − Z‖ > ε)→ 0quand n → +∞. On dit que Zn converge p.s. vers Z si la variable aeatoirepositive ‖Zn − Z‖ tend vers 0. Enfin on dit que Zn converge vers Z en normeLP si E (‖Zn − Z‖p)→ 0 quand n→ +∞.

Les deux theoremes centraux des probabilites : la loi des grands nombres et letheoreme Central Limite disposent d’equivalent pour les donnees fonctionnelles.Les voici.

Theoreme 8 [LFoGN] : Soit X une v.a. sur un espace de Banach separable.Si X est centree et si on note Sn =

∑ni=1Xi ou les Xi sont des copies independantes

de X alors :Snn→ 0 p.s.⇐⇒ E ‖X‖ < +∞

Exercice :Soit X1, ..., Xn une suite de variable i.i.d. et centree sur un espace de Hilbert

(H, 〈·〉) telle que E ‖X‖2 < +∞. Montrez que cette suite verifie la loi faible desgrands nombres.

Theoreme 9 [TCL sur H] : Soit X une v.a. sur un espace de Hilbert separableH. Si X est centree et si on note Sn =

∑ni=1Xi ou les Xi sont des copies

independantes de X alors :

Sn√n→w GΓ ⇐⇒ E ‖X‖2 < +∞

Ici GΓ est la variable aleatoire gaussienne centree dont l’operateur de covarianceest celui de X.

Remarque 10 Le Theoreme precedent n’est pas vrai dans un espace de Ba-nach general. Plus precisement il existe des espaces F sur lesquels on peut avoirsimultanement E ‖X‖2 < +∞ et Sn/

√n ne converge pas en loi. Fort heureuse-

ment des TCL sont obtenus sur certains espaces comme C ([0, 1]) par exemplemais avec des criteres specifiques.

8 CHAPITRE 1. INTRODUCTION AUX DONNEES FONCTIONNELLES

Chapitre 2

Series de Fourier

Les series de Fourier consitutent un outil fondamental de la theorie du signal.Il donne lieu a des prolongements et des extensions nombreux. Les series de Fou-rier permettent a la fois d’analyser et de reconstruire un signal periodique. Ellesdecomposent le signal dans une base de fonctions sinus et cosinus. Les coeffi-cients associes aux fonctions de base sont interpretables en terme de frequence.

Dans toute la suite on se donne un signal X periodique de periode T . Lecadre classique de la theorie est construit pour un X non aleatoire a valeurscomplexes (i.e. X est une fonction de R vers C) mais tout se transpose a desfonctions aleatoires. On note L2

T les fonctions T -periodiques de carre integrabledefinies sur R et a valeurs dans C.

2.1 Coefficients de Fourier

Definition 11 Soit f ∈ L2T . Les coefficients de Fourier complexes de f sont

definis par

cn (f) =1

T

∫ T

0

f (x) exp−2iπn xT dx, n ∈ Z

Les coefficients de Fourier reels sont definis pour n ∈ N par :

a0 (f) =1

T

∫ T

0

f (x) dx an (f) =2

T

∫ T

0

f (x) cos(

2πnx

T

)dx

bn (f) =2

T

∫ T

0

f (x) sin(

2πnx

T

)dx

Remarque 12 La periodicite implique aussi que cn (f) = 1T

∫ α+T

αf (x) exp−2iπn x

T dxpour tout α reel, ce qui vaut aussi pour an et bn. Dans certains cas il pourra

etre judicieux de calculer plutot an (f) = (2/T )∫ T/2−T/2 f (x) cos

(2iπn xT

)dx ou

bn (f) = (2/T )∫ T

0f (x) sin

(2iπn xT

)dx.

Proposition 13 On peut enfin montrer les relations suivantes qui lient les troistypes de coefficients (attention on choisit ici n ∈ N∗) :

cn =an − ibn

2c−n =

an + ibn2

an = cn + c−n bn = i(cn − c−n)

9

10 CHAPITRE 2. SERIES DE FOURIER

Proposition 14 (i) Si f est paire alors bn = 0 pour n ≥ 1 et si f est impairean = 0 pour n ≥ 1.

(ii) cn (αf + βg) = αcn (f) + βcn (g) . Meme propriete de linearite pour anet bn.

(iii) Si la convolee f ∗ g (definie par f ∗ g (x) =∫f (x− t) g (t) dt) existe

alors cn (f ∗ g) = cn (f) cn (g)

(iv) Si f est k fois derivable alors cn(f (k)

)= (2iπn/T )

kcn (f)

Exercice 15 Montrer les quatre proprietes ci-dessus.

2.2 Sommes et series de Fourier

Definition 16 La serie de Fourier de f est la fonction :

S (f) (x) =

+∞∑k=−∞

ck (f) exp2iπk xT

= a0 (f) +

+∞∑n=1

[an (f) cos

(2πn

x

T

)+ bn (f) sin

(2πn

x

T

)]Les sommes partielles de Fourier a l’ordre N ∈ N sont :

SN (f) (x) =

N∑k=−N

ck (f) exp2iπk xT

= a0 (f) +

N∑n=1

[an (f) cos

(2πn

x

T

)+ bn (f) sin

(2πn

x

T

)]Exercice 17 Retouver la formule de la somme partielle exprimee en terme dean et bn a partir de celle impliquant les ck.

Definition 18 La fonction Hn : x→ an (f) cos(2πn xT

)+ bn (f) sin

(2πn xT

)est

appele harmonique de rang n de f .

Remarque 19 Si f est paire SN l’est aussi. Si f est impaire, SN l’est aussi.Quand aucune ambiguite n’est possible on ecrira cn (f) = cn, etc.

Remarque 20 On peut montrer que E =ek (·) = exp2iπk ·T , k ∈ Z

forme un

systeme orthonorme de l’espace L2T (R,C) quand on le munit du produit scalaire

normalise 〈f, g〉T = 1T

∫ T0fg. Par consequent SN (f) est la projection de f sur

EN =ek (·) = exp2iπk ·T , k ∈ −N, ..., N

.

Exercice 21 Montrer que B =

cos(2πn xT

), sin

(2πn xT

), n ∈ N

constitue egalement

un systeme orthonorme sur l’espace L2T (R,R) pour le produit scalaire 〈f, g〉T .

Exercice 22 Soit f la fonction 2π periodique definie par f (x) = |x| si x ∈[−π, π]. Montrer :

SN (f) (x) =π

2− 4

π

N∑n=1

cos ((2n+ 1)x)

(2n+ 1)2

2.3. RECONSTRUCTION DE FONCTIONS PAR SERIES DE FOURIER.11

Theoreme 23 Soit f ∈ L2T (R,C) et SN la somme partielle de Fourier de f .

On a :

‖f‖2T =1

T

∫ T

0

|f |2 =

+∞∑k=−∞

|ck|2 = a20 +

+∞∑n=1

(a2n + b2n

2

)‖SN (f) (x)‖2T ≤ ‖f‖

2T ∀N ∈ N.

La premiere egalite constitue l’Identite de Parseval. L’inegalite en dessousest appelee Inegalite de Bessel.

Le Theoreme annnonce donc la convergence en moyenne quadratique dessommes partielles de Fourier. Mais aussi que la norme de S (f) est la meme quecelle de f .

Le point (iv) de la Proposition 14 allie a l’identite de Parseval livre plusieursenseignements.

Remarque 24 Les coefficients de Fourier d’une fonction de carre sommabletendent vers 0 ’assez’ vite. La linearite des coefficients nous assure aussi quedeux fonctions ayant les meme coefficients de Fourier sont egales presque partoutsur [0, T ].

Remarque 25 Il est tres important de noter que plus une fonction est reguliere,plus la convergence de ses coefficients de Fourier vers 0 est rapide. De cn

(f (k)

)=

(2iπn/T )kcn (f) on deduit que si f (k) est de carre integrable cn = o

(1/nk

).

Mais si f (k) est de carre integrable, alors f (k−1) est continue et f est doncreguliere (elle est Ck−1). On peut enfin montrer que si f est C∞ ses coefficientsde Fourier sont a decroissance rapide, i.e. pour tout p entier cn = o (1/ |n|p) .

2.3 Reconstruction de fonctions par series deFourier.

Une question a ete jusqu’alors evitee : SN converge-t-elle vers f ? La reponseest positive dans un grand nombre de cas. Encore faut-il specifier le mode deconvergence.considere. En fait le resultat sous jacent a ce chapitre est le suivant :les systemes orthonormes mentiones au-dessus et notes E et B sont bel et biendes bases de Hilbert de L2

T . Par consequent on peut legitimement dire que SNest le projete de f sur les 2N+1 premiers vecteurs de ces bases et que S (f) seradans bien des cas la decomposition exacte de f dans la ’base de Fourier’. Lesresultats principaux de ce chapitre precisent le mode de convergence de SN versf et font intervenir des hypotheses de regularite sur f . Ils legitiment surtout lareconstruction d’un signal par series de Fourier : toute fonction periodique peutse decomposer comme somme de fonctions sinusoidales.

Theoreme 26 Convergence en moyenne quadratique Soit f ∈ L2T (R,C)

et SN la somme partielle de Fourier de f . Alors SN converge vers f dansL2T (R,C) soit encore

‖SN (f)− f‖2T =

∫ T

0

|SN (f)− f |2 →N→+∞

0

12 CHAPITRE 2. SERIES DE FOURIER

On peut revisiter l’identite de Parseval et l’inegalite de Bessel avec ces faits entete puisque formellement SN (f) = PNf ou PN est par exemple la projectionsur BN =

cos(2πn xT

), sin

(2πn xT

), 0 ≤ n ≤ N

.

La convergence en moyenne quadratique s’obtient sous des hypotheses tresgenerales. En rajoutant une hypothese de continuite sur f on obtient un resultatde convergence ponctuelle. Le Theoreme suivant est plus general car il ne necessiteque la continuite par morceau du signal. Il est connu sous le nom de Theoremede convergence de Dirichlet.

Si f est continue par morceaux sur [0, T ] on note :

f (x) =

(limh→0+

f (x+ h) + lims→0+

f (x− s))/2

la version moyennee de f . Si f est continue f = f et sinon f ne differe def qu’aux points de discontinuite (faire un schema). En particulier f et f ontles memes coefficients de Fourier. On note C1

m l’espace des fonctions C1 parmorceaux. .

Theoreme 27 Convergence simple Soit f ∈ C1m ([0, T ]) et SN la somme

partielle de Fourier de f . Alors la serie de Fourier SN converge simplementvers f sur R i.e :

limN→+∞

SN (f) (x)→ f (x) ∀x ∈ R

et si f ∈ C0 ([0, T ]) ∩ C1m ([0, T ]) alors en particulier limN→+∞ SN (f) (x) =

f (x) pour tout x.

Le Theoreme de convergence simple de Dirichlet nous dit bien qu’il y a enquelque sorte un probleme de convergence de la serie de Fourier. Celle-ci est eneffet pour tout N une fonction C∞ meme aux points de discontinuite de f . Laserie de Fourier finit par ’choisir’ la moyenne de f. Mais la convergence s’accom-pagne alors d’un phenomene problematique connu sous le nom de phenomenede Gibbs. C’est un effet de bord au voisinage des discontinuites du signal : lafonctions SN connaıt alors une oscillation d’amplitude non negligeable (environ15% de l’amplitude du saut).

Cette oscillation empeche la convergence uniforme de SN vers f. Une ques-tion naturelle est alors : l’hypothese de continuite suffit-elle a assurer une conver-gence uniforme ? Le Theoreme suivant (de convergence uniforme de Dirichlet)repond a la question.

Theoreme 28 Convergence simple Soit f ∈ C1m ([0, T ]) ∩ C0 ([0, T ]) alors

la serie de Fourier SN converge uniformement vers f sur R

supx∈R|SN (f) (x)− f (x)| →

N→+∞0

On peut raffiner le resultat precedent et s’affranchir de l’hypothese f ∈C1m ([0, T ]) mais il faut pour cela modifier SN (f) . Le theoreme de Fejer assure

la convergence uniforme des moyennes de Cesaro des SN sous la seule hypothesede continuite de f . En posant S∗N (f) (x) = 1

N

∑Nn=1 Sn on aboutit alors a

supx∈R |S∗N (f) (x)− f (x)| →N→+∞

0. Ce resultat n’a pas a etre retenu.

2.4. IMPLEMENTATION NUMERIQUE PAR LA TRANSFORMEE DE FOURIER DISCRETE13

Figure 2.1 – Phenomene de Gibbs

2.4 Implementation numerique par la transformeede Fourier discrete

En pratique la fonction f est echantillonnee, c’est a dire que l’on observeuniquement les valeurs (f (t1) = f1, ...f (tN ) = fN ) . On peut alors definir laTFD.

Definition 29 La TFD du signal discret (f1, ...fN ) est un vecteur complexe(s (1) , ..., s (N)) defini par

s (n) =

N∑j=1

fj · e−2iπjn/N .

On a donc la relation matricielle suivante : s = Ωf ou :

Ω =

1 1 1 1 11 ω ω2 ... ωN−1

1 ω2 ω4 ... ω2(N−1)

1...

.... . .

...

1 ωN−1 ω2(N−1) ... ω(N−1)2

Ce calcul matriciel peut-etre effectue rapidement via un algorithme special ap-pele Transformee de Fourier rapide (FFT). La description de cet algorithme sortdu cadre de ce cours.

14 CHAPITRE 2. SERIES DE FOURIER

Le lien entre transformee de Fourier discrete et coefficients de Fourier peut-etre explicite. En effet l’integrale definissant cn par exemple peut etre ap-proximee par une methode des rectangles. Ainsi en suuposant que ti = iT/Npour simplifier les calculs il vient :

cN 'N−1∑j=0

T

Nfj · e−2iπjn/N =

T

Ns (n)

Dans le package stats de R vous trouverez la fonction fft. Le package fftw

est dedie a la transformee de Fourier discrete. Matlab est actuellement pluscomplet que R pour l’analyse de Fourier.

Chapitre 3

Splines de lissage

3.1 Presentation

Les donnees collectees le long de la trajectoire d’une fonction sont bien sou-vent bruitees. On peut modeliser ce genre de phenomene selon une equation detype signal-bruit :

yj = s (tj) + εj (3.1)

Ici les obervations sont les (tj , yj)1≤j≤≤N et ε designe un bruit. On cherche

a reconstruire la fonction s (·) definie sur [0, T ] et 0 < t1 < ... < tN < T . Il y adonc deux grandeurs inconnues dans ce modele : s et ε.

On notera dans toute la suite s le resultat : s ne depend que des (tj , yj)1≤j≤≤N .Mais il y a deux contraintes a respecter.

– On veut que la courbe reconstruite soit proche des donnees initiales. Parexemple, que

N∑j=1

(yj − s (tj))2

soit petit.– On peut aussi vouloir que la courbe reconstruite soit assez lisse et qu’elle

ne repercute pas tout le bruit du a la variable ε du modele. Cela revienta supposer a priori que s appartient a un espace de fonctions lisses. Cettedeuxieme condition est le plus souvent contradictoire avec la precedente.Il y a beaucoup de facon de definir un espace de fonctions lisses. On peutpar exemple considerer l’espace des fonctions dont la derivee kieme existeet est continue en tout point d’un intervalle. Un critere assez proche dece dernier revient a definir un espace de fonctions lisses par un critere

unique : la convergence de∫ [f (k)

]2. En analyse l’integrale du carre d’une

fonction est souvent appele l’energie de la fonction.

Si nous reprenons les deux criteres enonces plus haut, on peut batir un criteremathematique qui en fait la synthese pour reconstruire la fonction s a partirdes donnees (tj , yj)1≤j≤≤N :

mins∈Fk

N∑j=1

(yj − s (tj))2

+ λ

∫ [s(k) (t)

]2dt (3.2)

15

16 CHAPITRE 3. SPLINES DE LISSAGE

ou Fk est une espace a preciser mais dont on sait deja qu’il est compose de

fonctions s telles que∫ [s(k) (t)

]2dt < +∞.

Le parametre λ est inevitable. C’est bel et bien le multiplicateur de Lagrange,rencontre dans la plupart des problemes d’optimisation lineaire sous contraintes.Il exprime le fait que nous cherchons s qui minimise un critere des moindrescarres assorti d’une contrainte de regularite. En pratique ce parametre devraetre determine en sachant :

– qu’une valeur faible du λ privilegiera la fidelite aux donnees (a la limiteλ = 0, la solution interpolera simplement les points (tj , yj)1≤j≤≤N ) audetriment de la regularite de s.

– qu’une valeur forte de λ selectionnera une fonction lisse mais risquantd’etre peu fidele aux donnees. A la limite (λ→ +∞) la solution sera unedroite : la regression lineaire des yj sur les tj .

Le parametre λ est appele au choix parametre de lissage ou de penalite.

Remarque 30 Dans le cas ou le modele (3.1) n’est pas bruite et s’ecrit yj =s (tj) , on cherche juste a interpoler.

3.2 Cadre mathematique

Commencons par un theoreme qui donne precisement le forme des solutionsdu programme (3.2).

Theoreme 31 La solution s∗ du programme 3.2 est appelee spline naturelle delissage d’ordre k. Elle est definie sur [0, T ] de la facon suivante :- La restriction de s∗ aux intervalles [0, t1] et [tN , T ] est un polynome de degre≤ k − 1-La restriction de s∗ aux intervalles [tj , tj+1] est un polynome de degre ≤ 2k−1-La fonction s∗ ∈ C2k−2 ([0, T ])

Interpretation : La spline naturelle est donc un polynome de degre ≤ 2k−1defini par morceaux sur chacun des intervalles [tj , tj+1] , a part aux bords ou lepolynome est de degre ≤ k−1. Elle admet globalement 2k−2 derivees continues.Cela signifie qu’aux noeuds tj des conditions sous jacentes assurent la continuitedes derivees successives de s.

Dans toute la suite, pour simplifier les calculs et le formalismenous nous restreindrons au cas de la spline naturelle cubique, tresusitee dans des applications de base et correspondant au cas k = 2 audessus.

Exemple 32 Un exemple de spline cubique (non naturelle -pourquoi ?) sur[0, 1] :

s (x) = x2 si 0 ≤ x < 1/4s (x) = x/2− 1/16 si 1/4 ≤ x < 1/2s (x) = x2 − x/2 + 3/16 si 1/2 ≤ x < 3/4s (x) = 2x2 − 2x+ 3/4 si 3/4 ≤ x < 1

La spline naturelle cubique est donc generalement definie par :

s (x) = αj (t− tj)3+ βj (t− tj)2

+ γj (t− tj) + δj tj ≤ t ≤ tj+1, j ∈ 2, ..., N − 2s (x) = γj (t− tj) + δj tj ≤ t ≤ tj+1, j ∈ 1, N − 1

3.2. CADRE MATHEMATIQUE 17

Assorti des conditions (on note sj = s|[tj ,tj+1]) :

sj (tj) = sj+1 (tj) , s′j (tj) = s′j+1 (tj) , s

′′j (tj) = s′′j+1 (tj)

L’ecriture ci-dessus est assez intuitive mais n’est pas la plus pratique pour es-timer les differents parametres (αj , βj , etc). On adopte alors une autre representationsouvent appelee representation g − γ de la spline cubique. Elle est basee sur leresultat suivant :

Proposition 33 Soit [a, b] un intervalle reel et soit P un polynome de degre3 defini sur [a, b] . Alors P est parfaitement identifie par la donnee des deuxvecteurs g = (P (a) ,P (b)) et γ = (P′′ (a) ,P′′ (b)) .

Exercice 34 Demontrer cette proposition et trouver l’expression des coefficientsdes monomes de degre 3 et 4 de P en fonction de g et γ.

Revenons a notre spline cubique naturelle s. On introduit les deux vecteurs :

g = (s (t1) , ..., s (tN ))

γ = (s′′ (t2) , ..., s′′ (tN−1))

Comme la spline est naturelle on a necessairement s′′ (t1) = s′′ (tN ) = 0 ; lesbords sont en effet des segments de droite.

Proposition 35 Les vecteurs g et γ caracterisent completement s et permettentde la reconstruire integralement. Mais -attention- n’importe quel choix de vec-teurs g et γ ne permet pas de reconstruire une spline. En fait g et γ sont liespar l’intermediaire de s.

Le but du prochain resultat est de donner la relation qui lie g et γ. Pourcela nous devons introduire deux matrices Q et R. On note hi = ti+1− ti et oncommence par construire la matrice rectangulaire Q de taille N × (N − 2) :

Q =

h−11 0 · · · · · · 0

−h−11 −h

−12 h−1

2

. . .. . .

...

h−12

. . .. . .

. . ....

0. . . −h−1

i −h−1i+1

. . . 0...

. . . h−1i+1

. . . h−1N−2

... · · ·. . .

. . . −h−1N−2−h

−1N−1

0 · · · · · · 0 h−1N−1

On note enfin la matrice R de taille (N − 2)× (N − 2)

R =

(h1+h2) /3 h2/6 0 · · · 0

h2/6. . .

. . .. . .

0. . . (hi−1+hi) /3 hi/6

...

. . . hi/6. . .

. . . 0...

. . .. . . hN−2/6

0 · · · 0 hN−2/6 (hN−2+hN−1) /3

18 CHAPITRE 3. SPLINES DE LISSAGE

Exercice 36 Ecrivez les matrices Q et R quand t1 = 0, tN = 1 et que la grillede discretisation ti est uniforme : ti+1 − ti = ∆t = 1/N

La matrice R etant definie positive R−1 existe et on peut finalement definirla matrice-cle suivante :

K = QR−1Qt

Theoreme 37 Les vecteurs g et γ caracterisent une spline cubique naturelle siet seulement si la relation suivante est verifiee :

Qtg = Rγ

et on peut alors montrer que∫

[s′′ (t)]2dt = γtRγ.

Cette relation peut etre vue en terme statistique comme une conditiond’identifiabilite de la spline au travers des parametres g et γ.

Nous sommes desormais prets a determiner explicitement la spline. Revenonsau modele (3.1). Les resultats etablis jusqu’alors : theoreme 31 , proposition 35 ettheoreme 37 nous permettent de dire que la connaissance du vecteur g mpliquecelle de γ et suffit pour tracer le polynome par morceaux s. Notre etude seracomplete des que nous serons en mesure d’expliciter le vecteur g uniquement apartir des donnees initiales.

Reprenons le programme (3.2) avec k = 2 et reecrivons-le sous frome vecto-rielle. Nous avons d’apres 37 :

N∑j=1

(yj − s (tj))2

+ λ

∫[s′′ (t)]

2dt = (Y − g)

t(Y − g) + λγtRγ

= (Y − g)t(Y − g) + λgtQR−1Qtg

= (Y − g)t(Y − g) + λgtKg

= YtY + gtg − 2gtY + λgtKg

= YtY − 2gtY + gt (I + λK) g

Et (3.2) se reecrit sous une forme nouvelle :

ming

[YtY − 2gtY + gt (I + λK) g

](3.3)

Theoreme 38 La solution du programme (3.3) existe, est unique et donnee par

g = (I + λK)−1

Y

dont on deduit aussi :

γ = R−1Qt (I + λK)−1

Y

Exercice : Prouver le theoreme.

3.3. LES SPLINES DE LISSAGE EN PRATIQUE : ALGORITHME DE REINSCH ET PARAMETRE DE PENALITE19

3.3 Les Splines de lissage en pratique : algo-rithme de Reinsch et parametre de penalite

Le calcul pratique de g se fait la plupart du temps via un algorithme introduiten 1967 par Reinsch. Cet algorithme calcule d’abord γ et resoud le probleme enutilisant la decomposition de Cholesky d’une matrice symetrique definie positivea bande. Il ne necessite qu’une seule inversion de matrice et sa complexite n’estqu’en O (N) .

Le choix du parametre λ est le plus souvent guide par la methode de lavalidation croisee. On retire tout d’abord un couple (ti, yi) de l’echantillon initialet on calcule la spline sur l’echantillon reduit, de taille N − 1. On obtient alors

une spline notee s(i)λ qui depend toujours du parametre λ. La validation croisee

consistera ici a trouver la valeur λ∗ qui minimise le critere :

CV (λ) =

N∑i=1

[yi − s(i)

λ (ti)]2.

On considere donc dans chaque terme de cette serie une erreur de prevision en

un point -ti- qui n’a pas servi au calcul de s(i)λ . La pratique dans ce genre de

situation est de calculer le critere sur une grille de valeurs du λ. On obtientalors [CV (λm)]1≤m≤M et on extrait λ∗ = minm CV (λm) . Evidemment il faut

implementer NM calculs de s(i)λ ce qui peut etre assez lourd. Heureusement la

relation g = (I + λK)−1

Y permet de grandement simplifier le calcul du critereCV. On peut en effet montrer que :

yi − s(i)λ (ti) =

yi − s∗ (ti)

1− cii

ou cii designe le ieme element diagonal de la matrice (I + λK)−1

. On remplace

donc s(i)λ par s∗ qui a deja ete calculee. Le prix a payer est le calcul de cii mais

celui-ci peut etre mene simultanement avec celui de s∗ et avec une complexitedu meme ordre. Cette astuce evite donc le calcul intermediaire des N splines

s(i)λ .

Un exemple de code R pour calculer et tracer une spline (cet exemple est di-rectement extrait de l’aide en ligne pour la fonction smooth.spline du packagestats) :

y18 <- c(1:3,5,4,7:3,2*(2:5),rep(10,4))

xx <- seq(1,length(y18), len=201)

s1 <- smooth.spline(y18, spar = 0.2)

s2 <- smooth.spline(y18, spar = 0.5)

s0 <- smooth.spline(y18)

plot(y18, main=’3 splines de lissage’, xlab=’x’, ylab=’y’,col.main=2)

lines(predict(s1, xx), col = 3)

lines(predict(s2, xx), col = 5)

lines(predict(s0, xx), col = 2)

20 CHAPITRE 3. SPLINES DE LISSAGE

Chapitre 4

Ondelettes

4.1 Le principe

Un des problemes majeurs des series et donc des coefficients de Fourier c’estqu’ils ne sont definis que pour des signaux periodiques. Par ailleurs, l’etude desharmoniques d’un signal au travers de sa serie de Fourier nous donne en quelquesorte une liste des frequences importantes et du poids associe a chacune d’ellesmais ne nous renseigne pas sur la question suivante : a quel moment telle ou tellefrequence est-elle preponderante ? Autrement dit l’analyse de Fourier classiquecloisonne fortement le temps d’un cote et les frequences de l’autre. Les ondelettesvont nous permettre de pratiquer une analyse liant temps et frequence.

L’idee tres grossierement brossee est la suivante. On se donne une fenetre eton fait glisser cette fenetre le long du signal pour en faire une etude locale. Oncalcule sur cette fenetre une sorte de transformee de Fourier qui nous decrira larepartition frequentielle locale.

Pour preciser les choses, ce ne sont pas des cosinus et sinus tronques quel’on va utiliser mais une famille de fonctions qui se deduisent les unes des autrespar translation-dilatation. C’est pour cette raison que le terme de transformeede Fourier n’est plus adequat mais sera remplace par celui de transformee enondelettes. Et la notion de frequence va laisser la place a celle de resolution.

N.B : il existe une theorie des ondelettes continues. Je ne l’aborderai pasici pour des raisons de temps et me concentrerai sur les versions discretes de latransformee en ondelettes.

4.2 Un exemple important : l’ondelette de Haar

Soit f une fonction quelconque de L2 ([0, 1]) . On cherche une approximationde f par des fonctions en escaliers de la facon suivante.

– On fixe un j ∈ N et on en deduit un grille de sous intervalles diadiques quiforme une partition de [0, 1] :

[k/2j , (k + 1) /2j

]ou k ∈

0, 1, ..., 2j−1

.

Plus j est eleve plus la grille est fine. L’entier j est le niveau de resolution.– On definit des fonctions en creneau normees dans L2 ([0, 1])

φk,j (t) =

√2j si t ∈

[k/2j , (k + 1) /2j

]0 sinon

21

22 CHAPITRE 4. ONDELETTES

On constate alors que∫φk,jφk′,j = 1 si k = k′ et 0 sinon. Notons alors :

Vj = vectφk,j : k ∈

0, 1, ..., 2j−1

On voit que dimVj = 2j et que les φk,j constituent bien une base ortho-normee de Vj .

– Soit t ∈ [0, 1], l’approximation suivante est vraie si j est grand :

f (t) '2j−1∑k=0

〈f, φk,j〉φk,j (t) (4.1)

mais... il n’y a pas egalite en general.– Clairement Vj Vj+1 et Vj+1 est deux fois plus precise que Vj . On peut

montrer que :∪j∈NVj = L2 ([0, 1]) . (4.2)

On peut se poser la question suivante : puisque Vj Vj+1, commentdoit-on completer Vj pour construire Vj+1 ? En d’autre terme : quel est lesous-espace vectoriel Wj tel que Vj⊕Wj = Vj+1 ? La dimension de Wj seranecessairement 2j . En faisant un nouveau schema on voit que :

Wj = vectψk,j : k ∈

0, 1, ..., 2j−1

,

ψk,j =

√2j si t ∈

[k/2j , (2k + 1) /2j+1

],

−√

2j si t ∈](2k + 1) /2j+1, (k + 1) /2j

].

On peut noter au passage les relations suivantes : φ2k,j+1 = φk,j + ψk,j etφ2k+1,j+1 = φk,j − ψk,j . On a donc aussi :

V0⊕ ⊕jWj = L2 ([0, 1]) .

Remarque 39 On dit alors que les couples (Vj ,Wj)j∈N forment une analyse

multi-resolution de L2 ([0, 1]) .

Proposition 40 Les fonctions φk,j et ψk,j s’obtiennent par translation dilata-tion respectivement des fonctions φ = φ0,0 = 1[0,1] et ψ = ψ0,0 = 1[0,1/2]−1]1/2,1]

de la maniere suivante :

φk,j (t) =√

2jφ(2jt− k

),

ψk,j (t) =√

2jψ(2jt− k

).

La fonction φ est appelee ondelette-pere et la fonction ψ ondelette-mere.

On est en mesure de revisiter l’equation (4.1) qui devient alors, en fixant unindice J ∈ N :

f (t) ' fJ (t) =

J∑j=0

2j−1∑k=0

〈f, ψk,j〉ψk,j (t)

Et la propriete (4.2) nous autorise a ecrire un resultat plus precis : fJ (t)→f (t) quand J tend vers +∞. Le chapitre suivant va nous permettre de precisertout cela.

Remarque 41 Ces resultats etablis ici pour L2 ([0, 1]) se generalisent a L2 (R) .Les indices j et k parcourent alors Z et plus N. Le theoreme ci-dessous est donnedans ce cadre plus generale

4.3. ANALYSE MULTIRESOLUTION, FONCTION D’ECHELLE, ONDELETTE-MERE.23

4.3 Analyse multiresolution, fonction d’echelle,ondelette-mere.

4.3.1 Analyse Multiresolution

On peut generaliser l’approche ci-dessus a des fonctions φ et ψ generales. Jedonne ci-dessous la definition mathematique d’une analyse-multiresolution.

Definition 42 Une suite (Vj)j∈Z de sous espaces fermes de L2 (R) est uneanalyse multi-resolution si les conditions suivantes sont verifiees :

∀j, k ∈ Z, f (t) ∈ Vj ⇔ f(t− 2−jk

)∈ Vj

∀j ∈ Z, Vj ⊂ Vj+1

∀j, k ∈ Z, f (t) ∈ Vj ⇔ f (2t) ∈ Vj+1

limj→+∞

VjZ = ∪+∞j=−∞Vj = L2 (R) (4.3)

limj→−∞

Vj = ∩+∞j=−∞Vj = 0

Il faut enfin que l’on puisse disposer d’une fonction θ telle que θ (t− n)n∈Zsoit une base de Riesz de V0 ce qui signifie qu’il existe A et B tel que pour toutf ∈ V0 la decomposition f (t) =

∑n∈Z an · θ (t− n) est vraie avec :

A ‖f‖2 ≤∑n∈Z

a2n ≤ B ‖f‖

2

Remarque 43 Attention, une base de Riesz n’est pas necessairement ortho-normee. La caracterisation des bases de Riesz est possible en terme de trans-formee de Fourier mais ce resultat depasse le cadre de ce cours.

4.3.2 Fonction d’echelle

Par contre une question naturelle est la suivante. Puisque nous connaissonsune base de V0, pouvons-nous construire ou deduire une base de Vj ? La reponseest positive mais malheureusement la aussi la construction de cette base de Vj

necessite de raisonner sur la transformee de Fourier de θ. Nous allons nouscontenter d’admettre le resultat suivant.

Proposition 44 Il est possible de construire a partir de la fonction θ une fonc-tion φ appelee fonction d’echelle dont les translatees-dilatees constituent desbases de tous les Vj pour j ∈ Z. En d’autre termes, en posant :

φj,n (t) =1√2jφ

(t− 2jn

2j

)on peut montrer que la famille φj,n (t)n∈Z est une base orthonormee de Vj

pour tout j. On peut alors decomposer tout f ∈ L2 (R) sur cette base et en

obtenir une approximation fj qui est aussi la projection orthogonale de f surVj

fj =∑n∈Z〈f, φj,n〉φj,n

〈f, φj,n〉 =1√2j

∫Rf (t)φ

(t− 2jn

2j

)dt

24 CHAPITRE 4. ONDELETTES

Cette Proposition est centrale pour comprendre le succes des ondelettes : apartir d’une seule fonction φ on peut construire des bases d’approximation defacon numeriquement simpliste. Un probleme demeure : fj n’est pas f et l’espaceVj peut ne pas capter assez d’information sur f pour assurer une reconstructionsatisfaisante.

Remarque 45 Une lecture un peu rapide peut laisser penser que θ (t− n) =φ0,n (t) . En fait cette stiuation peut se produire mais n’a rien de systematiquepuisque θ (t− n)n∈Z n’a aucune raison d’etre orthonormee alors que les φ0,n

le sont. Par contre dans le cas ou les θ (t− n)n∈Z sont bien orthonormees,elles constituent un choix admissible de suite φ0,n.

4.3.3 Ondelette

D’apres la definition d’une analyse multi-resolution Vj ⊂ Vj+1. Il existedonc un sous-espace Wj de Vj+1 tel que Vj+1 = Wj ⊕Vj . Ce nouvel espaceWj contient les fonctions de detail qui permettent de passer de la resolution ja la resolution j + 1. On voit immediatement que ces espaces sont cruciaux card’apres (4.3) et par recurrence :

L2 (R) = ⊕j∈ZWj

Le Theoreme suivant est de meme nature que la Proposition 44. Sa preuve faitencore intervenir la transformee de Fourier.

Theoreme 46 A partir d’une fonction d’echelle φ (aussi appelee ondelette-pere) on peut construire une fonction ψ verifiant∫

Rψ (t) dt = 0,

∫Rψ2 (t) dt = 1,

appelee ondelette-mere ou ondelette dont les translatees-dilatees constituent desbases de tous les Wj pour j ∈ Z. En d’autre termes, en posant :

ψj,n (t) =1√2jψ

(t− 2jn

2j

)(4.4)

on peut montrer que la famille ψj,nn∈Z est une base orthonormee de Wj pour

tout j et que la famille ψj,nj,n∈Z forme une base orthonormee de L2 (R) . On

peut alors decomposer tout f ∈ L2 (R) sur cette base d’ondelettes :

f =∑n∈Z

∑j∈Z〈f, ψj,n〉ψj,n

Remarque 47 L’application qui a une fonction f donnee associe la suite deses coefficients (〈f, ψj,n〉)j,n∈Z s’appelle transformee en ondelette discrete.

Remarque 48 Comme annonce en introduction de ce chapitre il est possible dedefinir une famille non pas discretisee mais continue d’ondelettes generalisantla formule (4.4) en posant :

ψa,b (t) =1√bψ

(t− ab

)(a, b) ∈ R+ × R+∗.

4.4. ONDELETTES ET REGULARITE 25

4.3.4 Exemples d’ondelettes orthogonales - proprietes ba-siques

Il n’est pas simple de presenter de facon exhaustive des ondelettes. Parmielles trois au moins sont explicitables.

L’ondelette de Haar

Elle a ete decrite plus haut dans l’exemple introductif. Elle est definie par :

ψ (t) =

−1 si 0 ≤ t < 1/21 si 1/2 ≤ t < 10 sinon

Elle est simple mais guere utilisee pour des f tres regulieres.

L’ondelette de Shannon

Elle est infiniment derivable et definie par :

ψ (t) =sin [2π (t− 1/2)]

2π (t− 1/2)− sin [π (t− 1/2)]

π (t− 1/2)

Le chapeau mexicain

Elle est obtenue par double derivation de la densite de probabilite gaus-sienne :

ψ (t) =2

π1/4√

3

(t2 − 1

)exp

(−t2

)

D’autres ondelettes existent : ondelette de Meyer (φ et ψ sont C∞ a supportcompact), de Battle-Lemarie (ondelette spline polynomiale), de Daubechies (desupport minimal avec moments nuls), de Morlet. Mais ces fonctions ne sont quetabulees et seules leurs transformees de Fourier ont des formes explicites.

4.4 Ondelettes et regularite

L’analogie entre ondelettes et transformee de Fourier persiste des lors qu’onse penche sur les proprietes de regularite de f. On rappelle que plus un signalf est regulier, plus ses coefficients de Fourier tendent rapidement vers 0. Dansle cas des ondelettes, l’equivalent des hautes frequences seront les resolutionsd’ordre eleve.

Un interet majeur des ondelettes repose sur leur capacite a obtenir des ap-proximations sparses de signaux, c’est a dire a reconstruire f via la formule :

f =∑n∈Z

∑j∈Z〈f, ψj,n〉ψj,n

de telle sorte qu’un grand nombre de coefficients 〈f, ψj,n〉 soient de tres faiblesamplitudes ou nuls.

26 CHAPITRE 4. ONDELETTES

Definition 49 On dit qu’une ondelette ψ a p moments nuls si pour tout j ∈0, ..., p− 1 : ∫

Rtjψ (t) dt = 0.

Proposition 50 Une ondelette qui admet p moments nuls est orthogonale auxpolynomes de degre p− 1.

Definition 51 Une fonction f est ponctuellement (rep. uniformement) lipschit-zienne d’ordre α > 0 en x0 (resp sur l’intervalle [a, b] x0) s’il existe un poly-nome Px0

de degre bαc tel que pour tout t ∈ R :

|f (t)−Px0(t)| ≤ K |t− x0|α

(resp pour tout x0 ∈ [a, b]) pour une constante K independante de x0)

Remarque 52 Si α < 1 alors Px0 (t) = f (x0) est le polynome constant. Si fest bαc fois continument differentiable au voisinage de x0 alors Px0

(t) est justeson developpement de Taylor en x0.

Le Theoreme suivant lie la notion de regularite du signal au sens de Lipshcitzet la decroissance des coefficients de la decomposition en ondelettes discretes. Ilnecessite un choix special pour ψ qui est explicite dans les hypotheses.

Theoreme 53 Soit ψ une ondelette qui admet p moments nuls, de classe Cp

avec des derivees a decroissance rapide c’est a dire que pour tout n ∈ N :∣∣∣ψ(j) (t)∣∣∣ ≤ An

1 + |t|n, j ∈ 0, ..., p− 1

Soit f une fonction de L2 (R) uniformement lipschitzienne d’ordre α ≤ p surl’intervalle [a, b] alors

|〈f, ψj,n〉| = O

(1√2j

1

2jα

),

uniformement en n ∈ N.

Remarque 54 Une reciproque a ce theoreme peut etre enoncee mais elle depassele cadre de ce cours car elle fait intervenir la tranformee en ondelettes continue.

Sur R les packages waveslim et wavelets permettent une implementationrapide et une sensibilisation aux aspects numeriques. Matlab est plus flexible etpermet une approche plus en profondeur.