perturbation stochastique de l'algorithme estimation maximisation généralisé par...

6
Perturbation stochastique de l’algorithme estimation maximisation généralisé par reéchantillonnage bootstrap Ahlem Bougarradh, Slim M’hiri et Faouzi Ghorbel École Nationale des Sciences d’informatique (ENSI), Groupe de recherche en image et forme de Tunisie (GRIFT), Campus universitaire 2010, la Manouba, Tunisie [email protected],[email protected], [email protected] Résumé Dans ce papier, nous proposons une perturbation stochastique de l’algorithme Estimation Maximisation Généralisé EMG en le combinant avec le reéchantillonnage Bootstrap. Cette perturbation va nous permettre de s’affranchir des problèmes de convergences liés à l’algorithme de base (EMG) tout en réduisant considérablement les temps de calcul. L’algorithme proposé EMGB sera testé et comparé à l’algorithme SEMG sur des images simulées et sur des images réelles. Mots clés Segmentation Bayesienne, algorithme estimation maximisation généralisé EMG, lalgorithme stochastique EMG (SEMG), Système de Pearson, échantillonnage bootstrap. 1 Introduction Les approches statistiques sont considérées parmi les méthodes les plus utilisées en segmentation d’images. Elles se regroupent en deux catégories, l’approche globale et l’approche locale. La pr emière tient compte de la dépendance spatiale des pixels. Quant à la seconde, elle suppose les pixels spatialement indépendants. Dans une modélisation stochastique, l’image est assimilée à un mélange de distributions [9] et la segmentation statistique revient essentiellement à un problème d’identification de mélange suivi d’une phase de classification. La classification est obtenue par l’application de la règle de décision de Bayes qui présente l’avantage de l’optimalité dans le sens de la minimisation de la probabilité d’erreur a posteriori. L’identification de mélanges est obtenue, en considérant une approche locale, par des méthodes générales de type “ Expectation- Maximisation ” [4] ou par l’une de ses variantes stochastiques SEM [7] et ICE [6]. Ses méthodes supposent que la fonction densité de probabilité de données est une combinaison linéaire d’un nombre fini de distributions gaussiennes. Cependant, dans plusieurs cas, cette hypothèse s’avère inadéquate. Plusieurs études ont montré l’intérêt d’une modélisation non gaussienne pour la segmentation de plusieurs types d’images. Dans la littérature, l’algorithme Stochastique Estimation Maximisation Généralisé (SEMG) [3], peut être une bonne alternative pour surmonter cette limitation. Néanmoins, cet algorithme présente le défaut de sa lenteur éventuelle. En effet, la complexité de l’algorithme SEMG est fortement liée à la taille de l’échantillon. Par

Upload: independent

Post on 12-Nov-2023

0 views

Category:

Documents


0 download

TRANSCRIPT

Perturbation stochastique de l’algorithme estimation maximisation

généralisé par reéchantillonnage bootstrap

Ahlem Bougarradh, Slim M’hiri et Faouzi Ghorbel

École Nationale des Sciences d’informatique (ENSI),

Groupe de recherche en image et forme de Tunisie (GRIFT),

Campus universitaire 2010, la Manouba, Tunisie

[email protected],[email protected], [email protected]

Résumé Dans ce papier, nous proposons une perturbation stochastique de l’algorithme

Estimation Maximisation Généralisé EMG en le combinant avec le reéchantillonnage Bootstrap.

Cette perturbation va nous permettre de s’affranchir des problèmes de convergences liés à

l’algorithme de base (EMG) tout en réduisant considérablement les temps de calcul.

L’algorithme proposé EMGB sera testé et comparé à l’algorithme SEMG sur des images

simulées et sur des images réelles.

Mots clés Segmentation Bayesienne, algorithme estimation maximisation généralisé EMG,

l’algorithme stochastique EMG (SEMG), Système de Pearson, échantillonnage bootstrap.

1 Introduction

Les approches statistiques sont considérées parmi les méthodes les plus utilisées en segmentation d’images.

Elles se regroupent en deux catégories, l’approche globale et l’approche locale. La première tient compte de la

dépendance spatiale des pixels. Quant à la seconde, elle suppose les pixels spatialement indépendants. Dans une

modélisation stochastique, l’image est assimilée à un mélange de distributions [9] et la segmentation statistique

revient essentiellement à un problème d’identification de mélange suivi d’une phase de classification. La

classification est obtenue par l’application de la règle de décision de Bayes qui présente l’avantage de

l’optimalité dans le sens de la minimisation de la probabilité d’erreur a posteriori. L’identification de mélanges

est obtenue, en considérant une approche locale, par des méthodes générales de type “ Expectation-

Maximisation ” [4] ou par l’une de ses variantes stochastiques SEM [7] et ICE [6]. Ses méthodes supposent que

la fonction densité de probabilité de données est une combinaison linéaire d’un nombre fini de distributions

gaussiennes. Cependant, dans plusieurs cas, cette hypothèse s’avère inadéquate. Plusieurs études ont montré

l’intérêt d’une modélisation non gaussienne pour la segmentation de plusieurs types d’images. Dans la

littérature, l’algorithme Stochastique Estimation Maximisation Généralisé (SEMG) [3], peut être une bonne

alternative pour surmonter cette limitation. Néanmoins, cet algorithme présente le défaut de sa lenteur

éventuelle. En effet, la complexité de l’algorithme SEMG est fortement liée à la taille de l’échantillon. Par

2 A. Bougarradh, S.M’hiri et F. Ghorbel

conséquent, la variation des temps de calcul de l’algorithme SEMG est linéaire par rapport à la taille de l’image

utilisée. Une réduction de complexité permettrait de s’affranchir de la contrainte de lenteur et d’intégrer cet

algorithme dans des applications quasi temps réel.

Dans ce contexte, et en se basant sur des travaux de recherche [5,8] menés dans un cadre gaussien au sein de

l’équipe, nous proposons d’introduire le réechantillonnage bootstrap dans l’algorithme EMG pour la

segmentation d’images. Cette modification de l’algorithme va présenter deux intérêts. Le premier, va nous

permettre une meilleure approximation de la vraisemblance et donc une meilleure estimation des paramètres du

mélange en sélectionnant aléatoirement un échantillon indépendant de pixels issu l’image. Le deuxième, va nous

permettre une réduction considérable des temps de calcul pour l’identification du mélange à partir d’un

échantillon représentatif de faible taille (au lieu de considérer toute l’image).

2 Classification bayesienne d’images avec le système de Pearson et l’échantillonnage

bootstrap

La modélisation statistique d’images suppose qu’une image est une réalisation d’un mélange de lois. Ainsi sa

densité de probabilité est approchée par : K

j jjyfyf1

),()( avec πj est la probabilité à priori de la

classe j, ),( jyf est la densité de probabilité conditionnelle de la classe j et K est le nombre de classes. Dans

ce travail, nous supposons que la probabilité conditionnelle à la classe j appartient à la famille des distributions

du système de Pearson.

2.1 Description du système de Pearson

Le Système de Pearson [6] permet de décrire huit familles de distributions incluant la gaussienne, la gamma et la

distribution beta de première espèce en se limitant au calcul de quelques paramètres qui sont la moyenne

(µ1= E(Y)) et les moments centrées (µk= E(Y-E(Y))k) avec k= 2,3 ,4 et Y est une variable aléatoire réelle. Toute

distribution du système de Pearson est identifiée dans le graphe de Pearson par le couple de coefficients

(β1, β2) =( ((μ3)2 / (μ2)

3), μ4 / μ2) connu sous l’appellation de (skewness, kurtosis). Ces paramètres décrivent

respectivement l’asymétrie et l’aplatissement d’une distribution. Ce système offre une diversité de formes autre

que la forme d’une distribution gaussienne.

2.2 Description de l’algorithme estimation maximisation généralisé bootstrappé

L’algorithme estimation maximisation généralisé bootstrappé EMGB consiste à combiner l’algorithme

d’estimation maximisation généralisé EMG avec un reéchantillonnage bootstrap issu de l’image.

La particularité de l’algorithme EMG par rapport au cas gaussien est l’estimation des moments centrés d’ordre 3

et 4. Ces paramètres serviront dans la phase d’estimation à la sélection de la loi adéquate parmi les distributions

du système de Pearson.

L’échantillonnage Bootstrap consiste à faire n tirages aléatoire d’une observation Yi* suivant une loi empirique

marginale monodimensionnelle définie sur l’ensemble Y des observations de l’image, ce qui correspond à un

tirage suivant une loi uniforme (avec remise) d’une observation parmi les N qui constituent l’image initiale. En

suivant ce principe nous arrivons à construire un nouvel ensemble d’observations noté Y*= (Y1*,…Yn*) qui

constitue l’échantillon Bootstrap de l’image. La taille de l’échantillon bootstrap représentatif de l’image est

calculée suivant les critères de représentativité définis dans un cas gaussien [1].

L’algorithme Bootstrappé se résume comme suit :

Perturbation stochastique de l’algorithme EMG 3

Etant donné un échantillon bootstrap Y* issu de l’image originale Y. Après l’étape d’initialisation qui est

obtenue à partir de l’histogramme de l’image, les deux étapes estimation et maximisation sont itérés jusqu’à la

convergence de l’algorithme.

Etape d’estimation: Elle comporte le calcul de la probabilité a posteriori pour que le pixel yi*

appartient à la

classe k à l’itération q. La densité de probabilité conditionnelle fk adéquate pour cette phase est sélectionnée

parmi les distributions du système de Pearson. La probabilité a posteriori est donnée par l’équation suivante :

K

l

q

lil

q

l

q

kik

q

kq

ik

f

yfKkSi

1

)1(*)1(

)1(*)1()(

)|(

)|(,,...1,

(1)

Etape de Maximisation: à l’itération q, les différents paramètres : poids πk, moyenne µ1 et moments centrés

d’ordre 2, 3 et 4 ( µ2,µ3, µ4) sont mis à jour comme suit :

N

y

Kk

N

i

i

q

ik

q

k

1

*)(

)1(

)(

,,..1

(2)

N

i

i

q

ik

i

N

i

i

q

ik

q

k

y

yy

Kk

1

*)(

*

1

*)(

)1(

,1

)(

)(

,,...1

(3)

N

i

i

q

ik

q

ki

q

ki

N

i

i

q

ik

q

kj

y

yyy

Kk

1

*)(

)1(

,1

*)1(

,1

*

1

*)(

)1(

,

)(

))(()(

,,...1

(4)

2.3 Simulation

Une étude expérimentale nous a montré que l’utilisation des ces critères dans le cadre de EMGB ne permet pas

d’avoir une qualité d’estimation acceptable (Figure1 (b)). En effet, ceci peut s’expliquer par le fait que dans le

cadre généralisé, nous estimons des moments d’ordre supérieurs par rapport au cas Gaussien, ce qui requiert plus

d’échantillons. Afin de déterminer un ordre de grandeur de la taille de l’échantillon bootstrap nécessaire pour

une bonne estimation des paramètres de mélange, nous avons procédé à une variation linéaire de la taille de

l’échantillon en calculant à chaque fois l’erreur quadratique moyenne intégrée EQMI.

Une étude empirique est menée à la base de simulations de mélanges non Gaussien (en modifiant à chaque fois

le nombre de classes d’une part et la nature des distributions d’autre part) montre que la courbe de l’erreur

quadratique moyenne intégrée EQMI( Figure1 (c) ) en fonction de la taille de l’échantillon bootstrap ( x*K, x est

un entier supérieur à 5) diminue significativement lorsque x augmente et elle devient presque constante à partir

d’une certaine valeur de x=x0. L’étude expérimentale menée montre que cette valeur de x0 est autour de 12.

4 A. Bougarradh, S.M’hiri et F. Ghorbel

(a) (b) (c)

Figure 1: (a) Génération de deux lois beta de première espèce, (b) Estimation du mélange par l’algorithme

EMGB pour une taille d’échantillon n0 =5K, K étant la dynamique de la simulation (a), (c) courbe de l’erreur

quadratique moyenne intégré EQMI obtenue en variant la taille de l’échantillon bootstrap n0 (n0=x*K avec

x=,..,20).

3 Résultats expérimentaux

Dans cette section, nous présentons les résultats expérimentaux issus d’images synthétiques et réelles.

3.1 Cas d’images synthétiques

Nous avons simulé trois mélanges différents issus du système de Pearson (Figure 2), chaque mélange est

composé de deux distributions avec les proportions π1=1/3 et π2=2/3. Ces mélanges serviront pour le bruitage de

l’image binaire (Figure 3.a) afin d’avoir plusieurs images synthétiques (figure 3.b,c,d). La connaissance de la

vraie classification de ces images synthétiques va permettre de calculer l’erreur de la classification.

(a) (b) (c)

Figure 2:Les bruits générés, (a) Bruit1: mélange d’une loi Beta de première espèce et d’une loi beta de second

espèce (b) Bruit 2: mélange d’une loi Beta de première espèce et d’une loi gamma (c) Bruit 3: mélange d’une loi

Beta de première espèce et d’une gaussienne

(a) (b) (c) (d)

Figure 3:(a) image binaire de taille 512*512, images bruitées par: (b) Bruit1, (c) Bruit2, (d) Bruit 3

Perturbation stochastique de l’algorithme EMG 5

L’identification des paramètres de mélanges est obtenue avec l’algorithme BGMEM. La figure 4 montre

l’ajustement des densités de probabilités conditionnelles estimées aux densités théoriques.

(a) (b) (c)

Figure 4:identification de mélanges par l’algorithme EMGB pour: (a) Bruit1, (b) Bruit 2, (c) Bruit 3

Une fois les mélanges sont identifiés, la règle de décision de Bayes est appliquée pour la classification des

images. Connaissant la vraie étiquette de chaque pixel de l’image de référence (Figure 3.a), nous pouvons

calculer les taux d’erreur de classification. Un pixel est mal classé si la classe déterminée par la règle de décision

de Bayes ne correspond pas à sa vraie classe dans l’image de référence. Le tableau 1 montre qu’avec

l’algorithme bootstrappé nous obtenons une même qualité de classification voir une légère amélioration.

Tableau 1:Evaluation de l’erreur de classification

Erreur Bruit 1 Bruit 2 Bruit 3

SEMG 0.2080

0.1957 0.3098

EMGB 0.2056 0.1937 0.3093

3.2 Cas d’images réelles

Dans le cas d’images réelles, nous nous intéressons à la segmentation d’une séquence d’images mosaïques par

l’algorithme SEMG et l’algorithme BEMG. Les images constituant la séquence sont de taille 1280*1240 et sont

segmentées en 4 classes. La figure 5 montre le résultat de segmentation d’une image issue de la séquence.

(a) (b) (c )

Figure 5:(a) image originale, (b) segmentation par SEMG, (c) segmentation par BEMG

6 A. Bougarradh, S.M’hiri et F. Ghorbel

La taille de l’échantillon bootstrap utilisée pour la segmentation est de 3000 pixels, soit 1184 fois moins

d’échantillons que l’image (3554460 pixels). Une conséquence de cette diminution de la taille de l’échantillon

est l’accélération de l’algorithme avec échantillonnage bootstrap. Un gain considérable en temps de calcul est

obtenu (184 s pour la version bootstrappée, 6937s pour la version classique sur une machine P4 3GH) pour une

même qualité de classification d’images

4 Conclusion

Dans ce papier, nous avons proposé l’algorithme estimation maximisation généralisé bootstrappée BGEM. Une

étude expérimentale sur des simulations de mélanges, d’images synthétiques et de plusieurs séquences d’images

réelles nous a permis de comparer les deux algorithmes SEMG et BEMG. La perturbation stochastique

introduite par le reéchantillonnage bootstrap mène à une même qualité d’estimation que celle obtenue en

considérant l’algorithme SEMG. L’algorithme proposé a permis de dégager un critère de représentativité

empirique de l’échantillon. La taille de l’échantillon bootstrap obtenue dans notre cas est plus grande que celle

obtenue dans un cadre Gaussian. Toutefois elle permet une réduction considérable des temps de calcul tout en

conservant la qualité de segmentation fournie dans un cadre classique.

Références

[1] Banga C. and Ghorbel F. ; Optimal Bootstrap Sampling for Fast Image Segmentation: Application to Retina

Image, IEEE International Conference on Acoustics, Speech, and Signal Processing, Minneapolis, USA,

Vol. 5, pp.638 641, 1993.

[2] B. Braathen, W. Pieczynski and P. Masson, Global and local methods of unsupervised Bayesian

segmentation of images. Mach. Graph. Vis. 2 (1993), pp. 39-52.

[3] Delignon Y., Marzouki A., et Pieczynski W. ; Estimation of Generalised Mixture and Its Application in

Image Segmentation, IEEE Transactions on Image Processing, Vol. 6, N 10,pp. 1364 1375, 1997.

[4] Dempster A., Laird N. et Rubin D. ; Maximum Likelihood from Incomplete Data via the EM Algorithm.

Journal of Royal Statistical Society, Series B, Vol. 39, pp. 1 38, 1977.

[5] Ghorbel F. and Banga C. ; Bootstrap sampling applied to image analysis, invited paper, special session,

IEEE-ICASSP, Adelaide, South Australia, Vol. 6, pp. VI 81-84, 1994.

[6] Johnson N.L. and Kotz S. , Distribution in statistics: Continuous univariate distribution, Wiley-interscience,

1969.

[7] Masson P. and Pieczynski W., SEM algorithm and unsupervised statistical segmentation of satellite images.

IEEE Trans. Geos. Rem. Sen. 31 (1993), pp. 618-633.

[8] Mhiri S, Cammoun L. et Ghorbel F., Speeding up HMRF EM algorithms for fast unsupervised image

segmentation by Bootstrap resampling: Application to the brain tissue segmentation. J. Signal Processing

87 (2007), pp 2544-2559.

[9] Pieczynski W. ; Modèles de Markov en Imagerie, Traitement du Signal, Volume 20, n3, pp.255-277, 2003.