recunoastere_forme_curs+srf

1

Sisteme de Recunoaştere a Formelor- curs -

2

CUPRINS

1. CONCEPTE FUNDAMENTALE ALE TEORIEI RECUNOAŞTERII FORMELOR...............................................3

1.1. CE ESTE RECUNOAŞTEREA FORMELOR?...........................................................................................................................31.2. SPAŢIUL FORMELOR.........................................................................................................................................................31.3. MODURI DE ABORDARE A PROBLEMATICII RECUNOAŞTERII FORMELOR..........................................................................31.4. CARACTERISTICILE UNUI SISTEM GENERAL DE RECUNOAŞTEREA FORMELOR.................................................................4

1.4.1. Translatorul..............................................................................................................................................................41.4.2. Selectorul de caracteristici.......................................................................................................................................51.4.3. Clasificatorul............................................................................................................................................................5

2. PRINCIPIILE GENERALE ALE TEHNICILOR DE RECUNOAŞTERE A FORMELOR.....................................7

2.1. INTRODUCERE..................................................................................................................................................................72.2. METODE TEORETICE DECIZIONALE..................................................................................................................................8

2.2.1. Vectori de formă şi spaţiul formelor........................................................................................................................82.2.2. Tehnici de decizie şi clasificare..............................................................................................................................10

2.3. RECUNOAŞTEREA NECONTROLATĂ. TEHNICI DE GRUPARE...........................................................................................172.4. TEHNICI DE ÎNVĂŢARE...................................................................................................................................................19

3. METODE DE CLASIFICARE BAZATE PE OPTIMIZAREA UNEI FUNCŢII CRITERIU................................21

3.1. GENERALITĂŢI...............................................................................................................................................................213.2. DISIMILARITATE. NORMALIZAREA DATELOR................................................................................................................21

3.2.1. Măsuri de disimilaritate.........................................................................................................................................213.2.2. Normalizarea datelor.............................................................................................................................................24

3.3. MĂSURI DE SIMILARITATE.............................................................................................................................................253.3.1. Măsuri de similaritate pentru vectori binari.........................................................................................................25

3.4. FUNCŢIA CRITERIU........................................................................................................................................................263.5. ALGORITMI DE CLASIFICARE ITERATIVĂ......................................................................................................................27

3.5.1. Algoritmul n-medii.................................................................................................................................................273.5.2. Algoritmul ISODATA.............................................................................................................................................30

4. ANALIZA DISCRIMINANTĂ........................................................................................................................................33

4.1. AXE DISCRIMINANTE......................................................................................................................................................334.2. MATRICI DE IMPRĂŞTIERE PENTRU N CLASE..................................................................................................................364.3. AXE DISCRIMINANTE PENTRU N CLASE.........................................................................................................................374.4. ANALIZA COMPONENTELOR PRINCIPALE .....................................................................................................................38

5. PARTIŢII NUANŢATE FUZZY.....................................................................................................................................44

5.1. CONCEPTE......................................................................................................................................................................445.2. CLASIFICARE CU PARTIŢII FUZZY. PRINCIPII .................................................................................................................455.3. FUNCTIA CRITERIU. ALGORITMUL N-MEDII FUZZY........................................................................................................45

5.3.1. Interpretarea unei partiţii fuzzy.............................................................................................................................48

3

Capitol 1

Concepte fundamentale ale teoriei recunoaşterii formelor

Ce este recunoaşterea formelor?

Prin recunoaşterea formelor se înţelege în mod obişnuit acel ansamblu de metode şi tehnici cu ajutorul căruia se poate realiza o clasificare în cadrul unei mulţimi de obiecte, procese sau fenomene. Setul de obiecte, procese sau fenomene care urmează a fi clasificate pot fi obiecte (fenomene) fizice sau structuri intelectuale, prin acestea înţelegând ansamblul concretizat de procese legate de o activitate intelectuală coerentă (scris, vorbit, etc)

Scopul recunoaşterii formelor constă în determinarea clasei din care face parte o colecţie de observabile. Metoda este deosebit de utilă atunci când abordarile directe sunt imposibile sau când inferenţele teoretice lipsesc.

Stabilirea numărului de clase în care se împart formele este o problemă particulară care depinde exclusiv de aplicaţiile concrete ale metodei.

Spaţiul formelor

Conceptul fundamental al teoriei recunoaşterii formelor este următorul: Un obiect sau un fenomen variabil, Xj, este descris (caracterizat) printr-un set de n caracteristici

xij (i=1,…,n). Toate aceste n caracteristici ale unui obiect formează o formă.Mulţimea x={Xj}j=1,m poartă denumirea de spaţiul formelor. Deci un obiect (formă) X poate fi

reprezentat printr-un punct X(x1,…,xn) în spaţiul formelor.O problemă este aceea a raportului dintre numărul de forme luate în considerare, m, şi numărul

de dimensiuni al spaţiului formelor, n, adică raportul m/n dintre numărul maxim de obiecte din setul respectiv, m, şi numărul de caracteristici, n, aferent fiecăruia dintre obiecte. Dacă numărul de forme, m, este mai mic, egal sau numai puţin mai mare decât numărul de caracteristici atunci discriminarea dintre forme şi atribuirea lor la diferitele clase posibile este un proces pur aleator.

În general, se consideră că acest raport m/n, pentru orice aplicaţie de recunoaşterea formelor, trebuie să îndeplinească următoarele condiţii:

(i)

mn≥3,

(ii)

mn>10 ,

, (1.1)unde m reprezintă numărul de forme, iar n este numărul de caracteristici independente (număr de dimensiuni).

Condiţia (i) reprezintă minimum necesar pentru o clasificare binară, în timp ce condiţia (ii) este de dorit în aplicaţiile concrete ale tehnicilor de recunoaşterea formelor.

Moduri de abordare a problematicii recunoaşterii formelor

Pentru rezolvarea problemelor de recunoaştere a formelor au fost propuse şi utilizate o mare varietate de tehnici matematice din teoria informaţiei, statistica matematică, teoria deciziei, geometrie, etc. , de fapt două maniere diferite de abordare a problematicii acestui domeniu:

1. Abordarea statistică (numită şi decizional - teoretică) şi

4

2. Abordarea sintactică (sau lingvistică).

În cadrul metodelor de recunoaşterea formelor decizional-teoretice, din forme sunt extrase un set de măsurători caracteristice, denumite caracteristici. Recunoaşterea fiecărei forme (atribuirea formei la o clasă specifică) se face, de obicei, prin partiţionarea spaţiului formelor, denumit şi spaţiu caracteristicilor.

Clasificarea formei de intrare se face pe baza unor caracteristici ale formei astfel încât să se poată presupune, cu un coeficient de siguranţă cât mai mare, că ele sunt invariante, independente una faţă de alta şi mai puţin sensibile la variaţii şi deformări. În legătură cu acestea se pune problema selectării obiective a celor mai semnificative caracteristici precum şi cea a clasificării (adică a luării deciziei pentru a atribuii claselor formelor de intrare respective).

Caracteristicile unui sistem general de recunoaşterea formelor

Un sistem de recunoaştere a formelor trebuie să asigure, corect şi eficient observarea, transformarea, prelucrarea preliminară (selectarea) şi clasificarea eşantionului de date.

Elementele esenţiale ale unui sistem general de recunoaşterea formelor sunt următoarele: translatorul, selectorul de caracteristici (care realizează o prelucrare preliminară) numit şi preprocesor, sau extractor de caracteristici şi clasificatorul (Fig. 1.4-1). Deşi aceste 3 subunităţi sunt interdependente, în cele ce urmează le vom prezenta separat.

Fig. 1.4-1 Sistem general de recunoaştere a formelor

Translatorul

Translatorul transformă şi transferă informaţiile din lumea reală în spaţiul formelor într-o formă compatibilă cu modul de reprezentare din calculatoarele electronice. În consecinţă datele primare, rezultat al observaţiei sunt transformate într-un şir de mărimi scalare care formează vectorul de formă n-dimensional. Fiecare componentă xi a vectorului de formă X reprezintă o cantitate fizică măsurabilă; este foarte important ca ea să surprindă esenţa datelor primare.

Modul de implementare al translatorului depinde exclusiv de natura datelor primare. Dacă acestea sunt constituite dintr-o succesiune de valori măsurate la intervale de timp, cum sunt traseele EEG, atunci sunt necesare procedee de eşantionare în timp, pe când dacă ele sunt funcţie de frecvenţă, cum sunt de exemplu spectrele în infraroşu ale compuşilor chimici, atunci trebuie dezvoltate procedeele de eşantionare a frecvenţei (respectiv numerelor de undă). În cazul imaginilor sunt luate în considerare suprafeţele mai luminoase sau mai întunecate, muchiile sau formele geometrice. Aceasta este o problemă ceva mai complicată şi, de aceea , au fost propuse o serie de metode pentru reducerea complexităţii imaginilor la un şir de măsurători.

O situaţie fericită, în care translatorul nu mai este necesar, apare atunci când informaţiile din lumea reală sunt exprimate numeric (de exemplu, în cazul spectrelor de masă).

5

Vectorii de formă dezvoltaţi de translator constituie mărimile de intrare pentru selectorul de caracteristici.

Selectorul de caracteristici

Scopul selectorului de caracteristici constă în prelucrarea vectorilor de formă în aşa fel încât procedeul de clasificare să fie optimizat.

Selectorul de caracteristici (denumit şi extractor de caracteristici sau preprocesor) acceptă ca mărimi de intrare vectorii de formă produşi de translator şi operează asupra lor transformându-i pentru a elimina sau, cel puţin, pentru a reduce cantitatea de informaţie irelevantă sau ambiguă menţinând în vectori suficientă informaţie pentru a putea discerne între diferitele clase de forme şi descoperi invarianţele dintre formele aceleiaşi clase.

Pentru realizarea acestor deziderate au fost propuse şi utilizate o mare varietate de metode.Una dintre cele mai simple metode pentru prelucrarea vectorilor de formă constă în normarea

acestora. O astfel de normare implică egalarea sumei componentelor fiecărui vector de formă (respectiv suma pătratelor componentelor lor) cu o constată arbitrară convenabil aleasă. Un alt procedeu, mult mai sofisticat, care utilizează matricea de covarianţă duce, în final, la o ecuaţie matricială din care se obţin vectorii proprii şi valorile proprii ( procedeul numit analiza componentelor principale sau analiza Karhuneu-Loeve).

Pentru prelucrarea vectorilor de formă şi selectarea celor mai reprezentative caracteristici au fost utilizate şi o serie de transformări mult mai complexe, cum ar fi transformata Fourier.

Pentru identificarea caracteristicilor mai importante au fost utilizate forme model sau prototip, s-au dezvoltat şi implementat tehnici interactiv, implicând reprezentări grafice şi rutine speciale de comparare, s-au calculat parametrii statistici, cum sunt momentele sau histogramele direct din forme.

Această etapă este esenţială, de ea depinde succesul sau insuccesul oricărui studiu de recunoaştere a formelor.

Clasificatorul

Sarcina oricărui clasificator este, în general, următoarea: având dată o mulţime de vectori de formă prelucraţi corespunzător, numită set de formare, se pune problema determinării unei funcţii de decizie f(X) astfel încât dacă:

f(X) > 0 atunci X aparţine clasei 1f(X) >= 0 atunci X aparţine clasei 2 (1.2)

Această etapă în care este determinată funcţia de decizie f(X) este cunoscută sub numele de fază de formare (formarea), de adaptare sau uneori de învăţare. Scopul urmărit este minimalizarea probabilităţii de eroare în procesul de clasificare.

Conceptul de clasificare a formelor poate fi înţeles ca o partiţionare a spaţiului formelor, x

={X} prin atribuirea fiecărui vector X sau punct X (x1, …,xn) la o clasă de forme corespunzătoare în regiuni reciproc exclusive, fiecare regiune corespunzând unei clase de forme particulară. Din punct de vedere matematic problema clasificării poate fi formulată sub forma funcţiilor de decizie discriminate.

Fie 1, 1,….p cele p clase distincte posibile care urmează a fi recunoscute cu X = 1 U 2 U ….Up,1 2 …… p = Fd (1.3.)

şi fie X=|xi |i=1,n vectorul de formă, xi reprezentând a i-a caracteristică reprezentativă. Atunci funcţia de decizie discriminant f(X)=Dj (X) asociată clasei de forme j, j=1,…,p, astfel încât dacă forma de intrare

6

reprezentată prin vectorul X, respectiv punctul X, este în clasa i, fapt pe care-l vom nota prin Xi , valoarea lui Di(X) trebuie să fie cea mai mare, adică pentru toţi Xi vom avea satisfăcută relaţia:

Di(X) > Dj(X), i, j =1,…,p. (1.4)

În felul acesta, în spaţiul formelor x frontiera partiţiei, denumită limita de decizie, dintre regiunile corespunzând claselor i şi respectiv, j, poate fi definită prin următoarea relaţie:

Fd= Di(X)-Dj(X) = 0 (1.5)

În figura 2.8. este reprezentat modelul unui clasificator care utilizează funcţiile discriminant. Forma de intrare este analizată conform relaţiei (1.4), clasificatorul furnizând drept ieşire indicele k aparţine {1,2,…,p} corespunzător clasei k din care face parte forma respectivă X.

Fig. 1.4-1 Modelul clasificatorului ce utilizează funcţia discriminant

Pentru determinarea funcţiilor discriminant neparametrice setul de formare trebuie să fie mare şi, de asemenea, reprezentativ pentru a permite estimarea acestora din funcţiile de probabilitate.

7

Capitol 2

Principiile generale ale tehnicilor de recunoaştere a formelor

Introducere

Recunoaşterea formelor are ca obiect clasificarea unui set (mulţime) de obiecte, procese sau evenimente, indiferent care ar fi natura lor. De exemplu, acestea pot fi obiecte şi fenomene fizice sau stări fiziologice şi mintale. Setul de măsurători indirecte cu ajutorul căreia este descris sau caracterizat un obiect poartă numele de formă. Numărul de tipuri (clase) de forme este determinat de aplicaţia concretă, particulară. Astfel, dacă de exemplu se pune problema recunoaşterii caracterelor alfabetice (alfabetul român) vom avea o problemă de clasificare cu 27 de clase, pe când în cazul în care se urmăreşte discriminarea între caracterele latine şi cele chirilice problema de clasificare va avea doar două clase. De fapt clasificarea formelor constituie un proces fundamental care apare atât în cadrul activităţilor umane curente cât şi în majoritatea ramurilor ştiinţei.

Modelele matematice utilizate pentru rezolvarea problemelor de recunoaştere a formelor pot fi grupate în două mari categorii: metode teoretice-decizionale (sau statistice) metode sintactice (sau lingvistice).

În cazul metodelor teoretice-decizionale procesul de clasificare se bazează pe un set de măsurători selectate din forma de intrare, numite caracteristici.

În cazul metodelor sintactice de recunoaştere a formelor, numită uneori şi recunoaştere structurală, procesul de clasificare ţine cont şi de informaţia structurală care caracterizează fiecare formă. Ca urmare procesul de recunoaştere nu se limitează doar la clasificarea formei respective ci el include şi metode capabile să descrie acele aspecte ale formelor care le fac să nu poată fi atribuite altor clase.

Recunoaşterea formelor constă din următoarele două aspecte importante:1. Extragerea caracteristicilor esenţiale pentru procesul particular de clasificare. În mod

obişnuit decizia care se ia în această etapă este relativ subiectivă şi depinde de considerente practice cum ar fi: accesibilitatea execuţiei măsurătorilor, costul acestora, etc. Din nefericire, la ora actuală nu există o teorie cât de puţin generală asupra procesului de selecţie a celor mai reprezentative caracteristici. Criteriile care stau la baza procesului de selectare a caracteristicilor şi de ordonare a acestora se bazează fie pe importanţa lor în caracterizarea formelor, fie pe contribuţiile pe care le aduc la performanţele recunoaşterii (de exemplu acurateţea clasificării).

2. Clasificarea propriu-zisă, adică luarea deciziei privind apartenenţa formelor la o clasă. Metodele matematice folosite în acest scop sunt adeseori denumite clasificatori. În figura Fig.2.1. prezentăm schema bloc a unui sistem de recunoaştere a formelor.

8

Fig 2.1. Schema bloc a unui sistem de recunoaştere a formelor.

Din figură se observă existenţa unei reacţii utilizate pentru reluarea procesului de selectare a caracteristicilor şi clasificare până când este îndeplinit un anumit criteriu ales de utilizator.

Metode teoretice decizionale

Sunt cunoscute două moduri de abordare a procesului de recunoaştere a formelor. Primul mod cunoscut sub numele de recunoaştere controlată presupune existenţa unui set de forme a căror apartenenţă la clasă este cunoscută. Acest set este împărţit în două părţi: setul de formare utilizat pentru a dezvolta un clasificator (ce utilizează, de exemplu, matricea distanţelor dintre forme) care să recunoască cât mai bine apartenenţa formelor din set la clasele corespunzătoare şi setul de predicţie pe care clasificatorul format este evaluat (testat). Clasificatorul astfel dezvoltat este utilizat în continuare pentru stabilirea apartenenţei unei forme necunoscute la o clasă.

Cel de-al doilea mod cunoscut sub numele de recunoaştere necontrolată nu face apel la o cunoaştere prealabilă a apartenenţei formelor la o clasă. Metoda dezvoltă algoritmi care permit în cursul execuţiei acestora construirea claselor pe măsură ce formele analizate sunt luate în considerare.

Un caz particular al metodelor teoretice decizionale îl constituie tehnicile de învăţare. Acestea utilizează un set de forme a căror apartenenţă la clase este cunoscută. Setul este utilizat în mod iterativ de un algoritm care construieşte coeficienţii clasificatorului, corespunzător tipului de problemă (fără a utiliza matricea distanţelor dintre forme).

Vectori de formă şi spaţiul formelor

Fiecare caracteristică poate fi considerată ca fiind o variabilă într-un spaţiu n-dimensional unde fiecare caracteristică este atribuită unei dimensiuni. Fiecare formă apare ca un punct în spaţiul formelor. Când o formă este descrisă de mai multe caracteristici ea poate fi privită ca un vector X, denumit vectorul de formă. Acest vector este dat de relaţia:

9

x1

x2

. .xn

righ

[ ][ ][ ]X=

(2.1)

unde xi, i= 1,…, n reprezintă cele n caracteristici.Spaţiul formelor notat cu X poate fi descris cu ajutorul relaţiei

X1'

X2'

..X m

'

righ

[ ]

x11 x12 . .. x1n

x21 x22 . . .x2n

..xm1 xm2 .. . xmn

righ

[ ][ ][ ]ΩX=

(2.2)

unde X’i desemnează vectorul transpus al lui X, iar m numărul de forme.

10

Tehnici de decizie şi clasificare

Conceptul de clasificare al formelor poate fi înţeles ca o partiţionare a spaţiului caracteristicilor acestuia. Clasificarea formelor, adică atribuirea fiecărui vector posibil sau punct din spaţiul caracteristicilor clasei din care face parte, poate fi interpretată ca o partiţionare a acestuia în regiuni (domenii) reciproc exclusive, fiecare domeniu aparţinând unei clase de forme particulare. Din punct de vedere matematic acest gen de problemă de clasificare poate fi definită sub forma unei funcţii discriminant. Astfel fie 1, 2,…m cele m clase de forme posibile cu proprietăţile:

1 2 … m= X, (2.3) şi

1 2 … m = F.Unde cu F s-a notat mulţimea care constituie frontierele dintre clase, iar cu X s-a notat vectorul

de formă. În acest caz funcţia discriminant Dj(X) asociată clasei de forme j, j =1,…, m are proprietatea că dacă forma reprezentată prin vectorul X face parte din i, fapt pe care-l vom simboliza Xi, cu i specificat, atunci valoarea lui Di(X) trebuie să fie cea mai mare, adică pentru toţi Xi va fi îndeplinită condiţia

Di(X) > Dj(X); i,j = 1, …, m, ij. (2.4)

În felul acesta limitele de partiţionare ale spaţiului caracteristicilor (desemnate anterior cu F), denumite şi limite de decizie, pot fi exprimate cu ajutorul relaţiei

F = Di(X) – Dj(X) = 0; i, j=1,…,m, ij (2.5)

Au fost propuse foarte multe forme pentru funcţii discriminant D i(X), forme ce satisfac condiţia (2.4). dintre acestea vom menţiona în continuare doar pe cele mai importante.

Funcţii discriminant liniare

Într-un spaţiu bidimensional aceste funcţii sunt liniare şi pot fi scrise sub forma:x1-mx2-b=0,

sauW1x1+W2x2+W3x3=0 (2.6)

unde: m - este coeficientul unghiular,b - termenul liber, iar W1= 1, W2= -m şi W3= -b.Într-un spaţiu n- dimensional funcţiile sunt hiperplane de forma:

W1x1+W2x2+….+Wnxn+Wn+1= 0 (2.7)

În acest caz funcţia discriminant Di(X) asociată clasei de forme i reprezintă o combinaţie liniară a caracteristicilor xi, i =1,…,m, dată în relaţia:

Di(X)= ∑k=1

n

Wi,kxk+ Wi,n+1 , I =1,…,m (2.8)

11

Ecuaţiile hiperplanelor date de relaţia (1.8), pentru m clase de forme, pot fi scrise matriceal astfel:

D(X)=W⋅XUnde:

W 1,1 . .. W1,n+ 1

⋮W m ,1 .. . Wm,n+m

righ

[ ][ ]W=

şi

x1

x2

⋮xn

1

righ

[ ][ ][ ] [ ]X=

(2.9)

În vectorul X s-a introdus suplimentar termenul 1 pentru a da posibilitatea efectuării operaţiei de înmulţire.

Limita de decizie dintre regiunile x corespunzătoare claselor i şi j este de forma:

Di(X) – Dj(X) = ∑k=1

n

Wkxk+Wn+1 ; k = 1...n; (2.10)unde:

Wk=Wi,k – Wj,k şi

Wn+1=Wi,n+1-Wj,n+1.

Ecuaţia (2.10) reprezintă ecuaţia unui hiperplan din spaţiul caracteristicilor x, numit şi plan de decizie. Pentru a ilustra modul de utilizare a funcţiilor discriminant liniare prezentăm un exemplu în care avem două forme într-un spaţiu bi-dimensional. Fie formele X1 şi X2 date de:

14

righ

[ ]X1=

şi

42

righ

[ ]X 2=

şi funcţia de decizie D(X) = 0 dată de relaţia:D(X )=x1−0,5 x2−2=0

12

Relaţia de mai sus poate fi scrisă sub forma: 26.03.2012x1

x2

1

righ

[ ][ ]D(X )=[W ]⋅[X ]=[1 ;−0,5 ;−2 ]⋅

Dacă înlocuim pe X1 şi X2 în D(X), obţinem:

141

righ

[ ] [ ]D(X1 )= [W ]⋅[ X ]=[1;−0,5 ;−2 ]⋅¿ ¿şi respectiv

421

righ

[ ] [ ]D(X 2)=[W ]⋅[ X ]=[1 ;−0,5 ;−2 ]⋅¿ ¿Pentru orice punct aflat deasupra lui D(X) = 0, D(X) este pozitiv şi negativ pentru punctele de

sub dreaptă. Astfel, pentru cazul a două clase, polaritatea în evaluarea lui D(X) determină la care clasă aparţine forma dată (Fig. 1.2-1).

13

Fig. 2.2-1Funcţia de decizie liniară în două dimensiuni.

În cazul în care este necesară discriminarea pentru mai mult de două forme sunt necesare două sau mai multe funcţii de decizie. Pentru această situaţie există trei tipuri de clasificatori.

i) Tipul 1 utilizează o funcţie de decizie care împarte spaţiul formelor în două clase. Prima clasă notată cu i conţine o singură formă, iar cea de a doua clasă conţine restul formelor. Pentru a asigura apartenenţa unei forme la clasa i este suficient să fie îndeplinită condiţia Di(X)>0 şi Dj(X)<0 pentru toţi i, j. Pentru n clase sunt necesare n funcţii de decizie.

ii) Tipul 2 utilizează funcţii de decizie care separă spaţiul formelor în două regiuni. Prima regiune conţine două clase, iar cea de-a doua restul claselor. Separarea celor două clase i şi j se face cu ajutorul unei funcţii de decizie de forma Dij(X) = 0. Apartenenţa unei forme la clasa i sau j este asigurată dacă Dij(X) > 0.

iii) Tipul 3 reprezintă un caz special al tipului 2 de clasificare. Din analiza figurilor 2.2-2a şi 2.2-2b se observă prezenţa unui spaţiu nedeterminat care apare în interiorul triunghiului format din cele trei drepte corespunzătoare funcţiei de decizie. Punctele din interiorul acestui triunghi nu pot fi atribuite la nici una din cele trei clase. Pentru a elimina această nedeterminare, funcţia de decizie de tipul 2, Dij(X) = 0 este înlocuită cu Di(X)-Dj(X) = 0, unde Di(X) şi Dj(X) sunt funcţii de decizie de tipul 1. Pentru ca o formă să fie atribuită clasei i este necesar, în acest caz, îndeplinirea condiţiei D i(X)>Dj(X) pentru toţi ji (vezi fig. 2.2-2c).

14

Fig. 2.2-1 Funcţii de decizie multi-categorie: a-tipul 1; b-tipul 2; c-tipul 3.

Dacă clasele pot fi separate utilizând tipul 1 de clasificare, regiunile în care este prezentă clasele vor fi mai compacte, fapt care conduce la o mai bună identificare a claselor decât în cazul utilizării tipului 2 sau 3 de clasificare. In schimb, însă, regiunea de nedeterminare este mare. Dacă în aplicaţia practică apar forme în regiunea de nedeterminare rezultate în urma aplicării tipului 1 de clasificare, poate fi încercată utilizarea tipului 2 de clasificare, în care regiunea de nedeterminare este mai mică sau a tipului 3 (tipul 3 de clasificare are dezavantajul că timpul de calcul este mare)

Clasificatorul de distanţă minimă

O importantă clasă de clasificatori se bazează pe valoarea distanţelor dintre forma de intrare şi un set de vectori de referinţă sau puncte prototip din spaţiul caracteristicilor (prototipurile sunt forme a căror apartenenţă la clase este cunoscută). Dacă vom presupune că sunt cunoscuţi m vectori de referinţă, notaţi cu R1, R2,…Rm, cu Rj asociat clasei j , atunci clasificatorul de distanţă minimă va atribui forma de intrare X clasei i dacă distanţa dintre aceasta şi vectorii de referinţă este minimă,

adică X i dacă d = X-Ri = minim. (2.11)

Considerăm două grupe de puncte distincte în spaţiul formelor şi ne propunem să determinăm funcţia de decizie care va putea separa spaţiul formelor în două regiuni care vor corespunde celor două clase. Iniţial vom determina vectorii de referinţă pe care îi vom considera reprezentând centrele celor două grupări de puncte. Valoarea punctelor prototip poate fi calculată cu o relaţie de forma :

R= (1/N )∑i= 1

N

X i(2.12)

unde N reprezintă numărul de forme dintr-o grupare. Distanţa dintre o formă X şi centrul grupării R (R este de forma R = (r1, r2,…,rm)) este dată de relaţia d = X-R. Dacă considerăm că cele două grupări se află într-un spaţiu bi-dimensional, atunci d va avea următoarea formă :

d2 = (x1 - r1)2 +(x2 - r2)2 = x12 - 2x1r1 + r1

2 + x22 - 2x2r2 + r2

2.

In cazul când avem mai mult de două clase, distanţa dintre o formă X şi R i al grupării i este dată de :

d i2=(X−Ri )2 =X⋅X−2X⋅Ri +Ri⋅R i (2.13)

Deoarece X⋅X este aceeaşi pentru toate clasele, el poate fi eliminat. Dacă înmulţim relaţia (1.13) cu –0.5, vom obţine :

15

Di( X )=X⋅Ri−0,5 R i⋅Ri (2.14)Deoarece di

2 a fost înmulţit cu un număr negativ rezultă că cea mai mare funcţie de decizie (max Di(X)) identifică distanţa minimă şi deci clasa lui X.

Pentru determinarea termenilor W, din funcţia de decizie D(X )=W⋅X se utilizează relaţia

(2.14) şi rezultă W i =Ri , pentru i = 1,.., n şi W N+1=−0,5 Ri⋅Ri .

Din cele spuse anterior rezultă că un clasificator de distanţă minimă este un clasificator liniar. Performanţa unui astfel de clasificator depinde evident de modul cum sunt aleşi vectorii de referinţă dar şi de felul cum sunt evaluate distanţele. Cele mai frecvente distanţe utilizate sunt cele derivate de distanţa generală Minkovski.

d Minkovski=[∑i=1

n

(x i−r i )k ]1/k

(2.15)

Astfel, pentru k = 2 se obţine binecunoscuta distanţă Euclidiană.

d Euclid=[∑i=1

n

(x i−ri )2]1/2

(2.16)

Pentru k = 1 se obţine distanţa Manhattan.

d Manhat tan=∑i=1

n

|x i−ri|(2.17)

Dacă toate caracteristicile xi şi ri, i =1,…,n sunt codificate binar (au doar valorile 0 sau 1), atunci distanţa Manhattan poartă numele de distanţa Hamming. Distanţa Hamming este echivalentă cu numărul de caracteristici care sunt diferite în X şi R. Aplicarea lui SAU EXCLUSIV, simbolizat aici prin XOR, permite calcului foarte rapid al distanţei Hamming conform relaţiei:

d Hammin g=∑i=1

n

XOR ( xi ,r i)(1.18)

Alte tipuri de clasificatori

In literatura de specialitate sunt dezvoltaţi un număr mare de clasificatori, majoritatea având ca punct de plecare clasificatorul distanţei minime prezentat anterior. Dintre aceştia cei mai importanţi sunt:

i) Clasificatorul vecinului cel mai apropiat. Acesta dezvoltă un clasificator de distanţă minimă în raport cu mai multe seturi de vectori de referinţă. Astfel, fie R1, …,Rm cele m seturi de vectori prototip asociate, respectiv, claselor 1,…,m şi Rj

(k) setul de vectori de referinţă din setul Rj, care aparţin clasei j. În acest caz distanţa dintre forma de intrare reprezentată prin vectorul X şi setul de vectori de referinţă Rj se defineşte astfel:

16

d (X,R j )= ∑k=1,. . . ,U j

min (n,m )

|X−R j( k )|

, j = 1,…,m (2.19) Uj fiind numărul de vectori de referinţă din setul R j. Clasificatorul ce utilizează acest tip de distanţă va fi de forma

Di( X )= ∑k=1,.. . ,U j

m

{Di(k )(X )} ,

i =1, …, m (2.20)Aceşti clasificatori sunt adesea denumiţi clasificatori liniari pe porţiuni sau clasificatori bazaţi pe cei mai apropiaţi U vecini.

ii) Funcţii discriminant polinomiale.Acestea dezvoltă un clasificator de forma:

Di( X )=∑k=1

L

W i,k⋅f k (X )+W i,L+1 ,(2.21)

unde: k1, k2,….kr = 1,…,n

f k( X )=xk1

n1 xk 2

n2 . .. .⋅xk n

nr

pentru şin1, n2,…,nr = 0 şi 1.

Limita de decizie dintre oricare 2 clase are forma unui polinom de ordinul r. În mod particular, pentru r = 2 obţinem o funcţie discriminant pătrată cu

f k( X )=xk1

n1 xk 2

n2

pentru k1, k2= 1,…,n; n1, n2 = 0 şi 1 (2.22)şi L = (1/2) n (n+3).

În această situaţie limita de decizie este un hiper-hiperboloid (în unele cazuri speciale aceste limite pot fi hipersfere sau hiperelipsoizi).

iii) Clasificatorul Bayes.Se foloseşte atunci când distribuţia formelor nu este total disjunctă şi există suprapuneri semnificative ale valorilor trăsăturilor diferitelor clase de forme.În abordarea Bayesiană se folosesc cunoştinţe probabilistice despre trăsăturile formelor şi despre frecvenţa lor de apariţie.Se presupune că probabilitatea formelor clasei i este P(i). Acesta înseamnă că apriori cunoaştem probabilitatea de apariţie a unei forme din clasa I şi, în absenţa oricăror alte cunoştinţe, putem minimiza probabilitatea erorii de decizie presupunând că forma necunoscută aparţine clasei cu probabilitatea P(i) maximă. În luarea unei decizii de apartenenţă se ţine seama şi de observaţii asupra formelor. Comportarea unei clase de forme este descrisă de probabilitatea condiţionată p(x/i). Probabilitatea p(x/i) ne spune că o trăsătură măsurată a unei forme aparţinând clasei I are valoarea x cu probabilitatea p(x/I).Bazat pe aceste cunoştinţe se poate calcula probabilitatea a posteriori p(j /x) pentru o formă necunoscută. Probabilitatea a posteriori p(j /x) a unei forme necunoscute ne spune că dacă o măsurătoare făcută asupra formei necunoscute are valoarea x forma aparţine clasei j cu probabilitatea p(j /x). Calculul probabilităţi condiţionate p(j /x) se face pe baza formulei lui Bayes:

p (ϖ j /x )=p (x /ϖ j )⋅P (ϖ j )

p (x ) , (2.23)

17

unde:

p ( x )=∑

j=1

m

p( x /ϖ j )⋅P (ϖ j ),

m reprezintă numărul de clase.Forma necunoscută trebuie asignată clasei cu p(j /x) maxim. Formula poate fi generalizată pentru cazul unor vectori de trăsături n dimensionali.

p (ϖ j /X )=p (X /ϖ j )⋅P (ϖ j )

p (X ) , (2.24)unde:

X este vectorul de formă n-dimensional.Clasificarea Bayes este de forma:

Di(X) = P(i)*p(X/i), i =1,…,n (2.25)

Recunoaşterea necontrolată. Tehnici de grupare

Tehnicile de grupare constă dintr-un set de algoritmi care asigură împărţirea spaţiului formelor în clase, grupe de forme, fără a face apel la existenţa prealabilă a unui set de predicţie cunoscut. Conceptul de grupare poate fi înţeles cel mai bine prin prezentarea celui mai simplu algoritm de grupare (denumit algoritm de tip prag). Algoritmul presupune existenţa în spaţiul formelor a unui set de forme şi stabilirea iniţială a unei distanţe minime (numită distanţa de prag) dintre două forme. Dacă distanţa dintre două forme este mai mică decât distanţa de prag, cele două forme fac parte din aceeaşi clasă. Notăm cu T distanţa prag. Iniţial se stabileşte aleatoriu un prim centru de grup pe care-l notăm cu Z1(Z1 corespunde cu una din cele N forme). Se calculează distanţa dintre acest centru şi toate celelalte forme. Dacă distanţele calculate sunt mai mici decât T, formele respective sunt atribuite clasei 1 , a cărei centru este Z1. Prima formă situată la o distanţă mai mare decât T conduce la crearea unei noi grupări (clase) i cu centrul definit de forma respectivă. Se reia calculul distanţelor pentru formele rămase, luând în considerare noua grupare creată.

Procesul de obţinere de noi grupări şi de atribuire a formelor la aceste grupări continuă până în momentul în care sunt clasificate toate formele. Algoritmul este prezentat în figura Fig. 2.3-1.

18

Fig. 2.3-1Algoritm de tip prag.

Studiind acest algoritm pot fi determinate o serie de caracteristici ale tehnicilor de grupare.1. Alegerea centrelor claselor (grupărilor). Modul de alegere afectează viteza de clasificare ca şi numărul de grupe (clase) care rezultă în urma executării procedurii de clasificare. Din acest motiv se recurge, de obicei, la calculul continuu a unui centru al clasei pe măsură ce la acesta se atribuie noi forme. În acest caz, centrul grupării poate să nu corespundă cu o forma existentă.2. Alegerea criteriului de clasificare. În cazul exemplului dat, criteriul de clasificare este o distanţă. Se observă că valoarea lui T afectează rezoluţia procesului de clasificare. Dacă T este prea mare, două sau mai multe clase distincte pot fi grupate în una singură. În cazul în care T este prea mic, o grupare poate fi împărţită în mod artificial în câteva grupe. Pentru determinarea valori lui T se ţine cont de efectul pe care-l va avea această valoare asupra numărului de grupări. În cazul general se utilizează criteriile de similaritate şi nesimilaritate prin care se asigură apartenenţa unei forme la o clasă. Acestea pot fi distanţe sau alţi parametri.În figura Fig 2.3-2 se prezintă un algoritm general de grupare care ia în considerare criteriile de

grupare specificate anterior.

19

Fig. 2.3-1 Algoritm de grupare

Tehnici de învăţare

Aceste tehnici dezvoltă algoritmi prin care sunt construiţi coeficienţii funcţiei de decizie utilizând o metodă tip ‘feed-back’. Algoritmii operează asupra unui set de forme a căror apartenenţă la clasă este cunoscută. Determină coeficienţii funcţiei de decizie conform unuia din cele trei criterii de clasificare (specificate anterior), interativ, până la satisfacerea condiţiilor impuse.

Pentru a ilustra cele menţionate presupunem un set de N forme împărţit în două clase 1 şi 2. Ne propunem să determinăm coeficienţii vectorului pondere W. Funcţia de decizie dată de relaţia (1.9), pentru un spaţiu n-dimensional, are forma

D(X)=[W1, …,Wn,Wn+1]X, unde X=[x1I,x2I] pentru i=1,…,n.

Pentru formele x1i aprţine 1, funcţia de decizie este pozitivă şi negativă dacă x2I aparţine 2 (vezi paragraful 1.2.2.a). Prin urmare criteriul care se urmăreşte a fi atins este D(X)>0. Algoritmul alege o formă şi calculează funcţia sa de decizie. Dacă D(X)>0, vectorul pondere este satisfăcător şi nu se modifică. Se trece la următoarea formă. Dacă D(X)<0, vectorul de ponderi trebuie să fie modificat astfel încât funcţia de decizie să devină pozitivă. Dacă această condiţie a fost îndeplinită pentru toate

20

formele din clasa 1 se repetă operaţia pentru formele din clasa 2 (care au fost înmulţite în prealabil cu –1 pentru ca funcţia de decizie să fie pozitivă). Operaţia presupune:

i) stabilirea unei valori iniţiale pentru vectorul de ponderi;ii) stabilirea unei modalităţi de modificare a lui W.

21

Capitolul 3

Metode de clasificare bazate pe optimizarea unei funcţii criteriu

Generalităţi

În acest capitol vor fi prezentate o serie de metode deterministe de clasificare. Aceste metode sunt în esenţă proceduri de optimizare a unor funcţii criteriu. Pentru construirea unei funcţii criteriu se admite că fiecare clasă este reprezentată printr-un prototip geometric. Prototipurile pot fi punctuale, caz în care clasele au aproximativ formă sferică sau liniară, caz în care clasele au formă alungită. Funcţia criteriu reprezintă o măsură a apartenenţei sau a neapartenenţei unei partiţii a datelor la prototipurile claselor. Calitatea unei partiţii este cu atât mai mare cu cât punctele fiecărei clase sunt mai grupate în jurul prototipului clasei.

O altă posibilitate pentru construirea funcţiei criteriu este aceea de a utiliza matricele de împrăştiere a datelor. Clasificarea optimă va fi aceea în care împrăştierea în interiorul fiecărei clase este minimă (clasele sunt mai compacte) şi împrăştierea între clase este mai mare (clasele sunt cât mai separate una de alta) .

Se studiază două metode puternice de analiză a datelor : Analiza Discriminantă (AD) şi Analiza Componentelor Principale (ACP) . Se evidențiază faptul că AD şi ACP pot servi pentru elaborarea unor tehnici de clasificare.

Disimilaritate. Normalizarea datelor.

Măsuri de disimilaritate.Fie X o mulţime de obiecte de clasificat. Cea mai generală măsură de disimilaritate pe care o putem

defini peste X este o funcţie D: X*XR care satisface axiomele:(1) D(x,y)0 x,yX(2) D(x,x)=0 xX(3) D(x,y)=D(y,x) x,yX

Se admite că X este mulţime de instruire (cunoaştem pentru fiecare obiect din X clasa căruia el aparţine) iar D este o măsură de disimilaritate adecvată. În aceste condiţii este de aşteptat ca disimilaritatea dintre obiectele aceleiaşi clase să fie sensibil mai mică decât disimilaritatea dintre puncte aflate în clase diferite. În cazul când datele sunt obiecte dintr-un spaţiu euclidian vom considera metrica spaţiului ca o măsură a disimilarităţii.

Dacă X şi Y sunt puncte dintr-un spaţiu euclidian d-dimensional X = (x1, x2,..., xd),Y =(y1, y2,..., yd),

atunci pentru orice număr real p1 se poate defini metrica:

d(X, Y)

=(∑i=1

d

|x i− y i|p )

1p

(1)De fapt (1) reprezintă o familie infinită de matrici. Pentru p = 1 din (1) se obţine:

d(X, Y)=∑

i=1

d

|x i− yi| (2)

numită metrica absolută sau distanţa City Black.Dacă p = 2 se obţine distanţa euclidiană :

d(X, Y)

=(∑i=1

d

(x i− y i )2)12

(3)

22

iar pentru p∞ se obţine metrica valorii maxime :

d(X, Y)|x i− y i|¿ (4)

Să considerăm că valorile posibile ale caracteristicilor formelor de clasificat sunt în număr finit şi fie d acest număr. În acest caz ca măsură de disimilaritate se pot utiliza distanţele Hamming şi Lee.

Distanţa Hamming dintre vectorii X şi Y este dată de numărul componentelor (poziţiilor) în care cei doi vectori diferă. Ponderea Hamming a vectorului X, notată cu WH(X), se defineşte ca fiind numărul de componente nenule ale lui X. Rezultă că distanţa Hamming dintre X şi Y este egală cu ponderea Hamming a diferenţei lor :

dH (X, Y)= WH(X, Y) (5)

Distanţa LeeFie q un număr întreg, pozitiv, q2 şi X = (x1, x2,...,xd), cu xi{0,1, . . . ,q-1}.

Ponderea Lee a vectorului X, notată cu WL(X), se defineşte ca fiind:

WL(X)=∑

i=1

d

|x i|

unde:

x i dacă0≤x i≤q2

xi≤q−1

q−xi dacăq2

|x i|=

Distanţa Lee a vectorilor X şi Y se defineşte ca fiind ponderea Lee a diferenţei lor: dL (X, Y)= WL(X- Y) (6)

Pentru q = 2 şi q = 3 distanţele Hamming şi Lee coincid. Pentru q>3 avem: dL (X, Y) dH (X, Y), X, YDe asemenea pentru q = 2 avem

dH (X, Y)=∑

i=1

d

|x i− yi|

Împrăştierea datelorÎn cele ce urmează vom considera că fiecare obiect de clasificat Xi se reprezintă ca un vector d-

dimensional:xi=( x1

i, x2i, . . . ,xd

i)unde xj

i, specifică componenta j a vectorului xi .Considerăm o mulţime de obiecte X={x1, x2, . . . , xp}, xiRd.

Vom nota cu m vectorul medie a datelor:

m=

1p∑i=1

pi¿

(7)Componenta mk a vectorului m este :

23

mk=

1p∑i=1

p

xki

şi reprezintă valoarea medie a caracteristicii k. Dacă ne raportăm din nou la mulţimea de obiecte X atunci caracteristica i a lui X este

Xi={ xi1, xi

2, . . . , xip}

şi deci vom putea scrie că : mi= MX i

unde cu M am notat operatorul valoare medie.Cu aceasta putem să definim dispersia valorilor în jurul valorii medii atât pentru:

caracteristica ii2 = ii= M(Xi - mi)2 (8)

caracteristicile i şi kik= M(Xi - mi)(Xk - mk) (9)

Relaţia (8) se mai poate scrie σ i

2= 1p∑j=1

p

( x ij−mi)

2

din care rezultă imediat prin dezvoltarea termenului din sumă

σ i2=M(Xi

2)-mi2 (10)

şi deci

σ i2= 1

p∑j=1

p

xij2−mi

2

(11)Cu aceste observaţii se poate defini matricea C(d,d) de componente ik ca reprezentând matricea de

dispersie pentru mulţimea X de obiecte. În cadrul acestei matrici elementul ii va reprezenta împrăştierea (dispersia) norului de obiecte în direcţia axei i a sistemului de coordonate .

Să considerăm acum un nor de obiecteX={x1, x2, . . . , xp}

al cărui vector medie coincide cu originea spaţiului, adică M(X) = 0. Ne propunem să determinăm dispersia (împrăştierea) norului în direcţia vectorului u. Considerând că obiectele prezintă 3 caracteristici de exemplu, devine posibilă reprezentarea norului de obiecte într-un spaţiu tridimensional

Revenind într-un spaţiu cu d dimensional Rd proiecţia vectorului (a caracteristicilor obiectului i) xi pe direcţia u este matrice [yi] de forma:

[yi]=[u]T[xi]unde:

[u]T este transpusa matricii componentelor lui u [xi] este matricea componentelor lui x

24

Identificând norul de obiecte X cu o matrice [X] de dimensiune d x p ale cărei linii corespund caracteristicilor iar coloane obiectelor:

[ X ]=[ x11 .. . x1

p

x21 .. . x2

p

: : :xd

1 .. . xdp ]

Putem calcula o matrice [Y] a proiecţiilor norului de obiecte X pe direcţia u. Putem scrie că:

[Y] = [u]T[X] (12)Împrăştierea norului X în direcţia u este dată de dispersia proiecţiilor punctelor sale pe u adică de

dispersia lui [Y]. Putem deci scrie:2([Y]) = 2([u]T[X])=M([u]T[X])2 - (M([u]T[X]))2

dar cum M(X) = 0 , dispersia u2X a norului în direcţia u se scrie: 2uX=2([Y])= M([u]T[X])2 (13)care dă împrăştierea grupării de obiecte în direcţia u.

Normalizarea datelorCaracteristicile unui obiect pot corespunde la mărimi fizice diferite şi în consecinţă se exprimă prin

unităţi de măsură diferite. Pentru calculul distanţei ar trebui să adunăm, de exemplu, centimetri şi kilograme. Din acest motiv înainte de aplicarea algoritmului de stabilire a apartenenţei unui obiect la o clasă este necesar să efectuăm o uniformizare a diferitelor caracteristici. Această uniformizare se poate realiza într-o normalizare a datelor, astfel încât toate caracteristicile să aibă aceeaşi valoare medie şi aceeaşi dispersie.Transformarea

x i

'=(xi−mi )

σ i i=1,...,d (14)este o transformare de normalizare, ce constă dintr-o translaţie şi o transformare de scală. Prin această transformare a axelor de coordonate, toate caracteristicile au media zero şi dispersia unu. În adevăr, media şi dispersia noii caracteristici i se pot scrie:

M(Xi')=

1p∑j=1

p

x ij= 1

p∑j=1

p xii−mi

σ i

=0 (15a)

şi i'2= 2(Xi

') = M(Xi'-M Xi

')2

ţinând cont că M(Xi')=0 rezultă că :

i'2= M((Xi')2)

şi deci

i'2=

M ( xi−mi

σ i)2

=σ i

2

σ i2=1

(15b)Normalizarea (14) este utilă şi în cazul când caracteristicile au aceeaşi unitate de măsură. În acest caz

normalizarea realizează o uniformizare a rolului diferitelor caracteristici, împiedicând anumite caracteristici să devină dominante în calculul distanţei numai datorită faptului că au valori numerice mari.

Dacă valorile unei caracteristici sunt mici, atunci aceste proiecţii ale obiectelor pe axa corespunzătoare se reprezintă ca o singură clasă omogenă. Dispersia caracteristicii respective fiind mică , prin normalizare valorile numerice ale proiecţiilor se măresc. Ca urmare norul proiecţiilor nu mai apare omogen ci structurat în clase.

25

Măsuri de similaritateO alternativă la folosirea unei măsuri de disimilaritate este considerarea unei măsuri a gradului în care

obiectele de clasificat sunt asemănătoare.O măsură (coeficient) de similaritate peste X este o funcţie S:X*XR , care satisface axiomele:1) S(x, y)0, S(x, y)= S(y, x), x , y X2) S(x, x)= S(y, y)> S(x, y) , x , y XDacă X este o submulţime a spaţiului Rd, atunci ca o măsură a similarităţii vectorilor (formelor) x şi y din

X putem considera cosinusul unghiului dintre cei doi vectori. Avem deci măsura de similaritate:

S1(x,y)=

¿¿¿=[x ]T [ y ]‖x‖⋅‖y‖

¿ (1)

unde :(x .y) - este produsul sacalar a doi vectori, pentru cazul dat avem x1y1+x2y2+...+xdyd [x]T - transpusa matricii componentelor formei x

||x|| - normala lui x : ‖x‖=√ x1

2+x 22+. ..+xd

2

Această măsură de similaritate este utilă atunci când mulţimea X a datelor este formată din clusteri liniari. O distanţă poate induce o măsură de similaritate. Dacă d este o distanţă peste X, atunci putem defini distanţa normalizată d/dmax, unde:

d ( x , y )¿Măsura de similaritate indusă de distanţa d se defineşte prin

S2 ( x , y )=1−d ( x , y )

dmax

Măsuri de similaritate pentru vectori binariAdmitem că toate caracteristicile sunt binare. Fiecare obiect (formă) este reprezentat printr-un vector cu

d componente care nu pot fi decât 0 sau 1. Vom pune xi=1 dacă obiectul x posedă atributul i şi xi=0 în caz contrar. Dacă atributul i este prezent simultan la obiectele x şi y, atunci avem xi yi =1.

Măsura de similaritate (1) poate fi reinterpretată pentru cazul caracteristicilor binare. În acest scop se observă că numărul de atribute prezente simultan la x şi y este

S=∑i=1

d

x i y i=[ x ]T [ y ]

Rezultă că ‖x‖2=[ x ]T [ x ] dă numărul de atribute pe care le posedă x. Atunci ‖x‖⋅‖y‖ este media

geometrică a numărului de atribute din x şi din y şi deci S( x , y ) dată de

S1 (x,y )= [ x ]T

‖x‖⋅‖y‖

este o măsură relativă a numărului de atribute comune. Modificând relaţia (1) se pot obţine diverse măsuri de similaritate. Se pot obţine astfel: înlocuind numitorul cu numărul de atribute a unui obiect avem:

S3 ( x,y )= [ x ]T [ y ]d (2)

coeficientul lui Tanimoto

26

S4( x , y )= [ x ]T [ y ][ x ]T [ x ]+[ y ]T [ y ]−[ x ]T [ y ] (3)

Această măsură este mult utilizată în probleme ridicate de regăsirea informaţiei, biologie etc.

Se observă că dacă atributul i lipseşte simultan din x şi y atunci (1-xi)(1-yI)=1 şi deci

T=∑i=1

d

(1-xi)(1-yi )(4)

este numărul atributelor ce lipsesc simultan din x şi y . Analog

u=∑i=1

d

x i(1-yi ) (5)

v=∑i=1

d

(1-xi) y i (6)

reprezintă numărul atributelor prezente în x dar care lipsesc din y şi respectiv numărul atributelor care sunt

prezente în y dar lipsesc din x .Cu aceste notaţii este uşor de văzut că sunt adevărate următoarele egalităţi s+u+v+t = d (7a)

s+u =[ x ]T [ x ] (7b)

s+v = [ y ]T [ y ] (7c)Ţinând cont de considerentele anterioare, semnificaţia măsurilor de similaritate date mai jos este uşor de intuit:

S5(x , y )=

s+td , (Kendal-Sokal) (8)

S6(x , y )=

s

s+12(u+v )

, (Dice) (9)

S7(x , y )=

ss+ 2(u+v ) , (Sokal-Sneath) (10)

S8(x , y )=

st−uvsu+sv (Yule) (11)

S9(x , y )=

st−uv

√(s+u )(s+v )( t+u )( t+v ) (Pearson) (12)

Funcţia criteriu

Fie X={x1 , x2 ,. .. , x p } mulţimea obiectelor de clasificat. Ne propunem să găsim o tehnică de explorare a datelor, care să ne permită să descoperim structura naturală de clasificare, sau structura de clusteri a mulţimii datelor. Vom admite că structura de clasificare a mulţimii X este dată de o partiţie

P= {A1 , A2 , . .. , An } a lui X .

Fiecare element Ai a partiţiei P va corespunde unei clase (nor, cluster) de obiecte, astfel încât punctele unei clase să fie mai asemănătoare decât punctele din clase diferite. Asemănarea obiectelor este dată de o măsura de similaritate sau de o măsură de disimilaritate. Pe baza unei astfel de măsuri putem construi o funcţie criteriu. Problema de clasificare se reduce astfel la problema determinării partiţiei ce realizează optimul funcţiei criteriu

27

(obiectiv). Pentru a construi o funcţie obiectiv al cărei extrem să fie partiţia căutată, avem nevoie să fixăm o anumită reprezentare a partiţiei. Aceste reprezentări depind de scopul clasificării ca şi de structura datelor. Structura se poate postula, bazându-se pe anumite informaţii apriorii, sau poate fi determinată prin aplicarea unor metode de analiză preliminară a datelor (analiza componentelor principale, analiza factorială etc.)

Să admitem faptul că fiecare clasă Ai se poate reprezenta printr-un prototip Li dintr-un spaţiu de reprezentare L.

L =L1 ,L2 ,…Ln constituie reprezentarea partiţieiP .

Fie D o măsură de disimilaritate peste X. Admitem că pornim de la D se poate construi o disimilaritate între un obiect din X şi un prototip. Acest lucru este întotdeauna posibil când D este o distanţă sau pătratul unei distanţe. Vom nota cu Di această măsură de disimilaritate indusă de către D.Di este aşadar o funcţie

Di: X Rşi

Di(x, Li)măsoară gradul în care obiectul x diferă de prototipul Li

Notăm cu

I : P(X) qRo funcţie care masoară gradul de inadecvare al repezentării unei clase printr-un prototip. Admitem că măsura I(Ai, Li) a inadecvării clasei Ai prin prototipul Li este dată de

I(Ai, Li) = ∑

x∈ Ai Di(x,Li) (1)după care vom considera că inadecvarea reprezentării partiţiei P prin L este de forma:

J(P, L) = ∑I=1

n

I(Ai, Li) (2)sau ţinând cont de (1):

J(P, L) = ∑i=1

n

∑x∈ Ai

i¿¿¿¿¿ (3)

unde J reprezintă funţia criterie.Problema de clasificare se reduce la determinarea partiţiei P şi a reprezentării L care minimizează

această funcţie criteriu. Deoarece mulţimea partiţiilor cu n clase ale lui X este finită, problema poate fi, teoretic, rezolvată prin considerarea tuturor partiţiilor. În realitate acest lucru nu este realizabil decât în situaţii foarte particulare. Într-adevăr numărul partiţiilor cu n clase ce pot fi construite cu p obiecte este

1n!∑k=1

n

(−1 )n−k Cnk k p≃ np

n! (4)Acest număr este foarte mare pentru cele mai multe cazuri practice. De exemplu, pentru 5 clase şi 100

obiecte avem circa 1067 partiţii distincte.

Cele mai utilizate metode pentru rezolvarea problemei de minimizare a funcţiei criteriu sunt metodele iterative. Ideea de bază este de a porni de la o partiţie iniţială, care poate fi aleasă arbritar sau determinată printr-un alt algoritm. Obiectele de clasificat sunt transferate dintr-o clasă în alta, dacă o astfel de mutare ameliorează valoarea funcţiei criteriu. Procedura se opreşte când nici o schimbare nu mai îmbunătăţeşte valoarea funcţiei criteriu. Procedurile iterative de acest tip asigură atingerea unui optim local. Alegeri diferite ale partiţiei iniţiale vor conduce în final după un interval mai mare sau mai mic de timp în general la soluţii identice ale problemei de clasificare.

28

Algoritmi de clasificare iterativă

Algoritmul n-medii

Fie X ={x1, x2…, xp} mulţimea obiectelor de clasificat. Admitem că aceste obiecte reprezintă vectori din spaţiul euclidian d-dimensional. Vom considera ca măsură de disimilaritate pătratul distanţei induse de norma, adică

D(x ,y)=‖x− y‖2 (1)

Presupunem că mulţimea X este alcătuită din nori (clusteri) de puncte relativ compacţi şi bine separaţi, de formă aproximativ sferică. În aceste condiţii un nor se poate reprezenta pritr-un punct, care constituie prototipul clasei respective. Aşadar prototipul Li al clasei Ai este un punct din Rd.

Disimilaritatea dintre un punct x din X şi prototipul Li se poate interpreta ca fiind eroarea comisă atunci când punctul x se aproximează prin prototipul clasei Ai. Această disimilaritate se poate scrie

D(x ,Li)=‖x−Li‖

2 (2)

Funcţia criteriu considerată va fi:

J(P, L) =∑i=1

n

∑x∈ Ai

i¿¿¿¿¿(3a)

de unde

J(P, L) =∑i=1

n

∑x∈ Ai

‖x−Li‖2

(3b)Pentru a determina minimul funcţiei criteriu, aceasta se va exprima într-o formă uşor modificată. Fie I Ai funcţia

caracteristică a mulţimii Ai. Folosind notaţia:

Aij = IAi(xj) ={}0 incazcontrar

1 daca x j∈ Ai

(4)Să presupunem de exemplu că avem un număr de 6 obiecte şi că partiţionarea acestora iniţială este 3.

Atunci Aij se va putea construi astfel:

PartiţiaObiect 1 2 31 1 0 02 1 0 03 1 0 0

4 0 1 05 0 1 06 0 0 1

În aceste condiţii funcţia criteriu este:

J (P , L)=∑i=1

n

∑j=1

p

A ij‖x j−Li‖2

(5)Ţinând cont de faptul că într-un spaţiu euclidian produsul scalar a doi vectori este

( x , y )=[ x ]T⋅[ y ]

29

funcţia criteriu apare sub forma

J (P , L)=∑i=1

n

∑j=1

p

A ij[ xj−Li ]

T⋅[ x j−Li ] (6)

Pentru ca L să fie un minim pentru funcţia J (P , L) este necesar să avem:∂ J (P , L)∂Li

=0, i=1, n(7)

de unde rezultă că:

−2∑j= 1

p

Aij [ xj−Li ]=0, i=1,n

(8)respectiv:

∑j=1

p

A ij x j−∑j= 1

p

Aij Li=0, i=1,n(9)

de unde obţinem:

Li=∑j=1

p

A ij x j

∑j= 1

p

Aij

, i=1,n

(10)

Se observă că numitorul reprezintă numărul de elemente din clasa Ai . Notând cu

pi=∑j=1

p

Aijnumărul de elemente din clasa Ai (11)

expresia prototipului Li se va mai scrie

Li=1pi∑

x ∈ A i

x(12)

Observăm că prototipul L i este media sau centrul de greutate al clasei A i.Reprezentarea

L i={ L 1, L 2, . . . , L n} unde L i este dat de (10), induce o nouă partiţie. Această partiţie se obţine folosind regula celui mai apropiat vecin. Un obiect (punct) xj este ataşat clasei de centrul căreia este cel mai apropiat. Avem deci următoarea regulă de decizie

x j∈ A i ‖x j−Li‖<‖x j−Lk‖, k=1,n ;şik≠i (13)Din punctul de vedere al programării algoritmului, este mai util regula (13) să se exprime sub forma

Aij= {}0 î ncazcontrar

1 dacă ‖x j−Li‖<‖x j−L

k‖ , ∀ k≠i

(14)

Algoritmul n-medii constă în aplicarea iterativă a formulelor (10), (14) sau (12), (13), plecând de la o partiţie iniţială a lui X. Această partiţie iniţială se poate alege arbitrar, se poate stabili folosind anumite informaţii asupra datelor sau poate constitui rezultatul aplicării unui alt algoritm de clasificare.

Algoritmul n-medii constă în executarea următorilor paşi:

P1. Se alege o partiţie iniţială p 0 ={A1, A2, . . . , An} a lui X. P2. Se calculează prototipurile acestei partiţii cu formula :

30

Li=∑j=1

p

A ij x y

∑j=1

p

Aij

= 1p i∑

x∈ Ai

x

P3. Se calculează noua partiţie după regula

x A i dacă ‖x j−Li‖<‖x j−Lk‖,∀ k≠i

P4. Dacă noua partiţie coincide cu precedenta, atunci STOP. În caz contrar se merge la P2. Observaţii:A) În loc de a alege o partiţie iniţială putem porni de la o alegere arbitrară a n centrii, care pot fi n puncte din

mulţimea X a datelor.B) Rezultatele algoritmului n-medii depind de numărul de clase considerate, de alegerea iniţială a partiţiei sau a

centrilor şi de propietăţile geometrice ale datelor. Când datele conţin grupări caracteristice, relativ îndepărtate unele de altele, deci sunt constituite din clusteri compacţi şi bine separaţi, rezulatele algoritmului sunt bune. Determinarea numărului optim de clusteri prezenţi în mulţimea datelor constituie aşa numita problemă a validităţii clusterilor. Această problemă nu poate fi rezolvată în cadrul acestui algoritm. Dacă avem unele informaţii despre date, putem ca prin experimentări succesive să determinăm valoarea care dă cea mai bună concordanţă cu datele iniţiale.

C) O altă problemă dificilă apare când datele conţin clase ce prezintă diferenţe mari ale numărului de puncte. Să considerăm cazul când datele constau din doi clusteri inegali ca populaţie şi extindere. Este posibil ca unele puncte aflate la periferia clusterului mare să fie mai apropiate de centrul clusterului mic. Funcţia criteriu considerată va favoriza o partiţie ce despică clusterul mare, faţă de una ce menţine integritatea acestuia. Dacă se consideră n=2, atunci clusterul mai mic va capta unele din punctele periferice ale clusterului mare. Acest efect "pseudo-gravitaţional" reprezintă o perturbaţie pentru procesul de clasificare. Este o dificulatate majoră care se poate rezolva făcând ca distanţa de la un obiect la prototipul unei clase să depindă de dimensiunea clasei respective. Considerarea unei astfel de distanţe adaptive presupune în general ca algoritmul să fie aplicat de două ori.

D) Alte dificultăţi sunt legate de existenţa punctelor izolate (considerate zgomote) şi a podurilor între clustere. De altfel aceste dificultăţi apar şi în alte tehnici de clasificare.

Algoritmul ISODATA

Algoritmul ISODATA (Iterativ Self-Organizing Data Analyst Techniques) este în esenţă similar cu algoritmul n-medii. Această asemănare a făcut ca algoritmul n-medii să fie deseori prezentat sub numele de ISODATA. Asemănarea constă în modul iterativ de calcul a centrilor. Deosebirea este dată de natura euristică a algoritmului ISODATA. Algoritmul reprezintă un bun exemplu relativ la avantajele şi inconvenientele unor astfel de metode care necesită definirea unor parametrii ce trebuie ajustaţi prin încercări succesive.

Mai întâi este necesar să se specifice k centri de clase. Aceşti centri, al căror număr nu este neaparat egal cu numărul claselor dorite, pot fi aleşi dintre punctele de clasificat. Fie m1,...,mk alegerea iniţială arbitrară a acestor centri.

Algoritmul ISODATA constă în parcurgerea următorilor paşi:

P1. Se specifică valorile următorilor parametri:n = numărul de clase dorite;p = numărul minim de elemente dintr-o clasă;s = parametrul de dispersie standard;c = distanţa maximă pentru fuzionare;L = numărul maxim de perechi de centre ce pot fuziona la un moment dat;I = numărul maxim de iteraţii permise.

P2. Se distribuie cele p perechi din X în clasele determinate de centri, după regula:

31

x∈ A i dacă d (x , mi )=min {d ( x , m j ) ,j=1, k }P3. Se suprimă clasele având mai puţin de θp elemente şi se repartizează obiectele în celelalte clase. Se micşorează k.P4. Se recalculează centrii claselor după formula

mi= 1pi∑

x ∈ A i

x , i=1, k

P5. Se calculează diametrul mediu al fiecărei clase

Di=1pi∑

x ∈ A i

d (x ,mi ) , i=1,k

P6. Se calculează distanţa medie la care se află obiectele faţă de centrii claselor

D=1p∑i= 1

k

∑x∈ Ai

d (x , mi )= 1p∑i=1

k

pi Di

P7. 1) Dacă aceasta este ultima iteraţie atunci se pune θc şi se merge la P11

2) Dacă k≤n

2 se merge la P8

3) Dacă numărul iteraţiei este par sau dacă k≥2n se merge la P11

P8. Se calculează dispersia clasei Ai

σ i2= 1

pi∑

x∈ A i

(x−mi )2 , i=1,k

Componenta σ ij a lui σ i reprezintă dispersia datelor în direcţia j.P9. Pentru fiecare clasă se determină componenta maximă a dispersiei

σ ij i=1,k ¿P10. Se consideră succesiv toate clasele. Dacă există o clasă Ai astfel încât

σ ijm> θs

şiDi > D , p i > 2 (θ p+1 )

sau

k<n2

atunci se despică clasa Ai în două clase şi se claculează centrii acestora

mi+ şi m

i−

se şterge mi

şi se pune k :=k+1 . Centrul mi+

se obţine adăugând la componenta m jm

i

(care corespunde

componentei maxime ale lui mi

) o cantitate σ ijm⋅a

(unde 0 <a≤1 ). Centrul mi−

se obţine scăzând această

cantitate din m jm

i

. Parametrul trebuie astfel ales încât diferenţa distanţelor de la orice punct arbitrar la noii

centri să fie sesizabilă ( mai mare decât un ε convenabil ales), dar să nu schimbe în mod apreciabil întreaga configuraţie a claselor.Dacă s-a produs despicarea vreunei clase la acest pas se merge la P2. În caz contrar se va continua.P11. Se calculează toate distanţele între centri claselor

d ij =d (mi ,m j )=‖mi−m j‖ , i=1, k−1 , j=i+1, k

32

P12. Se compară distanţele dij cu parametrul θc . Se aranjează primele L distanţe mai mici decât θc în ordine crescătoare.

P13. Pornind de la perechea de clase Ai , A j având distanţa centrilor cea mai mică se modifică centrii după

următoarea regulă: Dacă atât pentru Ai cât şi pentru A j centrul nu a fost modificat, se înlocuiesc centrii

mi , m j prin centrul

m= 1pi +p j

(p i mi +p j m

j).

Se şterg mi , m j

şi se pune k :=k−1 . Dacă fie Ai fie A j au centrul modificat atunci perechea (i, j) nu e luată în considerare şi se trece la următoarea pereche.P14. Dacă aceasta este ultima iteraţie sau dacă poziţia şi numărul centrilor coincid cu cele de la iteraţia precedentă STOP. In caz contrar se merge la P2 ( sau P1 dacă se modifică datele inţiale).

33

Capitol 4

Analiza discriminantă

Axe discriminante

Pentru precizarea ideiilor să considerăm o mulţime X de date dintr-un spaţiu bidimensional. Valorile

caracteristicilor C1 şi C2 ale datelor sunt date de proiecţiile norului X pe axele de coordonate x1 şi x2. Structura de clusteri a lui X se poate în acest caz detecta prin simpla inspecţie vizuală. Diferiţi observatori pot indica diferite moduri de grupare a datelor în clasă. Acesta relevă faptul că puterea că puterea de discriminare a caracteristicilor este slabă pentru datele considerate. Există două posibilităţi: fie nu s-au ales cele mai bune caracteristici ale datelor; fie că datele prin natura lor sunt foarte asemănătoare.

Este de dorit în acest caz să determinăm un nou sistem de coordonate faţă de care structura de clusteri a

norului X să fie mai evidentă decât în sistemul iniţial. Axele noului sistem au deci o putere de discriminare a

claselor din X superioară celei a axelor iniţiale. În unele situaţii este suficient să determinăm o singură axă

discriminantă, astfel încât proiecţiile norului de obiecte X pe acestă axă să conste din clase compacte şi bine separate.

Mărimea puterii discriminante a axelor poate fi aşadar reclamată de datele problemei, pentru a putea "vedea" o anumită structură a datelor. Determinarea axelor discriminante poate servi şi ca o tehnică de reducere a dimensiunii spaţiului caracteristicilor, prin aceea că cunt selectate cele mai relevante caracteristici. Reducerea dimensiunii poate fi impusă şi de necesitatea vizualizării claselor într-un spaţiu cu una sau două dimensiuni. În acest caz cerinţa fundamentală este ca prin proiectarea datelor într-un spaţiu de dimensiune redusă, la clasele compacte şi bine separate din spaţiul iniţial să corespundă clase compacte şi bine separate din noul spaţiu. În acelaşi timp informaţiile legate de împrăştierea datelor servesc şi la construirea unor criterii de clasificare.Ne propunem:

Fie X={x1 , x2 ,. .. , x p } cu x i∈ Rd mulţimea datelor (x

i este o formă care este definită printr-un

număr de d caracteristici- atribute). Dorim să determinăm o dreaptă care trece prin originea spaţiului astfel încât

proiecţiile punctelor norului X pe această dreaptă să formeze clase bine separate. În plus cerem ca structura de

clusteri a lui X să nu fie prea mult alterată prin proiectarea norului X pe acestă dreaptă.

Fie u vectorul unitar al dreptei căutate. Proiecţiile punctului xi

pe dreapta de direcţie u este:

y i=(u , xi )=uT⋅xi (1)

Să considerăm că în X sunt prezente clasele A1 şi A2 . Admitem că proiecţiile pe u ale punctelor clasei A1 formează o clasă B1 iar punctele din A2 se proiectează pe u în clasa B2. Fie pi numărul de puncte din clasa Ai şi

mi= 1pi∑

x ∈ A i

x , i=1 , 2 (2)

media (centrul de greutate) clasei Ai . Media clasei Bi este

mi= 1pi∑y∈ B i

y(3)

care se mai poate scrie

mi= 1pi∑

x ∈ A i

uT x=uT mi

(3a)

34

Se defineşte împrăştierea Si2

a clasei Bi ca fiind dată de

Si2=∑

y ∈Bi

( y−mi )2(4)

Se observă că împrăştierea clasei Si2

este proporţională cu dispersia clasei Bi .Împrăştierea întra-clase a proiecţiilor datelor se defineşte ca fiind

I P= S12+S2

2(5)

Separarea D (B1 ,B2 ) a claselor B1 şi B2 se poate măsura prin pătratul distanţei "centrilor" m

1 şi m

2 ai

acestor clase

D (B1 ,B2)=d2 (m1 ,m2 )=(m1−m2 )2(6)

Ne interesează determinarea direcţiei u pentru care : separarea claselor este cât mai mare ;

împrăştierea fiecărei clase în direcţia u este cât mai micăSe impune deci să căutăm maximul funcţiei criteriu

J (u )=(m1−m2)2

S12+S2

2(7)

Definiţie

Direcţia u care realizează maximul funcţiei J se numeşte axă discriminantă. Rescriem J astfel ca

aceasta să apară ca o funcţie explicită de u astfel:

Si2=∑

y ∈Bi

( y−m1)2=∑x∈ Ai

(uT x−uT mi )2

de unde

Si2=∑

x∈ Ai

uT (x−mi )uT (x−mi )=∑x ∈ Ai

uT (x−mi ) (x−mi )T u (8)

Dar matricea de împăştiere a clasei Ai este

Si=∑x∈ Ai

(x−mi )( x−mi )T

(9)

Ca urmare matricea de împăştiere a clasei Bi este

Si2=uT⋅S i⋅u (10)

Utilizând (10) împrăştierea intra-clase este:

I P= S12+S2

2=uT S1 u +uT S2u (11)sau

I P=uT Sw u unde Sw=S1+S2 este matricea de împriăştierea intra-claseMomentan am rezolvat numitorul funcţiei criteriu (7).Numărătorul se va putea scrie

(m1−m2)2=(uT (m1−m2))2=uT (m1−m2 ) (m1−m2 )T⏟S

B

u

Matricea

SB=(m1−m2) (m1−m2)T

(12)

35

se numeşte matricea de împrăştiere inter-clase.

Cu această notaţie obţinem

(m1−m2)2=uT SBu (13)şi deci funcţia criteriu J poate fi scrisă sub forma:

J (u )=uT SBu

uT Sw u (14)

Determinarea maximului funcţiei criteriu. Din condiţia de extrem∂ J (u )∂U

=0

se obţine ecuaţi:

2SB uuT Sw u−uT SBu2Sw u=0de unde

SBu=uT SB u

uT Sw u⏟→λ=J (u )

Sw u

rezultă că:SBu =λ Sw u (15)

Admiţînd că matricea Sw nu este singulară , obţinem că

Sw−1 SBu =λ u (16)

Aşadar u este un vector propriu al matricei Sw−1 SB corespunzător valorii proprii λ=J (u )

În concluzie determinarea direcţiei u se reduce la determinarea vectorului propiu a matricei Sw−1 SB

OBSERVAŢIEPentru determinarea maximului funcţiei J nu este necesar să calculăm vectorii şi valorile proprii ale matricei

Sw−1 SB .

Pentru aceasta să observăm că:

vectorul propriu a lui SB se poate scrie

λ ' u=SB u=(m1−m2 ) (m1−m2 )T u=k (m1−m2) (17)

unde (m1−m2)T u este un scalar k

concluzia care apare imediat este că u si SBu au întodeauna direcţia vectorului (m1−m2) din relaţia (16)

Sw−1 SBu =λ u

rezultă că

λ u=Sw−1 k (m1−m2)

(18)şi deci că

u= kλ

Sw−1 (m1−m2)

(19)

36

Deoarece raportul k / λ nu are importanţă pentru direcţiea lui u , rezultă că maximul funcţiei criteriu J este:

u=Sw−1 (m1−m2)

(20)

Direcţiei discriminantă u serveşte la definirea unei funcţii de decizieg : Rd→R unde

g( x )=uT x (21)numită funcţia de decizie a lui Fisher. Hiperplanul de separare a celor 2 clase determinat de această funcţie estepe axa discriminantă.

Matrici de imprăştiere pentru n clase

Admitem acum că în mulţimea X a datelor sunt prezente clasele A1 ,A2 , .. . ,An , n> 2 . Clasa Ai

are pi elemente. Dacă mi este media clasei Ai :

mi= 1pi∑

x ∈ A i

x (22)

atunci vectorul medie total pentru toate obiectele din X se va scrie:

m= 1p∑x∈ X

x=1p∑i=1

n

p i mi

(23)

Matricea de împrăştiere Si a clasei Ai în jurul centrului ei de greutate este dată de:

Si=∑x ∈ Ai

(x−mi ) ( x−mi )T(24)

şi în aceste condiţii putem defini:1) Matricea de împrăştiere intraclase ca fiind:

Sw=∑i=1

n

S i (25)

2) Matricea de împrăştiere totală a obiectelor din X faţă de centrul m , ca fiind:

ST=∑x∈X

( x−m ) ( x−m )T(26)

3) Matricea de împrăştiere interclase se notează cu SB şi este prin definiţie

SB=∑i=1

n

pi(mi−m ) (mi−m )T

(27)Ţinând cont de aceste definiţii putem enunţa următorul rezultat:

Propoziţia 1. Matricea de împrăştiere totală se poate scrie sub formaST=Sw+SB (28)

DemonstraţieST se scrie sub forma :

ST=∑x ∈X

( x−m ) ( x−m )T=∑i=1

n

∑x ∈ Ai

(x−mi+mi−m ) (x−mi+mi+x )

rezultă că:

37

ST=∑i= 1

n

∑x∈ Ai

(x−mi ) ( x−mi )T+∑i=1

n

∑x∈ Ai

(mi−m ) (mi−m )T+

+∑i=1

n

∑x∈ A i

(x−mi ) (mi−m )T+∑i=1

n

∑x∈ Ai

(mi−m ) (x−mi )T

ultimele 2 sume sunt 0. Să considerăm spre exemplificare ultima sumă unde calculăm componenta kj a acestei matrici

∑i=1

n

∑x∈ Ai

(mki−mk ) (x j−m j

i )=

=∑i=1

n

{∑x∈ Ai

mki x j−∑

x ∈ Ai

mki m j

i−∑x∈ Ai

mk x j+∑x ∈ Ai

mk m ji }=

=∑i=1

n

{pi mki m j

i−pi mki m j

i−p j mk m ji +p j mk m j

i }=0

Ca urmare matricea ST se poate scrie:

ST=∑i= 1

n

∑x∈ Ai

(x−mi ) ( x−mi )T+∑i=1

n

∑x∈ Ai

(mi−m ) (mi−m )T=

=∑i=1

n

S i+∑i=1

n

p i(mi−m) (mi−m )T

ST=Sw+SB

Axe discriminante pentru n clase

În cazul a n clase (n>2) sunt necesare n-1 axe discriminante. Problema găsirii acestora revine la determinarea unui spaţiu n-1 dimensional, astfel încât proiecţiile punctelor în noul spaţiu să prezinte o împrăştiere cât mai mică.

Fie u1, u2, . . . ,un-1 direcţiile căutate. Proiecţia yi a punctului x pe direcţia ui este:yi =uiT x , i =1,...,n-1 (29)

Să notăm cu U matricea formată din componentele vectorilor u1,u2, ... ,un-1. Avem:

U=( u1,u2, . . . ,un-1)=

[u11 u1

2 . . . u1n−1

u21 u2

2 . . . u2n−1

: : : :ud

1 ud2 . . . ud

n−1 ](30)

Proiecţiile vectorului x pe direcţiile u1,u2, ... ,un-1 formează un vector y de forma:

y=

[ y1

y2

:yn−1

](31)

care se poate scrie y=UTx (32)

Admitem că punctele clasei Ai se proiectează în clasa Bi având vectorul medie mi

.

38

mi= 1pi∑y∈ B i

y (33)

Vectorul mediu al proiecţiilor este :

m= 1p∑i=1

m

pi mi

(34)Cu aceste notaţii se pot construi :1) Matricea de împrăştiere interclase a datelor proiectate

SB=∑i=1

n

pi(mi−m ) (mi−m )T

(35)

2) Matricea de împrăştiere intraclase

SW=1pi∑

y ∈Bi

( y−mi ) ( y−mi )T(36)

Deoarece

mi=UT mi şi m=UT m (37)rezultă că

y−mi=UT (x−mi ) (38)Avem deci

SB=UT SB u si SW=UT SW u (39)

Se observă că fiecare termen diagonal al matricii Si este proporţional cu dispersia datelor din clasa Ai în direcţia respectivă. Rezultă deci că elementele diagonale ale matricii SW de împrăştiere intraclase reprezintă dispersiile mulţimii X a obiectelor în direcţiile axelor de coordonate.

PropoziţieValoarea proprie corespunzătoare vectorului propriu v a lui Si reprezintă o măsură a împrăştierii

punctelor clasei Ai în direcţia vectorului unitar v.DemonstraţieFie v un vector propriu unitar al matricei Si corespunzător valorii proprii. Proiecţia vectorului x în

direcţia vectorului v este:x'=vTx

iar proiecţia vectorului mi este :m'i=vTmi

Împrăştierea proiecţiilor clasei Ai în direcţia v este dată de:

Si'=∑

x '∈ Ai

( x'−m'i)2= ∑x '∈ Ai

vT (x−mi ) (x−mi )T v

Adică

Si'=vT S i v

Rezultă că mărimea împrăştierii (dispersiei) obiectelor clasei Ai în direcţia v este dată de:

vTSi v = vTv=||v||2=

Analiza componentelor principale

39

Când datele nu se prezintă sub forma unor nori sferici în spaţiul Rd cunoaşterea direcţiilor de extindere a norilor constituie o informaţie utilă. Vom numi componentele principale ale unui nor direcţiile în care alungirea norului este cea mai marcată. Determinarea direcţiilor principale poate servi pentru scopuri de clasificare (detectarea substructurii norului), descrierea datelor cât şi pentru selectarea preliminară a caracteristicilor. Caracteristicile cele relevante, adică realizând cea mai bună discriminare a datelor, vor corespunde direcţiilor pe care proiecţiile punctelor au cea mai mare dispersie. Utilizând componentele principale putem obţine o descriere geometrică a norului, care poate fi utilă în aplicaţii.

Fie X={x1,..., xp} o mulţime de puncte formând un nor în spaţiul Rd. Ne propunem să detectăm direcţiile u1, u2, ... de dispersie maximă a norului. Aceasta înseamnă că norul X este format din puncte ce aderă strâns la dreptele L1, L2, ... care trec prin centrul său de greutate şi au direcţiile u1, u2, ...

Fie dj distanţa de la un punct xj la o dreaptă L. Problema noastră este de a găsi dreapta pentru care

J=∑j=1

p

d j2 este minimă

(1)Problema determinării dreptelor care aproximează cel mai bine, norul este considerabil simplificată dacă

vom arăta mai întâi că orice dreaptă ce minimizează cantitatea Y trece prin centrul de greutate al norului de puncte. Pentru început vom stabilii acest rezultat în cazul când X este o mulţime de puncte din plan, urmând apoi să demonstrăm că rezultatul este adevărat pentru orice dimensiune finită a spaţiului.

Fie V-W un nou sistem de coordonate, astfel încât axa W este paralelă cu dreapta L (vezi figura următoare)

Fig. 4.4-1 Reprezentarea într-un nou sistem de coordonate.

În sistemul de coordonate (V,W) ecuaţia dreptei L este v = v0 (2)

iar ale punctelor xj sunt (vj,wj). Distanţa de la xj la L este dj = d(xj, L)= |vj-v0| (3)

În acest caz minimizarea sumei pătratelor distanţelor revine la minimizarea funcţiei criteriu J: RR, dată de:

J(v0)=∑j=1

p

|v j−v0|2

(4)de unde rezultă că

J(v0)=∑j=1

p

vj2−2v0∑

j=1

p

v j +pv02

(5)a cărui minim este

40

v0=

1p∑j=1

p

v j(6)

S-a observă că punctul v0 care determină dreapta L este media aritmetică a proiecţiilor punctelor pe axa V, adică proiecţia centrului de greutate a norului pe această axă. Deoarece L este paralelă cu axa W, intersecţia lui L cu axa V coincide cu proiecţia v0 a centrului de greutate dacă şi numai dacă centrul de greutate se află pe L. Am arătat deci că dreapta optimă L trece prin centrul de greutate al norului de puncte.

În continuare vom arăta că acest rezultat este valabil şi pentru un nor dintr-un spaţiu de dimensiune finită Rd, d > 2.

În acest scop considerăm un hiperplan H perpendicular pe dreapta L. Fie s punctul de intersecţie pe dreapta L cu hiperplanul H. Notăm cu x'j proiecţia punctului xj al norului pe hiperplanul H.

Fig. 4.4-1 Proiecţia punctului xj pe hiperplanul H

Deoarece d(xj,L) = d(x'j,s) funcţia criteriu devine o funcţie de variabilă s şi deci avem:

J(s) =∑j=1

p

d2 (x 'j ,s )(7)

Deoarece suntem într-un spaţiu euclidian pătratul distanţei ested2(x j , s)= ||xj - s||2=[xj - s]T[xj - s] (8)

aşa încât

J(s)=∑j=1

p

[x 'j−s ]T [ x 'j−s ](9)

Funcţia J admite un minim local, dat de soluţia ecuaţieiJ(s) = 0

de unde se obţine

-2∑j=1

p

[x 'j−s ]=0

ceea ce implică că

∑j=1

p

x 'j−sp=0şi deci avem s =

1p∑j=1

p

x 'j

(10)Considerăm un sistem ortogonal de coordonate, având axa K paralelă cu dreapta L. Rezultă că dreapta

xjx’j (paralelă cu L şi cu axa K) este perpendiculară pe planul format de oricare două dintre axele diferite de K. Aşadar, în sitemul considerat xj şi x'j vor avea aceleaşi componente, cu excepţia celor corespunzătoare axei K.

41

Fig. 4.4-1 Sistemul ortogonal de coordonate.

Rezultă că

si=

1p∑j=1

p

x i'j= 1

p∑j= 1

p

x ij ,i≠k

(11)Am arătat aşadar că dreapta L trece prin punctul s, unde si ik este componenta i a centrului de greutate.

Axa k fiind paralelă cu L, rezultă că centrul de greutate se află pe L deoarece în caz contrar L nu ar putea trece prin componentele si, ik ale centrului de greutate.

Deoarece dreapta optimă trece întotdeauna prin centrul de greutate al norului de puncte, putem considera că datele sunt totdeauna normalizate astfel încât să aibă media 0.O astfel de normalizare revine la o translaţie

x'=x-m xX (12)unde m este valoarea medie a punctelor din X. Prin această translaţie centrul de greutate al norului este adus în originea sistemului de coordonate. Se va nota cu X' norul format din datele transformate.

Problema determinării direcţiilor principale devine:

Fiind dată o mulţime X' de puncte din Rd, având media 0, să se găsească dreapta care trece prin origine şi minimizează funcţia criteriu J.

Fie u vectorul care ne dă direcţia dreptei căutate şi fie ‖u‖=1 . Pătratul distanţei de la punctul xj la dreapta de direcţie u este:

d2(xj, u) = ‖x j‖- ( xj, u) (13)Pentru simplitate am notat datele normalizate tot cu xj, j = 1,…,p. Datele fiind normalizate, problema determinării liniei realizând cea mai bună aproximare a norului revine la determinarea direcţiei u care minimizează funcţia J:RdR dată de:

J(u)=∑j=1

p

d2 (x j , u )(14)

înlocuind cu (13) avem:

J(u)=∑j=1

p

‖x j‖−∑j=1

p

(x j ,u )

Primul termen fiind constant, minimizarea lui J implică maximizarea celui de-al doilea termen

42

I(u)=∑j=1

p

(x j , u )=∑j= 1

p

( [u ]T [ x j ] ) ( [x j ]T [u ] )(15)

Cum ‖u‖=1 , rezultă că trebuie să determinăm pentru forma pătratică

I(u)=[u ]T∑

j=1

p

[ x j ] [ x j ]T [u ](16)

maximul pe vectorii sferei unitate.Se poate observa că matricea

[S]=∑j=1

p

[x j ] [ x j ]T(17)

este pătratică de ordinul d, fiind matricea de împrăştiere a norului pentru cazul când media norului este 0 (datele au fost normalizate).Valorile extreme ale formei pătratice

I(u)=[u]T[S][u] (18)pe vectorii sferei unitate corespund vectorilor proprii ai matricei S. Direcţia pentru care I(u) are valoare maximă, este dată de vectorul propriu corespunzător celei mai mari valori proprii ale lui S.

Fie u1,u2,...,ud, vectorii proprii ai lui S, luaţi în ordine descrescătoare a valorilor proprii corespunzătoare. Aceşti vectorii proprii indică direcţiile de alungire ale norului şi din acest motiv se numesc direcţiile principale sau componentele principale ale norului. Cea mai accentuată extindere a norului este în direcţia lui u1 (vectorul propriu principal). Revenind la norul iniţial (datele nenormalizate), rezultă că norul X este format din puncte grupate în jurul liniilor L1, L2, ... ,Ld, care trec prin centrul de greutate al norului şi sunt paralele cu vectorii u1, u2, ..., ud (deoarece vectorii proprii corespunzători la valori proprii distincte sunt ortogonali, rezultă că direcţiile principale sunt ortogonale).

Algoritm pentru determinarea componentelor pricipale

P1. Se standardizează datele efectuând transformarea

x’j=xj-m unde m=

1p∑j=1

p

x j

P2. Se determină vectorii proprii ai matricei de împrăştiere

[S]=∑j=1

p

[x 'j ] [x 'j ]T

şi se notează cu u1,u2, ...,ud P3. Dreptele de cea mai bună aproximare a norului X sunt dreptele prin media m a lui X paralele cu direcţiile principale u1, u2,..., ud.

Important1. Fie [A] matricea schimbării de bază care realizează diagonalizarea matricei [S] de împrăştiere a

datelor normalizate. Avem

[A]-1[S][A]=

[ λ1 0λ2

⋱0 λd

]În baza formată de vectorii proprii ai lui S punctele norului X devin yj=[A]-1xj, j=1,…,p

43

Această transformare se numeşte transformarea la axele principale. Vom nota Y norul de puncte raportat la axele principale, deci Y={y1,...,yp}. Componenta i a lui yi se obţine proiectând xj pe axa ui adică

yij=(ui, xj)=[ui]T[xj]

2. Dispersia norului Y în direcţia axei ui este

1p

λi, unde i este valoarea proprie corespunzătoare

vectorului propriu ui a matricei S.

44

Capitol 5

Partiţii nuanţate fuzzy

ConcepteNoţiunea de mulţime nuanţată, introdusă la mijlocul anilor 60 de către L. A. Zadeh, reprezintă o

generalizare naturală a conceptului clasic de mulţime. Ideea de la care s-a plecat a fost că există multe clase de obiecte care nu au graniţe nete.

Astfel de clase pot fi descrise utilizând mulţimi nuanţate, care admit grade de aparenţă situate între 0 (neapartanenţă totală) şi unul (aparenţă totală).

DefiniţieO mulţime fuzzy (nuanţată) peste o mulţime X nevidă este o aplicaţie

A : X[0,1]Caracteristici

1. A(x) desemnează gradul de aparenţă a lui x la mulţimea nuanţată A. Se poate interpreta A(x) ca fiind gradul de plauzibilitate al afirmaţiei " x este un element din A".

2. Complementarea unei mulţimi nuanţate A(x) se defineşte prin A( x )=1−A (x )şi reprezintă cât de plauzibilă este afirmaţia " x nu este un element a lui A".

3. Dacă L(X) este familia tuturor mulţimilor nuanţate peste X atunci:- (AUB)(x)=min(A(x)+B(x),1)- (AUB)(x)=max(A(x)+B(x)-1,0)

4. Mulţimile fuzzy A1, ..., An ,n2 sunt disjuncte dacă

Ai¿¿ intersectA j+ 1=∅¿ j =1,…,n-1

Aceste mulţimi reprezintă o partiţie finită nuanţată a lui C din L(X) dacă C=Ai¿ . Fiecare Ai se va numi atom

al partiţiei. 5. Dacă A este o mulţime fuzzy peste X şi t[0,1] atunci At={xA / A(x)t}se numeşte mulţime de nivel t a lui A.

6. Dacă y este din X şi a este un număr cu a[0,1] atunci mulţimea fuzzy f ya

definită prin

f y

a={a daca x=y0 daca x≠ y }

se numeşte punct fuzzy(nuanţat). Un punct fuzzy aparţine unei mulţimi fuzzy A dacă şi numai dacă

f ya (x )≤A ( x ) pentru orice x din X.

7. Dacă M şi N sunt două mulţimi clasice din spaţiul metric, distanţa dintre ele este D(M, N) = inf(x, y) xM , yN

Dacă A şi B sunt două mulţimi fuzzy, A, BL(x) distanţa dintre acestea este dată de:

D(A, B)=∫0

1

D( A t ,B t )dt

Distanţa dintre un punct fuzzy f ya

şi mulţimea A este

45

d ( f y

a ,A )=∫0

a

D( y,A t )dt

Distanţa dintre două puncte fuzzy f xa

şif yb

este

d ( f x

a ,f yb )= ∫

0

min(a,b )

D( {x } , { y })

sau

d ( f xa ,f y

b )=min( a,b)d ( x,y ) Diametrul unei mulţimi fuzzy se defineşte ca fiind numărul

d (A )=sup {d ( f xa ,f y

b )|f xa ,f y

b∈ A }

Clasificare cu partiţii fuzzy. Principii

Procesul de clasificare poate fi considerat ca fiind o operaţie prin care o mulţime X de date este structurată în categorii semnificative. Admitem că o categorie corespunde unei grupări, nor sau cluster, de puncte (obiecte), din X. În acest context submulţimile lui X vor putea fi echivalate cu clase de obiecte. Problema determinării categoriilor naturale şi semnificative de obiecte din X revine aşadar la detectarea structurii de clusteri ai mulţimii X. După cum s-a mai amintit, clasele de obicte reale se pot suprapune parţial şi/sau se pot interpătrunde. Dacă un obiect cu caracteristici hibride este asigurat unei clase, comitem o eroare, care se traduce printr-o pierdere de informaţie relativă la obiectul respectiv.

Rezultă că existenţa punctelor hibride sau izolate, a claselor care nu sunt separabile, constitue surse de ambiguitate şi erori în procesul de clasificare. O metodă prin care putem face faţă acestei ambiguităţi este să considerăm clasele de obiecte ca fiind descrise de mulţimi fuzzy. În această situaţie un obiect va aparţine simultan tuturor claselor de obiecte .

Dacă un obiect face parte din nucleul unei clase, atunci gradul lui de apartenenţă la acea clasă va fi aproape de 1 şi apartenenţa la celelalte clase neglijabilă. Această abordare este în concordanţă cu faptul că multe clase de obiecte reale nu au graniţe precise. Clasificarea obţinută se va potrivi mai bine pe adevărata structură a datelor.

În multe probleme de clasificare ne interesează nu doar o clasificare a datelor ci şi obţinerea unor prototipuri ale claselor. Prototipurile sunt elemente semnificative ale claselor sau valori tipice ale acestora. Prototipurile pot consta din puncte (valoarea medie, centrul de greutate a unei clase), puncte şi drepte, combinaţii de drepte, varietăţi liniare etc. În cazul în care nu avem informaţii privind forma geometrică a claselor putem utiliza ca prtotip al unei clase o submulţime a obiectelor de clasificat.

Functia criteriu. Algoritmul n-medii fuzzy

In continuare vom admite ca structura de clusteri a unei multimi X de obiecte este descrisa de o partitie nuantata. Un atom al partitiei se va identifica cu o clasa de obiecte.

Fie X={x1 , x2 ,. .. , x p }, x i∈ℜd o multime de obiecte, si

P= {A1 , A2 , . .. , An } partitia fuzzy care

ne da numarul de clase in care este structurat X . Fiecare multime fuzzy (atom) Ai descrie o clasa de puncte. Daca admitem pentru acesti clusteri o forma de hipersfere, putem considera prototipul clasei ca fiind un punct, si

anume centrul clusterului respectiv. Notam cu Li , Li∈ℜd

prototipul clasei Ai .

Pentru a determina structura de clusteri a lui X vom construi o functie criteriu folosind o masura de

disimilaritate peste X . Vom alege aceasta masura ca fiind patratul unei matrici d. Atunci disimilaritatea dintre

46

un obiect x si prototipul clase Ai se va exprima in functie de o metrica locala d i indusa de distanta d i si Ai . In constructia functiei criteriu va interveni deci o familie de n distante locale.

Fie X⊂ℜd si d o metrica pe ℜ

d. Metrica locala indusa de d si de multimea Ai se defineste:

d i( x,y )=min( Ai (x ), Ai ( y ))d ( x , y ) (5.1)

Disimilaritatea dintre un punct xj

si prototipul Li

al clasei Ai se defineste ca fiind:

D( x j , Li )=(d i( xj , Li ))2 (5.2)

Si se interpreteaza drept o masura a inadecvarii reprezentarii punctului xy prin prototipul Li

.

Deoarece Li

este unul din punctele lui X (chiar daca este artificial construit) este plauzibil sa

presupunem ca dintre toate punctele multimi X ,Li

are mai mare grad de apartenenta la clasa fuzzy Ai pe care o reprezinta. Deci:

Ai (x )¿ (5.3)Rezulta ca:

d i( xj , Li)=min (A i( x

j ) , A i(Li ))d ( x j , Li)=A i( x

j)d ( x j , Li )

Asadar disimilaritatea dintre xj si L

i este data de:

Di( xj , L i)=di

2 ( x j , Li)=( Ai (xj ))2d2 (x j , Li) (5.4)

Masura I (A i , Li) a inadecvarii reprezentarii clasei Ai prin prototipul Li

se defineste prin:

I (A i , Li)=∑ Di( xj ,Li )

(5.5)sau inlocuind (4) rezulta:

I (A i , Li)=∑ ( Ai (xj ))2 d2 (x j ,Li )

(5.6)Important

-O partitie fuzzy {A1 , A2 , .. . , An} se poate reprezenta printr-un matrice A cu n linii si p coloane, unde:

Aij=Ai( xj )∈[ 0,1] i=1,n , j=1, p

Vom nota cu Mnp

multimea acestor matrici cu elemente in [0,1] si suma elementelor fiecarei coloane egale cu 1.

-Inadecvarea reprezentarii partitiei fuzzy P= {A1 , A2 , . .. , An } prin L= {L1 , L2 , . .. , Ln} se poate

exprima cu ajutorul unei functii:

y: Mnp

x ℜdn→ℜ de forma:

y (P,L)=∑j=1

I ( A i , Li )=∑i=1

n

∑p

(A i( xj))2 d2( x j , Li )

(5.7).

Problema de clasificare revine la determinarea partitiei fuzzy P si a reprezentarii L pentru care inadecvarea J(P,k) este minima, adica la rezolvarea urmatoarei probleme de minim:

47

J (P , L )→minP∈M np , L∈ℜdn

{} (5.8)

Intuitiv, a minimiza J inseamna a cere grade de apartenenta mici la Ai pentru acele puncte din X pentru care disimilaritatea dintre punctul respectiv si prototipul clasei este mare. Grade de apartenenta mari sunt reclamate de punctele pentru care disimilaritatea este mica.Deoarece nu exista o metoda pentru rezolvarea exacta a lui (5.8) se recurge la o metoda aproximativa pentru determinarea unei solutii locale. Problema se rezolva folosind o metoda iterativa in care J se minimizeaza succesiv in raport cu P, respectiv L. Pornind de la o partitie P1 arbitrara se construieste o reprezentare L1 pentru

care functia J(P1, ) are valoare minima. Se cauta apoi o noua partitie P2 care sa minimizeze functia J(, L1).

Se obtine un sir de partitii fuzzy si un sir de reprezentari ale acestor partitii. Procesul se opreste cand norma diferentei dintre doua partitii succesive este suficient de mica.Teorema

Minimul functiei J ( , L ) : M np→ℜeste realizata de partitia fuzzy P=(A1 , A2 , . .. , An )cu

Ai (xj )= 1

∑i=1

n d2 (x j , Li )d2 (x j , Lk )

j=1,. .. ,p; i=1, .. . ,n

(5.9)

Minimul functiei

P ,⋅¿ ¿:ℜnd→ℜ

J este realizata de L=(L

1 ,. .. , Ln) , Li∈ℜdcu:

Li=∑j=1

n

( Ai(x j ))2 x j

∑j= 1

n

(A i(x j ))2

i=1,. . .,n

(5.10)in care (A1,…,An) este o partitie nuantata a lui X daca si numai daca

∑j=1

n

A i(x j )=1 j=1, .. . ,p

unde A i(x j )∈ [0,1 ] , i=1,n ; j=1, p (5.11)

Algoritmul n-medii FUZZY (FUZZY/ISODATA)

P1. Se alege o partitie arbitrara P1={A1 ,. .. , An }a lui X.

P2. Se calculeaza prototipurile acestei partitii cu formula

Li=∑j=1

n

( Ai(x j )) x j

∑j=1

n

( Ai(x j ))2

i=1, . .. ,n

48

P3. Se determina o noua partitie P2 ai carei atomi sunt dati de formula

Ai (xj )= 1

∑k=1

n d2 (x j , Li )d2 (x j , LK )

j=1, .. . ,p; i=1,. . .,n

P4. Daca ‖P2−P1‖<ε atunci STOP. In caz contrar se pune P1=P2

si se merge la pasul P2.

Comentarii

O valoare adecvata pentru ε este 10-5.

Cazul d (x j , Li )=0 este putin probabil sa apara. In aceasta situatie vom pune:

y ¿¿={1−pentru−k=i0−pentru−k≠i}¿

Interpretarea unei partiţii fuzzy

Partiţia fuzzy rezultată în urma procesului de informaţie privind apartenenţa punctelor la clasele stabilite. Această informaţie poate fi în întregime utilă, dar uneori greu de interpretat. Cel puţin pentru o analiză preliminară a rezultatelor este necesar să convertim partiţiile clasice. O partiţie clasică ce aproximează partiţia nuanţată, chiar dacă este mai săracă în determinări poate oferi o imagine suficient

de fidelă asupra structurii datelor. Practic, această problemă se poate rezolva ataşînd fiecare punct jx

clasei la care jx are gradul de apartenenţă maxim . Cu alte cuvinte, dacă nAAP 1 este o partiţie

fuzzy, construim partiţia clasică nAAP 1 punând jkj

iij xAxAAx max nk ,1

(1)O altă posibilitate, mai puţin intuitivă, de a obţine o partiţie clasică este de a se căuta descompunerea partiţiei fuzzy în partiţii clasice. Termenul descompunerii avînd coeficientul maxim este considerat ca fiind partiţia clasică ce reprezintă cel mai bine partiţia fuzzy dată. Am putea vorbi de descompunerea

convexă a unei partiţii identificînd o partiţie nAA ,,1 cu o matrice [A] unde jiij xAA

.Considerăm notaţiile

n

i

p

jijij

npn niApjAAP

1 1

,1,0;,,1,1,1,0 ⋮ (2)

n

i

p

jijij

npf niApjAAPn

1 1

,1,0;,1,11,0 ⋮ (3)

unde nfn PP ,definesc mulţimea matricilor clasice nedegenerate şi --------- Se pune problema unei

caracterizări complete a mulţimii nP . Această caracterizare ne-ar furniza o condiţie necesară şi suficientă pe care trebuie să o îndeplinească o partiţie fuzzy pentru a se putea scrie sub forma unei combinaţii convexe de partiţii clasice nedegenerate.Teoremă

Dacă fn

pjniij PAA

,1,1

atunci urmă toarele condiţii sunt echivalente

(1) nconvPA (2) niA

p

jij ,,1,1

1

49

Demonstraţie.Se va demonstra implicaţia (1)(2).

Dacă nconvPA ,atunci există

k

sski aaa

1

,1,0,,şi n

k PAA ,,1 astfel încât

k

s

ss AaA

1 .

Deoarece matricile sA corespund la partiţii clasice nedegenerate rezultă că:

01

p

j

sijA

şi deci:

p

j

sij niA

1

,1,1

Putem atunci scrie

p

j

k

s

k

s

p

j

k

ss

sijs

sijs

p

jij iaAaAaA

1 1 1 1 11

,1

Concluzie

Partiţia nAAP ,,1 admite aşadar o descompunere convexă nedegenerată dacă şi numai dacă

11

p

j

ji xA

pentru oricare ni ,,1 .Exemplu Considerăm partiţia fuzzy reprezentată prin matricea

4321 ,,, xxxxX Suma elementelor fiecărei linii este mai mare decât 1 deci, conform teoremei enunţate mai sus matricea A admite descompunerea convexă:

A=0 .3 [1 0 0 00 0 1 00 1 0 1 ]+0 .2 [0 1 0 0

0 0 1 11 0 0 0 ]+0 .2[0 1 1 0

0 0 0 11 0 0 0 ]+

+0 . 1[1 0 0 10 1 0 01 0 1 0 ]+0 .1 [1 0 0 1

0 1 0 00 0 1 0 ]+0,1[1 0 0 0

0 1 0 00 0 1 1 ]

Rezultă că A este aproximată prin partiţia clasică având coeficientul 0.3.Această partiţie este:

A1={x1 } , A2={x3 } , A3= {x2 , x4 }

http://blog.vidikon.com/

recunoastere_forme_curs+srf

Documents