recunoasterea formelor

Upload: ioana

Post on 17-Feb-2018

251 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/23/2019 Recunoasterea formelor

    1/30

    75

    Tema 8. Metode i tehnici de recunoatere a formelor

    8.1 Importana i necesitatea recunoaterii formelor

    n cele mai multe dintre ac tivitile umane apare necesitatea de a ncadra, de a diferenia , de a grupa sau de a clasificaanumite entiti sau obiecte sub forma unor catego rii sau clase, a cror delimitare trebuie sfie foarte clari foarte natural.Semnificaia concreta acestor categorii trebuie saibo echivalencorespunztoare n realitatea studiat, sfie consistenti relevant pentru procesul de cunoatere, s aibun anumit grad de generalitate i s ofere o interpretabilitate simplinatural.

    Diferenierea obiectelor pe ca tegorii sau clase se face n funcie de proprietile fundamentale ale obiectelor, iar criteriilede asociere a obiectelor sub formde clase au la bazgradul de asemnare a proprietilor respectivelor obiecte, msurat nfuncie de magnitudinea valorilor acestor proprieti.

    Necesitatea d e a gru pa sau c las ific a o biecte apare foarte f recvent i n domenii foarte variate ale cunoaterii i activitiiumane, cum ar fi: analiza financiar, marketingul, asigurrile, informatica, biologia, medicina, arheologia, meteorologia,criminalistica, psihologia, tiina politicsau dom eniul militar.

    n domeniul informaticii, cerinele legate de creterea performanelor n utilizarea tehnicii de calcul au determinatnecesitatea dezvoltrii i implementrii unor dispozitive hardware i a unor instrumente software pentru recunoaterea vocii

    umane i a scrisului de mn. De asemenea, n domeniul economic, manifestarea comportamentului ra ional al ageniloreconomici face necesarexistena posibilitii de a identifica, de exemplu, activitile rentabile, clienii solvabili sau pieelepo teniale. Cele mai potrivite i cele mai eficiente instrumente utilizabile pentru solu ionarea problemelor de acest fel s-audovedit a fi metodele i tehnicile de clasificare sau de recuno atere a formelor.

    n general, oamenii dispun de o serie de simuri naturale, cum ar fi auzul, vzul, mirosul, pipitul etc., simuri care le permitacestora sperceapanumite proprieti ale obiectelor pe care le ana lizeazi, pe aceastcale, spoatstructura, clasifica sauierarhiza aceste obiecte sub forma unor submulimi specifice i distincte.

    ntr-o activitate de clasificare, oamenii se p ot folosi, n afara simurilor naturale pe care le posed, i de cunotin ele pecare le au cu privire la obiectele pe care trebuie s le clasifice sau cu privire la proprietile acestor obiecte. n plus fadeacestea, oamenii mai pot apela i la o serie de modele, instrumente i tehnici speciale, de naturstatistico-matematic, cuajutorul crora spoatclasifica mai uor i mai corect obiectele analizate.

    Pe baza simurilor naturale pe care le au ca fiine umane i a cunotin elor de care dispun, oamenii pot diferenia, clasificasau grupa cu relativuurincele mai variate categorii de obiecte. Existnsnumeroase situaii n care simurile naturale ale

    indivizilor i informaiile de care acetia dispun nu mai sunt suficiente pentru a putea d iscrimina corect ntre anumite obiectesau pentru a face clasificri corecte ale acestor obiecte. Aceste situaii sunt ntlnite n cazul obiectelor de tip multidimensional,adicn cazul obiectelor cu ma i multe caracteristici, mai ales dacaceste caracteristici sunt exprimabile sub o formnumeric,iar obiectele care trebuie clasificate sunt n numr foarte mare.

    n cazul n care obiectele sunt de tip mu ltidimensional, cu caracteristici numeroase i preponderent c antitative, difereniereaacestora pe categorii specifice nu se mai po ate face numai pe cale intuitiv, exclusiv pe baza simurilor naturale, fiind necesarsse apeleze la o serie de metode i tehnici specifice, de mare complexitate i cu un solid fundament statistico-matematic.

    8.2 Definirea recunoaterii formelor

    Activitile tiinifice care au ca scop diferen ierea i structurarea unor mulimi de obiecte pe catego rii sau clase specifice,n funcie de proprietile fundamentale ale obiectelor, sunt cunoscute sub d enumiri variate, cum ar fi: clasificare , clusterizare ,

    grupare sau discriminare.Aceste denumiri sunt folosite n literatura de specialitate a domeniului cu sens terminologic diferit, n funcie de tipul coliide care aparine respectiva literatur. De exemplu, n literatura anglo-saxon termenul de clusterizare este folosit pentru adescrie activitile de clasificare necontrolat, iar termenul de clasificare este folosit pentru a defini activitile specificesistemelor de recunoatere controlat. n acelai timp, n literatura franceztermenul de clasificare este folosit pentru a facereferire la clasificarea de tip necontrolat, iar termenul de discriminare este folosit pentru descrierea activitilor de tip controlat.

    n cadrul acestei teme, vom utiliza termenul de clasificare n douaccepiuni. Prima accepiune va fi folositcu sensgeneric, acoperind att coninutul conceptului de clasificare controlat, ct i coninutul conceptului de clasificare necontrolat.Cea de-a doua accepiune va fi folositcu sens p articular, cu referire la clasificarea de tip necontrolat. Pentru clasificarea detip necontrolat vom folosi nsi termenii de clusterizare i de grupare . De asemenea, pentru referirea la clasificarea de tipcontrolat vom utiliza, aproape exclusiv, termenul de discriminare.

    n general, putem spune cdiscriminareai clusterizarea reprezintactivitile de aranjaresau de asociere a unor obiecte,indivizi sau observaii, sub forma unor grupe, c ategorii sau clase, n funcie de gradul de asemnaresau de deosebiredintre

    acestea.Totalitatea tehnicilor de clasificare, adicde discriminare i de clusterizare, este cunoscuti sub numele generic de teoria

    recunoaterii formelor.

  • 7/23/2019 Recunoasterea formelor

    2/30

    76

    Metodele i tehnicile de clasificare, respectiv teoria recunoaterii formelor, reprezintuna dintre cele mai moderne iinteresante probleme ale gndirii tiinifice contemporane, constituind un domeniu tiinific cruia i se acordo importandince n ce mai mare, iar aplicaiile acestora sunt din ce n ce mai numeroase i mai variate.

    Domeniu bine co nturat al inteligenei artificiale, cu tendindin ce n ce mai accentuatde autonomizare, recunoatereaformelor s-a dezvoltat n strnsinterdependencu p rogresele nregistrate n dom eniul tehnicii de calcul i informaticii, ultimeledecenii fiind caracterizate printr-o dezvoltare exploziva tehnicilor de ace st fel.

    Scopul general al teoriei recunoaterii formelor l reprezintidentificarea la nivelul unor mulimi complexe i eterogenede forme sau obiecte a unorstructuri,grupri, clasesau clustereexistente la nivel latent n cadrul acestor mulimi i care secontureazn mod natural, n funcie de asemnrile i deosebirile existente ntre elementele acestor mulimi. Dezvoltarea tehnicilor de recunoatere a formelor poa te fi privitatt ca proces independ ent, impus de necesitatea adnciriicunoaterii din diverse domenii de activitate i stimulat de evoluia tehnicii de calcul, ct i ca un rspuns la necesitile desimplificare i perfecionare a schimbului informaional om-main.

    Avnd aplicaii n cele mai diverse i surprinztoare domenii de activitate, teoria recunoaterii formelor a cunoscut nultimii ani progrese cu adevrat uimitoare, ajungndu-se n prezent la un nivel de performan tehnico-tiinificcare permitechiar construirea unor maini specializate n recunoaterea anumitor tipuri de forme.

    Aflat la intersecia unor domenii fundamentale cum sunt tiina calculatoarelor, teoria informaiei, teoria deciziei,geometria, teoria probabilitilor i statistica matematic, recunoaterea formelor cunoate n prezent aplicaii a cror paletse ntinde de la cercetarea antropologici pnla proiectarea harware i software.

    n domeniul economico-social teoria recunoaterii formelor i gsete o largutilizare mai ales n procesul de analizadatelori n activitatea depredicie. Problema clasificrii unei mulimi de obiecte este o problemstandard, frecvent ntlnit

    n investigarea socio-economic, iar abordarea ei presupune utilizarea metodelor i tehnicilor specifice teoriei recunoateriiformelor.

    Numeroase p robleme d in domeniu l analizei datelor , n cepnd cu cele legate de identificarea caracteristicilor definitoriipentru cele mai diverse categ orii de fenomene i terminnd cu cele legate de delimitarea funcional, ierarhizarea struc turalsausintetizarea informaionala unor mulimi de fenomene i procese economico-sociale, i gsesc rezolvarea prin intermediulaplicrii unor concepte i instrumente a cror paternitate este, indiscutabil, legatde teoria recunoaterii formelor.

    Metodele i tehnicile aparinnd teoriei recunoaterii formelor sunt de nenlocuit n analizele care opereazcu cantiti maride informaie, unde necesitatea de a esenializai sinte tiza interdependenele implic un proces continuu de clasificare istructurare a informaiilor. Practic, tehnicile de recunoatere a formelor reprezint instrumente cu ajutorul crora poate fistpniti controlatmarea complexitate informaionalce caracterizeazfenomenele i procesele economico-sociale.

    O utilizare i mai larga teoriei recunoaterii formelor este ntlnitn domeniul prediciilor. Activitatea de realizare apred iciilor poate fi privitca un proces ale crui caracteristici sunt foarte apropiate, mergnd chiar pnla identificare, decaracteristicile specifice ale unui pro ces de recunoatere a formelor.

    Evaluarea strilor pe care le poate avea n viitor un fenomen aparinnd unei realiti date reprezint, de fapt, un procesde recunoatere a acelor forme de evoluie a fenomenului care au cea mai mare probabilitate de realizare. Mai mult, att nactivitatea de predicie, ct i n procesul de clasificare sau de recunoatere a formelor, modalitile de abordare au o naturpreponderent p robabi list ic. Pe de altparte, problema recunoaterii formelor este, ea nsi, o problemde predicie n care,pornind de la anumite caracte ristic i ale ob iecte lor analiza te, ob iecte numite iforme , se fac predicii cu privire la apartenen aacestor obiecte la anumite clase. De altfel, stabilirea apartenenei formelor la anumite clase reprezint scopul principal alutilizrii tehnicilor de recunoatere a formelor.

    Semnificativ pentru legtura dintre activitatea de predicie i teoria recunoaterii formelor este faptul c, n prezent, celemai moderne metode i tehnici din domeniul predic iei sunt cele bazate pe o nouclasde modele, specifice conturrii unei noimodaliti de abordare n dom eniul teoriei recunoaterii formelor, numite reele neuronale. Modalitile de abordare tiinificbazate pe reele neuronale sunt mult mai concordante cu pronunata complexitate i imprevizibilitate ce caracterizeazcomportamentul fenomenelor i proceselor economico-sociale i ofero serie de avantaje importante, n compara ie cu altemetode i tehnici utilizate n acelai scop.

    Avantajele pe care le are modelarea de tip reea neuronalsunt comparabile cu avantajele pe care le ofermodelarea detip fuzzy n comparaie cu modelarea clasic. Spre deosebire de modelele de tip tradiional, care opereaz n condiii desimplificare sever, justificabilsau nu, a realitii, modelele de analizi predicie bazate pe concep tul de reea neuronalauavantajul unei mai m ari flexibiliti i al unei mai mari co mpatibiliti cu spec ificitatea realitii modelate, simularea realitiiprin interm ediul lor avnd un mai mare grad de naturalee.

    Pe de alt parte, modelele de tip re ea neuronal au avantajul unei continue adaptabiliti n raport cu modificrileintervenite n evoluia fenomenelor modelate i unei continue autoperfecionri. De asemenea, modelarea bazatpe reeleneuronale nu presupune dezvoltarea i utilizarea unui aparat matematic foarte sofisticat, ceea ce face ca implementarea iutilizarea tehnicilor de acest fel sfie accesibile unor catego rii foarte largi de analiti i cercettori.

    Re elele neuronale reprezint modele de mare generalitate i flexibilitate, a cror structur funcional este continuuadaptabili configurabilspecificului evoluiei unui anumit fenomen i care ncearcssimuleze activitile de evaluare idecizie proprii creierului uman.

    Tehnicile de recunoatere a formelor pot fi utilizate n domeniul economico-social pentru rezolvarea unor probleme cumar fi: analiza datelor cu grad ridicat de eterogenitate, fundamentarea criteriilor de alegere a proiectelor de dezvoltare, clasificareadeciziilor n funcie de impactul acestora asupra diverselor compartimente ale vie ii economico-sociale, detectarea unor perioade

  • 7/23/2019 Recunoasterea formelor

    3/30

    77

    cu caracter specific din evoluia unor sisteme econom ice, stabilirea politicilor de creditare n domeniul financiar-bancar,evaluarea eficienei activitilor de promovare a unor produse, determinarea perioadelor cele mai potrivite pentru vnzareaanumitor sortimente de mrfuri, identificarea celor mai profitabile domenii de afaceri, clasificarea i ierahizarea unor entitieconomico-sociale etc.

    Definiie : Teoria recunoaterii formelorpoate fi definitca reprezentnd totalitatea normelor, principiilor, metodelori instrumentelor de analiz i decizie utilizate n scopul de a identifica apartenena unor forme sau obiecte (uniti,fenomene, evenimente, aciuni, procese etc.) la anumite clase cu individualitate bine determinat.

    Se poate spune crecunoaterea formelor nsumeaztoate ncercrile de construire a acelor modele care simuleazmoduln care omul cuantific, analizeaz, interpreteazi anticipeazcomportamentul evolutiv al fenomenelor i proceselor.Din punct de vedere al teoriei sistemelor, recunoaterea formelor poate fi privitca un sistem general n care intrrile

    reprezintmulimea caracteristicilor obiectelor ce urmeaza fi clasificate, ieirilereprezintmulimea claselor posibile din carepo t face parte ob iecte le analiza te, iar funcia de transfer exprim mecanismul decizional prin care un anumit obiect esteidentificat ca fcnd parte dintr-o anumitclas.

    8.3 Concepte fundamentale ale teoriei recunoaterii formelor

    n teoria recunoaterii formelor se opereazcu o mulime de concepte care sunt specifice acestui domeniu i se utilizeazo terminologie proprie. Dintre numeroa sele conceptele utilizate n teoria recunoaterii formelor, trei pot fi considerate ca fiindfundamentale i definitorii pentru esena i scopurile teoriei recunoaterii formelor: forma, clasa i clasificatorul.

    Formareprezintexpresia numerica obiectului studiat n vederea clasificrii lui ntr-o anumitclasi este rezultatul

    cuantificrii principalelor caracteristici posedate de obiectul respectiv.Dei utilizarea alternativ i cu acelai sens a termenilor obiect i form nu ridic nici un fel de problem legat de

    nelegere, cei doi termeni se deosebesc, totui, ntre ei. n timp ce o biectul este o entitate cu existenreal, forma este doaro reprezentare matematic a obiectului, definit sub forma unui vector n-dimensional, ale crui componente definesccaracteristicile obiectului real.

    Cu toate cexistaceastdeosebire de esenntre obiect i form, n cele mai multe din situaii vom utiliza cele douconcepte n mo d intervertibil, ca avnd sens echivalent, nefcnd deosebire ntre obiect i formdect n situaiile n care aparenecesitatea unei stricte nuanri a celor douconcepte.

    Definiie :Forma sau obiectul este o entitate informaionalindividual, caracterizatprin intermediul unui vector n-dimensional, ale crui componen te definesc valorile caracteristicilor acesteia, i care face obiectul pro cesului de clasificaresau de predicie.

    Formele implicate ntr-un proces de clasificare pot fi: cumprtori, clieni, salariai, votani, produse, firme, zone

    geografice, ri, activiti economice, titluri de valoare etc.Una dintre ipotezele fundamentale pe care se bazeazteoria recunoaterii formelor este aceea cobiectele analizate sunt

    caracterizate de un anumit grad de eterogenitate. Aceasta nseamncse asum, n mod implicit, existena posibilitii definiriiunor clase distincte pe mulimea obiectelor. Pe de altparte, se mai presupune canumite obiecte aparinnd mulimii analizateau ceva comun , sunt caracterizate printr-un anumit grad de o mogenitate.

    n virtutea acestei ultime presupuneri, variabilele explicative ce reprezintcaracteristicile obiectelor au o "substan"comunpentru anumite submulimi ale obiectelor. Cele doucerine impuse mulimii obiectelor analizate sunt cunoscute subnumele de similaritate i disimilaritate .

    Clasa,gru pa sau clusterulreprezinto submulime distinctde obiecte care verificurmtoarele douproprieti: obiectelecare alctuiesc o classunt omogene din punct de vedere al caracteristicilorlor definitorii; douobiecte ntre care existdiferene semnificativedin punct de vedere al caracteristicilor definitorii fac parte din clase diferite.

    Definiie : Clasa,grupa sau clusterul reprezinto entitate informaionaldistincti cusem nif ica ie concret, formatdin totalitatea obiectelor ale cror caracteristici sunt identice sau diferfoarte puin i care sunt sem nificativ diferite decaracteristicile obiectelor din alte clase sau grupe.

    De exemplu, n cazul n care scopul utilizrii tehnicilor de clasificare vizeazdiferenierea firmelor din punct de vedereal riscului care afecteaz performanele financiare ale acestora, clasele sau grupele pot fi urmtoarele: firme sntoasefinanciar, firme cu probleme financiare tem porare, firme cu risc rid ica t de fal iment. Dactehnicile de clasificare suntutilizate pentru a fundamenta deciziile de acordare a creditelor, atunci pot exista dou clase: clieni solvabili i clieniinsolvabili.

    n figurile urmtoare sunt ilustrate dousituaii, referitoare la doupopulaii distincte: prima populaie este caracterizatpr int r-un grad relativ ridicat de omogenitate, astfel nct ea nu se structureazn mod natural sub forma unor clase i deci nuprezintinteres din punct de vedere al tehnicilor de clasificare. Cea de-a doua popula ie are o natureterogen, fiind structurat,cu eviden, sub forma a douclase distincte.

  • 7/23/2019 Recunoasterea formelor

    4/30

    78

    Figura 8.1: Mulime relativ omogen Figura 8.2: Mulime structuratpe 2 clase

    Numrul de clase care alctuiesc mulimea de ieire a unui sistem de recunoatere a formelor variazn funcie de specificuldomeniului pentru care se folosete acest sistem i de scopurile urmrite. Clasificatorul este un model statistico-matematic care, pe baza informa iilor referitoare la caracteristicile unui anumitobiect, determindecizia de c lasificare a ob iectului ntr-o anumitclas. Clasificatorul poate fi privit ca fiind setul de principii,reguli sau criterii, n func ie de care obiectele analizate sunt atribuite unei clase sau alteia.

    Definiie : Clasificatorul sau criteriul de clasificarereprezintregula sau mulimea de reguli pe baza crora obiectelecare aparin mulimii analizate sunt afectate sau atribuite unor clase sau grupe b ine definite.

    n funcie de natura regulilor utilizate n procesul de clasificare, existmai multe ca tegorii de clasificatori: clasificatori ie-rarhici, clasificatori de cost minim, clasificatori de distanminimal, clasificatori de tip Bayes-ian , clasificatori euristicietc.

    8.4 Formularea problemei generale de clasificare

    Sub cea mai generalforma sa, problema de clasificare poate fi formulatn termenii teoriei deciziei, iar metodele declasificare pot fi definite sub forma unor instrumente decizionalespecifice.

    Vom descrie n continuare mod ul n care problema de clasificare poate fi definitca o problemdecizional. n acest scop,vom presupune existena unei populaii de forme sau de obiecte, notatcu i definitsub forma:

    ,

    unde M reprezintnu mrul de uniti ale populaiei analizate.Fiecare obiect care alctuiete populaia este definit prin intermediul unui numr de N caracteristici, pe care le vom nota

    cu i care se numesc variabile explicative. n acest fel, un obiect din populaia poate fi reprezentat sub forma

    unui vector N-dimensional de forma:

    .

    Variabilele explicative, care definesc caracteristicile obiectelor analizate, sunt mrimile n funcie de care se stabileteapartenena unui obiect din populaia la una dintre clasele populaiei , adicmrimile n funcie de care se poate face

    mprirea acestei populaii pe grupe sau clase. Variabilele explicative pot fi variabile de tip calitativ sau cantitativ . Ele pot fimsurate pe una dintre cele patru scale cunoscute, respectiv scala nominal, scala ordinal, scala interval sau scala raport.

    n cazul n care variabilele explicative sunt de tip cantitativ, mulimea lor poate fi privitca o submulime a spaiului real

    N-dimensional, ceea ce nseamnc .

    Dintre elementele care reprezintvariabilele explicative unele pot saiboputere de discriminare mai re dus, iar altelepo t saibo putere de d iscrim inare ma i mare. Din acest punct d e vedere, n construirea algoritmilor de clasificare trebuie s

    fie selectate acele variabile care au puterea de discriminare cea mai mare. De exemplu, n clasificarea firmelor n func ie deriscul posibil al evoluiei viitoare a acestora, este plauzibil sconsiderm co variabilcum ar fi ponderea forei de muncfem inine are o influenmai redusn diferenierea firmelor pe clase de risc, n timp ce o variabilcum ar fi rata profituluiare o putere mult mai mare de discriminare a firmelor pe categorii de risc, n funcie de gradul de risc care poate afecta evoluiaacestora.

    Variabilele cu puterea de discriminare cea mai mare, definesc acele caracteristici ale obiectelor care permit o diferenieremai puternica claselor n care pot fi grupate respectivele obiecte i se numesc variabile descriptor. Pentru un anumit obiect,vectorul de valori ale variabilelor descriptor reprezintchiarforma asociatrespectivului obiect.

    Vom presupune n continuare cvariabilele cu putere mare de discriminare reprezinto submulime, pe care o vom notacu , a mulimii , respectiv:

    .

    Lund n considerare numa i variabilele descriptor, orice obiect din populaia poate sfie reprezentat prin intermediul

    unui vector n-dimensional de forma:,

    vector cunoscut sub numele generic de form.

  • 7/23/2019 Recunoasterea formelor

    5/30

    79

    Vom nota n continuare cu mulimea formelor asociate tuturor obiectelor din populaia , mulime cunoscut sub

    numele despaiul formelor. Daccele n caracteristici ale obiectelor din popu laia au valori numerice de tip continuu, atunci

    mulimea este o submulime a spaiului real n-dimensional, respectiv .

    Din punct de vedere concret, populaia de obiecte poate fi alctuitdin firme, bnci, clieni, cumprtori, ri, zone

    economice etc. n cazul n care obiectele din populaia sunt firme, variabilele descriptor pot fi reprezentate de o serie de

    indicatori economico-financiari, care caracterizeazactivitatea acestor firme, cum ar fi: cifra de afaceri, mrimea pro fitului, ratapofitului, gradul de nd ato rare, volumul invest iiilor etc.

    n raport cu o manifestare sau cu o ac iune viitoare, elementele populaiei se pot gsi ntr-una din mai multe stripo teniale, numite stri ale naturii. Strile naturii reprezint conjuncturi fizice, economice sau sociale, n raport cu caremulimea de obiec te analizate se structureazsub forma unor categorii bine individualizate.

    Vom nota cu mulimea strilor naturii i vom presupune existena aprioric a K stri posibile ale naturii, ceea ce

    nseamncmulimea este de forma:

    .

    Cele K stri posibile ale naturii se caracterizeazprin exhaustivitate i prin exclusivitate reciproc. Aceasta nseamncn afara celor K stri ale naturii nu mai poate exista nici o altstare posibila naturii, respectiv cdoustri diferite ale naturiinu se pot manifesta niciodatsimultan. De exemplu, din punct de vedere al perspectivelor de evoluie n viitor, firmele dintr-oanumitarse pot gsi, la un moment dat, n trei stri posibile:firme performante ,firme cu dif icu lti temporare ifirme curisc ridicat de faliment. Determinarea, dinainte, a strii posibile n care se va afla o firmn viitor, prezinto importanmaximpentru o rice d ecident, client sau investito r.

    Caracteristica principala unei probleme de clasificare constn faptul cdei strile posibile ale naturii sunt cunoscuteaprioric, ca numr, ca naturi ca plauzibilitate a man ifestrii, iar fiecare element al po pulaiei se gsete n mod sigur ntr-

    una, i numai ntr-una, din aceste stri, de obicei nu se cunoate, cu precizie i n mod aprioric, n care dintre strile naturii segsete fiecare dintre unitile populaiei.

    Principala problemcare se pune n acest co ntext constn identificarea strii n care se aflo anumitunitate din populaia, adicn stabilirea apartenenei acestei uniti la o anumitcategorie, classau grup. Cele K stri ale naturii, n care se pot

    gsi elementele mulimii , definesc o mprire a populaiei n K grupe sau clase, pe care le vom nota cu .

    Spre deosebire de strile naturii, care pot fi privite ca fiind realizri ale unei variabile aleatoare de tip discret, clasele saugrupele reprezintsubmulimi de obiecte din populaia , toate obiectele dintr-o astfel de submulime avnd proprietatea c

    se gsesc n aceeai stare a naturii.

    n calitatea sa de submulime a populaiei , o clas poate fi definit sub forma urmtoare ,

    unde este numrul de obiecte din clasa k.Ca o consecindirecta proprietilor pe care le au cele K stri ale naturii, clasele care trebuie identificate la nivelul

    populaiei , verificurmtoarele douproprieti:

    .

    Prima proprietate implicfaptul corice obiect din populaia face parte, cu necesitate, dintr-una din cele K clase. Cea

    de-a doua prop rietate implicfaptul cun anumit obiect nu poate sfie afectat sau atribuit, n acelai timp, la douclase diferite.Mai mult dec t att, este verificat, n plus fade cele doucondiii, i condiia:

    .

    Modul n care mulimea strilor naturii poate induce o structurare pe clase a popula iei este ilustrat n tabelul urmtor.

    Tabelul 8.1

    Stri ale naturiiClase n

    populaiaVariabiledescriptor

    Obiecte pe clase

    ... ...

    Scopul principal al metodelor i tehnicilor de clasificare este acela de a explica apartenen a obiectelor mulimii la

    grupele sau clasele , utiliznd n acest scop informaiile reprezenta te de valorile variabilelor descriptor .

    Explicarea apartenenei obiectelor mulimii la cele K clase presupune, de fapt, deducerea sau identificarea unui criteriu

    de clasificare sau a unei reguli de clasificare, care sdescrie modul de structurare a obiectelor po pulaiei pe clase. Criteriul de

  • 7/23/2019 Recunoasterea formelor

    6/30

    80

    clasificare mai este cunoscut i sub numele de clasificator.Deducerea criteriului de clasificare se face pe baza informaiilor furnizate de un eantion extras din populaia , eantion

    format din obiecte a cror apartenenla clasele poate fi cunoscutsau necunoscutn mod aprioric .

    Avnd n vedere cele menionate anterior, problema generala c lasificrii poate fi formulatsub forma urmtoare:

    Problema generala clasificrii : Fiind dato mulime de obiecte, se cere sse determine criteriul sau regula care sdescrie apartenena obiectelor la clasele sub forma crora se structureazrespectiva mulime de obiecte.

    n funcie de cunoaterea sau necunoaterea apriorica apartenenei la cele K clase a obiectelor care aparin eantionului

    extras din populaia , metodele de clasificare se mpart n doumari categorii: de clasificare controlati de clasificarenecontrolat.

    Odatce criteriul de clasificare a fost stabilit, el poate fi folosit, n continuare, pentru efectuarea de predicii pr ivindapartenena la o anumitclasa unor noi obiecte, din afara eantionului existent, obiecte a cror apartenennu este cunoscutaprioric. Dupce criteriul de clasificare a fost identificat, i cu condiia ca apartenena obiectelor aparinnd eantionuluidisponibil sfie cunoscut, el poa te fi utilizat i pentru verificarea corectitudinii cu care acesta poate face clasificarea, adicpentru testarea calitii clasificatorului. Calitatea criteriului de clasificare poate fi testatchiar pe obiectele din eantionul pecare acest criteriu a fost identificat. n acest scop, fiecare obiect din e antion, a crui apartenen la o anumit clas estecunoscut n mod efectiv, este reclasificat cu ajutorul respectivului criteriu, iar rezultatul noii clasific ri este comparat cuclasificarea real.

    Testarea clasificatorului poate sconducla o clasificare corecta unor obiecte din eantionul analizat i la o clasificareincorecta altor obiecte din acest eantion. Aceasta nseamncutilizarea clasificatorului respectiv poate sconducla situaia

    n care obiectele care aparin n mod real unei anumite clase sfie clasificate fie n clasa corect, fie incorect, n oricare dincelelalte clase.Modul n care un clasificator asigurclasificarea obiectelor cu apartenencunoscutpoate fi descris prin intermediul unei

    matrici, numitmatricea corectitudinii clasificrii sau, mai simplu, matricea clasificrii , care conine informaiile necesarepentru a aprecia corec titudinea clasi ficrii obiectelor.

    Dacvom considera un eantion format din T obiecte, care aparin claselor , atunci matricea de clasificare

    are forma din tabelul urmtor.Matricea clasificrii

    Tabelul 8.2

    Clase realeClase de predicie Obiecte

    de clasificat...

    ...

    ...

    ... ... ... ... ... ...

    ...

    Obiecteclasificate

    ...

    Un element al matricii de clasificare aratnumrul de obiecte aparinnd n mod real clasei i care, prin utilizarea

    tehnicilor de recunoatere a formelor, sunt clasificate n clasa . Definind n acest fel elementele matricii de clasificare, rezult

    cnumrul de obiecte clasificate corect este reprezentat de suma elementelor de pe diagonala principala matricii clasificrii,respectiv:

    .

    Similar, numrul de obiecte clasificate incorect este reprezentat de suma elementelor aflate n afara diagonalei p rincipalea m atricii clasificrii, respectiv:

    .

    Suma valorilor dintr-o linie a m atricii de clasificare reprezintnumrul de obiecte din clasa de provenience corespundeliniei respective, indiferent de clasele n care au fost clasificate acestea. Astfel, reprezintnumrul de obiecte din clasa de

    provenien , indiferent de clasa n care acestea au fost clasificate. n mod similar, suma valorilor dintr-o coloana matricii

    de clasificare reprezintnumrul de obiecte clasificate n clasa corespunztoare coloanei, indiferent de clasa de proveniena obiectelor. Rezultc reprezintnumrul de obiecte clasificate n clasa , indiferent de clasa de proveniena acestora.

    Pe baza informaiilor din matricea de clasificare pot fi defini i o serie de indicatori care caracterizeaz corectitudineaclasificrii. Printre acetia menionm:

  • 7/23/2019 Recunoasterea formelor

    7/30

    81

    gradul de clasificare corect:

    ;

    gradul de clasificare incorect:

    .

    mpreuncu ali indicatori specifici, cei doi indicatori definii anterior sunt folosii pentru a ap recia calitatea unui clasifi-cator, adicmsura n care acesta reuete sdetecteze n mod corect apartenena obiectelor la clasele populaiei analizate. Oclasificare este cu att mai corect, cu ct valoarea indicatorului este mai mare.

    Totalitatea activitilor desfurate n contextul unui proces de recunoatere a formelor, mpreuncu mulimea de metodei tehnici utilizate n scopul stabilirii apartenenei formelor la anumite clase sau grupe, determinconceptul cunoscut sub numelede sistem de recunoatere a formelor.

    8.5 Sisteme de recunoatere a formelor

    Complexitatea activitilor care apar n cadrul soluionrii oricrei probleme de recunoatere a formelor, succesiunea icondiionarea fazelor care compun demersul logic ntreprins n cadrul acestor probleme, precum i funcionalitatea specificce caracterizeazacest demers, conferprocesului de recunoatere a formelor un pronunat caracter de sistem. Din acest motiv,totalitatea activitilor implicate ntr-un proces de recuno atere a formelor, ansamblul informaiilor manipulate n acest context

    i mulimea procedurilor, algoritmilor, metodelor i tehnicilor utilizate n acest scop, sunt privite ca reprezentnd un sistem,numitsistem de recunoatere a formelor.

    Ca sistem de prelucrare informaional, un sistem de recunoatere a formelor este format dintr-o mulime de activiti,reguli, proceduri, metode i tehnici, care au ca scop general identificarea apartenenei unui obiect sau unei forme la o anumitclasbine determinatdin populaia analizat.

    Funcionarea unui sistem de recunoatere a formelor presupune existena apriorica unor informaii, care vor fi folositen procesul de c lasificare. Aceste informaii pot fi reprezentate, dupcaz, fie de o ntreagpopulaie de forme, fie numai de uneantion de forme, extrase dintr-o populaie de interes.

    Intrrile unui sistem de recunoatere a formelor sunt reprezentate de vectorii de proprieti ale obiectelor, adicde formeleprop riu-zise, iar ieirile sistemului de recunoatere a formelor sunt reprezentate de clasele de apartenen ale formelor de intrare,clase identificate cu ajutorul unor reguli specifice de clasificare. Vectorii de propriet i ale obiectelor sunt rezultatul unorprocese de observa re, msurare i nregistrare a nivelurilor caracteristicilor mulimilor sau submulimilor de obiecte, iar

    informaiile privind apartenena obiectelor la anumite clase sau categorii sunt rezultatul unor procese de evaluare complex ,bazate pe utilizarea unor proceduri i instrumente specifice, de naturstatistico-matematic.Existdoutipuri fundamentale de sisteme de recunoatere a formelor: sisteme de recunoatere necontrolatisistem e

    de recunoatere controlat. Aceste doutipuri de sisteme de recuno atere a formelor sunt determinate de scopurile urmrite,de natura informaiilor pe care le prelucreaz, de specificitatea metodelor i intrumentelor utilizate, precum i de naturarezultatelor obinute cu ajutorul acestora.

    8.5.1 Sisteme de recunoatere necontrolatSistemele de recunoatere necontrolata formelorsunt sistemele n cadrul crora nu se dispune de informaii iniiale

    referitoare la numrul de clase i la apartenena formelor la anumite clase, construirea claselor fcndu-se progresiv, pe msuracreterii numrului de forme analizate, iar numrul de clase posibile fiind stabilit doar n faza final a procesului derecunoatere.

    Caracteristica principal a sistemelor de recunoatere necontrolat a formelor const n faptul c nu se cunoate

    apartenena obiectelor analizate la o clas

    sau alta

    . Aceasta nseamnc, n mod implicit, nu se cunoatecu precizie

    nicinumrul de clase. n legturcu aceastultimafirmaie, considerm ceste necesar sfacem urmtoarea precizare important:o serie de algoritmi de clasificare necontrolat, cum ar fi de exemplu algoritmii de partiionare, presupun fixarea aprioricanumrului de clase n care vor fi mprite obiectele analizate. Aceasta nu nseamn nsceste cunoscut, n mod real, inumrul de clase, ci doar cse face o presupunere cu privire la acest numr. Principiile, procedurile, metodele i tehnicile aparinnd sistemelor de recunoatere necontrolata formelor sunt cunoscutesub denumirea generalde tehnici de clasificare, clasificare nesupervizatsau analizcluster.

    Analiza cluste reste o tehnicde clasificare caracterizatprin faptul cafectarea formelor sau ob iectelor n clustere saugrupe se face progresiv i fra cunoate aprioric numrul de clase, n funcie de verificarea a doucriterii fundamentale:

    a. obiectele sau formele clasificate n fiecare classfie ct mai similare din punct de ved ere al anumitor caracteristici;b. obiecte le cla sificate ntr-o classse diferenieze ct mai mult de obiectele c lasificate n oricare din celelalte clase.Primul criteriu de afectare a formelor pe clase cere ca fiecare classfie ct mai omogenn raport cu ca racteristicile luate

    n considerare pentru clasificarea obiectelor. Cel de-al doilea criteriu cere ca fiecare classdifere ct mai mult din punct de

    vedere al ca racteristicilor de clasificare.n funcie de caracteristicile procedurilor pe care le utilizeaz, de ipotezele iniiale pe care se bazeaz i de natura

    rezultatelor obinute cu ajutorul lor, metodele de analiz cluster se mpart n dou mari categorii: metode de clusterizare

  • 7/23/2019 Recunoasterea formelor

    8/30

    82

    ierarhici metode de clasificare prin partiionaresau metode iterative.Prima categorie include metodele de clusterizare prin agregare i metodele de clusterizare prin divizare . Pentru fiecare

    dintre cele doutipuri de clusterizare existmai multe proceduri specifice, ntre care men ionm: metoda agregrii simple,metoda agregrii complete, metoda agregrii medii, metoda lui Ward etc.

    Cea de-a doua catego rie include o serie de algoritmi, ntre care menionm: algoritmul celorK-medii , algoritmul celorK-medoizi, algoritmul CLARA, algoritmulfuz zy etc.

    n ceea ce privete rezultatele furnizate de sistemele de recunoatere necontrolata formelor, precizm cieirile acestorsisteme nu se reduc, de regul, la o unici simplconfigurare a obiectelor analizate pe clase, ci includ mai multe variante deconfigurare a obiectelor pe clase, variante coninute ntr-o entitate informaionalnumitstructurclustersau ierarhie cluster.Ierahia cluster oferposibilitatea cercettorului de a alege o anumit configurare a obiectelor pe clase, ceea ce nseamn,implicit, i alegerea unui anumit numr de clase.

    Sistemele de recunoatere necontrolat sunt utilizate mai mult pentru scopuri de sistematizare, grupare i sintetizareinformaional, n situaiile n care sunt analizate cantiti foarte mari de date i aceste date se caracterizeazprintr-un gradridicat de eterogenitate. n acest sens, tehnicile de recunoatere necontrolata formelor sunt foarte utile i eficiente n activitilede analizpreliminara datelor. Utilizarea analizei cluster n aceastfaza analizei datelor este importantdeoarece ea permiteorganizarea mai eficient a datelor eterogene. Regsirea informaiilor n cadrul masivelor de date structurate cu ajutorultehnicilor de analizcluster devine mult mai uoar, iar datele pot fi interpretate mult mai consistent.

    8.5.2 Sisteme de recunoatere controlatSistemele de recunoatere controlata formelorsunt acele sisteme n cadrul crora se presupune existena apriorica unui

    numr dat de clase i a unuiset de forme , numitepro tot ipuri sau referine, a cror apartenenla aceste clase este cunoscut.Acest set de forme este reprezentat de eantionul de obiecte extrase din populaia supusstudiului, eantion cunoscut i subnumele de set de formaresau set de nvare .

    Definiie : Setul de formare sausetul de nvare este un eantion de forme extrase din populaia studiat, forme a crorapartenenla clasele populaiei este cunoscuti pe baza crora sunt deduse criteriile formale de clasificare.

    n cadrul sistemelor de recunoatere controlata formelor, datele reprezentate de setul de formare includ att informaiireferitoare la proprietile eseniale ale obiectelor supuse analizei, ct i informaii referitoare la apa rtenena acestor obiecte laclasele existente. Pe baza acestor informaii iniiale, se deduc regulile i criteriile de decizie pentru partiionarea sub formderegiunisau clasea mulimii de obiecte supusstudiului sau a spaiului n care iau valori caracteristicile obiectelor.

    De fapt, n cazul tehnicilor de acest fel informaiile coninute n setul de formare sunt folosite pentru a face inferenecupr ivire la mprirea populaiei totale pe clase. Mai mult dect att, din aplicarea tehnicilor de clasificare controlatrezultiun set de reguli i criterii formale de c lasificare, adicun clasificator. Aceste reguli i criterii sunt folosite, n continuare, pen truclasificarea unor noi forme neclasificate nc, forme a cror aparteneneste necunoscut, adicpentru a face predicii cu privire

    la apartenena noilor forme.n mod uzual, setul iniial de forme este mprit n dousubseturi folosite n scopuri diferite: primul subset este numitset

    de formarei conine acele forme utilizate pentru deducerea regulilor i criteriilor de clasificare, adicpentru construireaclasificatorului propriu-zis; al doilea subset este numit set de predicie i conine acele forme utilizate pentru testareaclasificatorului construit pe baza setului de formare.

    Definiie : Sistemul de recunoatere controlata formelorreprezinttotalitatea activitilor i procedurilor care au cascop deducerea unor criterii departa jare a unei populaii de entiti informaionale (obiecte sau variabile), sub forma unuinumr cunoscut de clase, pe baza cunoaterii caracteristicilor i a apartenenei elementelor unui eantion provenit dinrespectiva populaie.

    Spre deosebire de tehnicile de clasificare necontrolat, care se bazeaz, n principal, pe utilizarea conceptului de distan,elementul fundamental al tehnicilor de clasificare controlat este un model formal, numit clasificator. n cazul analizeidiscriminante, clasificatorul este reprezentat de funciile discriminatsau de funciile de clasificare.

    8.6 Analiza cluster

    Preocuprile legate de metodele i tehnicile de analizcluster dateazde peste o jumtate de secol. Primele i cele maisistematice studii dedicate acestui domeniu sunt reprezentate de lucrrile elaborate de Sokal i Sneath n anul 1963 i de Lancei Williams n anul 1967. Ulterior, preocuprile tiinifice din domeniul analizei cluster s-au nmulit aproape exponenial i s-audiversificat extrem de mult.

    n multitudinea preocuprilor i lucrrilor dedicate domeniului analizei cluster pot fi identificate douimportante curentetiinifice, reprezentate de coala americani de coala francez. Printre cei mai de seamreprezentani ai colii franceze senumr: J. P. Benzecri, M. Jamb u, L. Lebart, A. Morineau, B. Escofier, G. Sapor ta i M. Bardos.

    Analiza cluster are ca scop cutarea i identificarea de clase, grupe sau clusteren cadrul unor mulimi de obiecte sauforme, astfel nct elementele care aparin aceleiai clase sfie ct mai asemntoare, iar elementele care aparin la clase diferitesfie ct mai deosebite ntre ele. Altfel spus, analiza cluster este o modalitate de examinare a similaritilor i disimilaritilor

    dintre obiectele aparinnd unei anumite mulimi, n scopul gruprii acestor obiecte sub forma unor clase distincte ntre ele iomogene n interior.

  • 7/23/2019 Recunoasterea formelor

    9/30

    83

    Figura 8.3: Forme posibile ale clusterelor de obiecte bidimensionale

    Aceasta nseamnc n toate situaiile, criteriul general de clasificare este, de fapt, un criteriu combinat, care poate fiformulat sub urmtoarea form:

    Criteriu general de clasificare: Clasificarea obiectelor n clase se face n aa fel nct sse asigure o variabilitateminimn interiorul claselor i o variabilitate maximntre clase.

    Termenul de analiz cluster a fost utilizat pentru prima oar n anul 1939, de ctre R. C. Tyron, n lucrarea ClusterAnalysis. Acest termen este folosit n prezent ca nume generic pentru o m ulime variatde proceduri i algoritmi de clasificarede tip necontrolat.

    Prin intermediul analizei cluster fiecare obiect din mul imea analizateste atribuit unei singure clase, iar mulimea claseloreste o mulime discret i neordonabil. Clasele rezultate n urma utilizrii analizei cluster au o semnificaie concret igeneralizatoare, pe baza creia pot fi efectuate o serie de interpretri i pot fi formulate o serie de concluzii importante pentruprocesu l d e cunoatere.

    Clasele sau grupele sub forma crora se structureazm ulimile de obiecte se mai numesc i clustere. Un cluster este osubmulime formatdin obiecte similare, adicdin obiecte care sunt suficient de asemntoare ntre ele din punct de vedereal caracteristicilor care le definesc.

    Definiie: Clusteruleste o submulime formatdin obiecte care au proprietatea cgradul de disimilaritate dintre oricaredouobiecte aparinnd clusterului este mai micdect gradul de disimilaritate dintre orice obiect care aparine clusteruluii orice obiect care nu aparine clusterului respectiv.

    Clusterul poate fi privit i ca reprezentnd o regiune a unui spaiu multidimensional, caracterizatprintr-o densitate relativmarede puncte sau de obiec te. De exemplu, n cazul aplicaiilor informatice, clusterul poate sfie reprezentat de o submulimede documentede acelai tip sau cu coninut asemntor. Aceste documente po t fi programe surs, pagini WEB, fiiere de tip

    text, fiiere HTML etc. Un astfel de document poate fi privit ca un punct dintr-un spa iu multidimensional, n care fiecaredimensiune a spaiului este asociatcu un anumit cuvnt. Coordonatele care definesc poziia unui document n acest spaiu suntreprezentate de frecvenele cu care apar diferitele cuvinte n cadrul documentului.

    Din punct de vedere geom etric, ca mulimi de puncte dintr-un anumit spaiu, clusterele pot avea forme foarte diferite, maimult sau mai puin regulate. Astfel, forma clusterelor poate sfie de tip convexsau concav,de tip compact sau de tip alungitetc. n figura urmtoare sunt ilustrate cteva dintre formele po sibile ale clusterelor, pentru cazul particular al obiectelor d e tipbidimensional.

    Tipurile de forme pe care le po t avea clusterele n realitate sunt foarte importante n analiza cluster, deoarece att eficienaprocesulu i de clasi ficare, ct i calitatea soluiilor, depind foarte mult de formele clusterelor, mai ales n cazul unor algoritmide clasificare ierarhicprin agregare.

    De regul, analizele de tip cluster reprezintproceduri de clasificare de tip necontrolat, n care nu este cunoscutaprioricnici apartenena anumitor obiecte la anumite clase, nici numrul de clase posibile. Numrul de clase sau clustere este variabil

    i este stabilit concomitent cu activitatea de clasificare propriu-zis.Definiie:Analiza clusterpoate fi definitca reprezentnd o mulime de principii, metode i algoritmi de clasificare,

    avnd ca scop organizarea datelor sub forma uno r structuri informaionale semnificative, relevante.

    Analiza cluster este o analizexplorativ, de tip multidimensional, care are ca scop gruparea unor entiti informaionale,cu naturfizicsau abstract, n clase sau clustere alctuite din entiti informionale cu grad ridicat d e similaritate.

    Din punct de vedere concret, efectuarea unei clasificri cu ajutorul metodelor i tehnicilor de analizcluster const nob inerea unorsoluii clustersau a unor partiii, reprezentate de o mulime de clase sau clustere notate cu , care

    verificproprietile menionate anterior. n cazul anum itor metode de clasificare, rezultatele clasificrii sunt reprezentate desoluii cluster unice, n timp ce n cazul altor metode de clasificare, cum ar fi metodele de clasificare ierarhic de tipaglomerativ, sunt reprezentate de mulimi de soluii cluster, numite ierarhii de soluii clustersau ierarhii de partiii. n acestesituaii, este necesar sse aleagdin mulimea de soluii cluster, adicdin ierarhia de partiii, o singursoluie cluster sau osingurpartiie.

    Dei alegerea unei anumite partiii se face, n principal, n funcie de scopurile urmrite n analiz, pentru a se ob ine oclasificare consistenti semnificativ, este necesar alegerea partiiei sse bazeze pe o evaluare ct mai riguroasa calitiituturor partiiilor care alctuiesc ierarhia cluster.

  • 7/23/2019 Recunoasterea formelor

    10/30

    84

    Din punct de vedere strict teoretic, analiza cluster poate fi privitca reprezentnd o modalitate specificde construire auneia sau a mai multor partiiipe mulimea obiectelor analizate. Orice partiie de acest fel de finete osoluie cluster, adicunanumit mod de grupare pe clase a obiectelor mulimii supuse studiului.

    Din punct de vedere strict matematic, analiza cluster poate fi privitca o modalitate de alegere a celei mai adecvatepartiiisausubmulimi din cadrulfam ilie i de pri a mulimiide obiecte analizate.

    n analiza cluster, ierarhiile clustersunt formate dintr-un numr de T soluii cluster, fiecare soluie coninnd clustere dince n ce mai m ari, respectiv clustere cu niveluri de agregare din ce n ce mai ridicate. O ierarhie cluster are o structurde formaurmtoare:

    ,

    unde T este numrul de obiecte, iar este numrul de clustere din soluia cluster de la nivelul i.

    n cazul metodelor ierarhice aglomerative, numrul de clustere din prima p artiie este egal cu numrul de obiecte, adic. De asemenea, numrul de clustere dintr-o partiie de la un anumit nivel este mai mic cu 1 dect numrul de clustere din

    partiia de la nivelul inferior i mai mare cu 1 dect numrul de clustere din partiia de la nivelul superior, respectiv:

    .Avnd n vedere c prima partiie obinutdintr-o clasificare ierarhic aglomerativ este soluie cluster de tip banal,

    reprezentatchiar de lista obiectelor supuse clasificrii, rezult c numrul de partiii propriu-zise, obinute ca soluii aleclasificrilor de acest tip, este egal cu T -1.

    Analiza cluster se deosebete n mod fundamental de procedurile de natur statistic, cum ar fi cele care au ca scopverificarea semnificaiei, prin faptul cea nu se bazeazi nu presupune ndeplinirea apriorica nici unei ipoteze specifice. nconsecin, prin esena sa, analiza cluster constituie un important i eficient instrument de analizexploratorie.

    Se poate spune cscopul general al analizelor de tip cluster este acela de creare a aa-numitelor taxonomii sau tipologii.Construcia tipologiilor este bazatpe analiza asemnrilori deosebirilorexistente ntre obiectele unei mulimi date.

    Necesitatea de a constru i tipologii apare n cele mai div erse domenii de activitate, existena tipologiilor oferind largiposib ili ti pentru analiza i interpretarea fenomenelor aparinnd acestor domenii.

    Dei folosirea tehnicilor de analizcluster nu este specificdoar pentru anumite domenii de activitate, totui, utilizareacea mai frecventa acestora e ste ntlnitn dom eniul marketingului, n investigaiile de naturpsihosocialsau n evalurileecono-micosociale la n ivel teritorial.

    n domeniul marketingului, se detaeaz aplicaiile tehnicilor de analiz cluster n studierea comportamentuluiconsumatorilor. Aceste aplicaii vizeazevaluarea anselor pe care poate sle aiblansarea unui produs nou, identificarea unornoi piee, modalitile de segmentare a pieii sau identificarea poziionrii pe pia a produselor diferiilor productori.Posibilitatea de a deduce tipologii specifice pe mulimea clienilor unei firme este deosebit de importantpentru fundamentareai stabilirea politicilor comerciale ale firmei.

    n cazul determinrii poziionrii pe piaa diferitelor mrci ale unui prod us, analiza cluster este folositpentru a clasificamrcile de fabricaie, n funcie de similitudinea sau disimilitudinea percepiilor pe care le manifestconsumatorii fade acestemrci. Pe baza modului n care se clasificmrcile i a caracteristicilor consumatorilor care i manifestpreferinele, unproductor poate identifica mrcile concurente i trsturile specifice ale categoriilor de consumatori care prefer produsulacestui productor. De exemplu, mrcile aflate n aceeai clascu marca unui productor sunt mrci concurente, deoarece elese adreseazaceluiai segment de consumatori.

    Tehnicile specifice analizei cluster sunt deosebit de necesare i utile n orice proces de analiza datelor, nu numai n celecare vizeazn mod direct necesiti legate de clasificare. De exemplu, utilizarea acestor tehnici este extrem de importantpentru acele procese de analizn care cantitatea de informaie ce trebuie prelucrateste att de mare i variatnct extragereaa ceea ce este legic, esenial i semnificativ n aceast cantitate informaional, devine imposibil dac nu sunt folositeinstrumente corespunztoare de sintetizare i structurare a informaiei brute. n acest context, tehnicile de ana lizcluster suntutilizate, cu precdere, pentrusistematizarea informaiilor supuse analizei, activitate care este strict necesarn faza de analizpreliminara datelor.

    Identificarea pe o mare cantitate de informaii brute a unor categorii, clase sau grupe informaionale reprezintunul dintrescopurile generale i, n acelai timp, principale ale oricrei analize cluster.

    n mod sintetic, efectuarea unei analize cluster, avnd ca scop clasificarea unei mulimi de obiecte, cuprinde urmtoareleetape:

    alegerea caracteristicilor n funcie de care se va face clasificarea; alegerea tipului de msurpentru evaluarea proximitii dintre obiecte;

    stabil irea regulilor de formare a claselorsau clusterelor; construirea claselor, adicncadrarea obiectelor n clase;verificarea consistenei isem nificaiei clasificrii;

  • 7/23/2019 Recunoasterea formelor

    11/30

    85

    alegerea unui numr optimal de clustere , n funcie de natura problemei de clasificare i de scopurile care seurmresc; interpretarea semnificaiei clusterelor;

    Rezultatele unei analize cluster sunt reprezentate fie de o singursoluie cluster, fie de ierarhii cluster, care conin diferitemodaliti de configurare a obiectelor pe c lase, adicmai multe soluii cluster. n cel de-al doilea caz, pe baza efecturii uneitieturi n ierarhia cluster, utilizatorul are posibilitatea alegerii unei configuraii a obiectelor pe un anum it numr dorit de clase.

    Pe baza rezultatelor obinute n urma efecturii unei analize cluster, pot fi deduse anumite legiti care guverneazevoluiaunor populaii de fenomene, po t fi identificate anumite principii utile pentru procesul de cunoatere sau pot fi formulate o seriede concluzii tiinifice cu caracter de generalitate. n acest sens, analiza cluster i rezultatele obinute pe baza acesteia potcontribui la:

    definirea unor scheme de clasificare formali a unor tipologii, pe baza crora realitile complexe pot fi maibine cunoscute i nelese;

    identificarea unor modele statistico-matematice cu ajutorul crora mulimi complexe i eterogene de fenomenei procese pot fi sintetizate i reprezentate sub o formsimplificati inteligibil;

    definirea mai corecti mai completa caracteristicilor fundamentale ale unor populaii de fenomene iprocese ;

    deducerea unor msuri numerice adecvate pen tru carac terizarea dim ensiun ilor popula iilorde fenomene ipentru eviden ierea modificrilor care au loc n nivelul i structura acestora;

    identificarea unor entiti individuale care sunt reprezentativepentru clase i categorii complexe de fenomenei procese.

    Din cele de mai sus, rezultcanaliza cluster poate fi privit, n general, ca un instrument care are ca scop reducerea unormulimi de obiecte, sau chiar de variab ile, la un numr mai restrns de entiti informaionale, care sunt clasele sau c lusterele.Din acest punct de vedere , se poate face o analogie ntre analiza cluster i analiza componentelor principale, cu meniunea cn analiza componentelor principale reducerea vizeaz, de regul, variabilele.

    n sensul su obinuit, ca ansamblu de metode i tehnici de clasificare a obiectelor, analiza cluster este o analizefectuatnspa iul variabilelor. ntr-adevr, cele mai m ulte utilizri ale tehnicilor de analizcluster sunt cele care au ca scop clasificareaobiectelor, i nu clasificarea variabilelor.

    Existnsi situaii n care analiza cluster este folositpentruclasificarea variabilelor care caracterizeazobiectele, adicsituaii n care analiza este efectuatnspaiul obiectelor. n aceste situaii, analiza cluster poate servi ca instrument de agregarea caracteristicilor obiectelor, sub forma unor caracteristici generale i cu relevanridicatdin punct de vedere al posibilitilorde interpretare.

    Remarc:Analiza cluster poate fi utilizatatt pentru clasificarea obiectelor, ct i pentru clasificarea variabilelor caredefinesc obiectele.

    Spre deosebi re de utilizarea analizei cluster pentru clasificarea obiectelor, situaie n care specificitatea este reprezentatde faptul cdistanele sunt evaluate pentruperechi de obiecte , n cazul utilizrii analizei cluster pentru c lasificarea variab ilelor,evaluarea distanelor se face pentruperechi de variabile.

    8.6.1 Tipul informaiilor primare utilizate n analiza clusterProblema cea mai importanta oricrui tip de analizcluster este aceea a modului n care po ate fi msuratproxim itatea,

    respectivgradul de apropiere sau gradu l de deprtare,dintre obiecte i dintre clustere.Orice proces de clasificare a obiectelor este definit n raport cu o anumitmsura gradului de apropiere sau de deprtare

    dintre obiectele analizate, indiferent de metoda sau algoritmul pe care se bazeaz acest proces. Aceast msur poate fireprezentat fie de un indicator de similaritate, fie de un indicator de disimilaritate. Fiecare dintre cele dou categorii deindicatori va fi definiti analizatn continuare.

    n general, msurarea gradului de proximitate dintre obiecte se face cu ajutorul a dougrupe de indicatori, cunoscute sub

    numele de indicatori de similaritatei indicatori de disimilaritate.Indicatorii de similaritate i indicatorii de disimilaritate potfi utilizai att n analizele cluster efectuate pe ob iecte, ct i n analizele cluster efectuate pe variabile.Indicatorii de similaritate i de disimilaritate pot fi utilizai ca bazinformaionaln orice proces de clasificare datorit

    faptului cei pot induce o relaie de ordinepe mulimea perechilor de obiecte sau de variabile i, n consecin, pot contribuila clasificarea obiectelor sau variabilelor.

    Cu ct valoarea unui indicator de similaritate este mai mare, cu att obiectele sau variabilele pentru care acest indicatorse evalueaz pot fi considerate a fi mai asemntoare, respectiv mai apropiate. De asemenea, o valoare foarte mic aindicatorului de similaritate evideniazfaptul ccele douobiecte sau cele douvariabile sunt mai deprtate ntre ele.

    Ind ica tor ii de dis imilaritate sunt mrimi numerice care exprimct de deosebite sau ct de deprtate sunt douobiectesau douvariabile. Indicatorii de disimilaritate se mai numesc i indicatori sau coeficieni de deosebire sau de distan are aobiectelor sau variabilelor. Cu ct valoarea unui indicator de disimilaritate este mai mare, cu a tt cele douobiecte sau cele douvariabile pentru care se calculeazsunt mai diferite, adicmai distanate ntre ele.

    Cea mai importanti cea mai utilizatcategorie de indicatori de disimilaritate este reprezentatde indicatorii de tip

    distan. De multe ori ns, conceptul de distaneste utilizat i pentru a desemna indicatori de similaritate, cu toate cacetiaexprimgradul de apropiere dintre douentiti informaionale.

    Spre deoseb ire de indicatorii de similaritate, care pot fi cel mai b ine utilizai pentru exprimarea gradului de proximitate

  • 7/23/2019 Recunoasterea formelor

    12/30

    86

    dintre obiectele cu caracteristici de tip calitativ, indicatorii de disimilaritate sunt mrimi mai potrivite pentru msurareaprox imitii n cazul obiectelor cu caracteristici de tip cantitativ .

    n legturcu aceastdeosebire, facem precizarea cexistsituaii n care indicatorii de similaritate pot fi utilizai nu numain cazul variabilelor de tip calitativ, ci i n cazul variabilelor de tip cantitativ. Acest lucru este posibil n situaiile n carevariabilele de tip cantitativ sunt supuse unor transformri adecvate.

    Cu toate cindicatorii de similaritate i indicatorii de disimilaritate sunt privii, de regul, ca fiind doucategorii distincte,putem face afi rmaia cambele categorii exprim, ntr-un anumit fel, doufaete ale aceluiai lucru. Mai mult dect att, nanumite condiii, indicatorii de similaritate pot fi transforma i n indicatori de disimilaritate. Diferenele dintre aceste categoriide indicatori in de natura variabilelor n raport cu care sunt evalua i i de modalitile de calcul specifice fiecrui tip deindicator.

    Informaiile utilizate, n ultim instan, n analiza cluster sunt reprezentate sub forma unor matrici simetrice de tipobiecteobiecte, numite, dupcaz, matrici de proximitate,matrici de similaritate, matrici de asociere,matrici de inciden,matrici de disimilaritate sau matrici de distane. Att liniile, ct i coloanele matricilor de acest fel se refer la obiecteleanalizate, astfel nct numrul lor este egal cu numrul de obiecte supuse analizei. Elementele acestor matrici sunt mriminumerice care exprimproximitatea dintre perechile de obiecte care eticheteazrndurile i coloanele matricilor.

    n cazul particular al clasificrii variabilelor, informaiile utilizate efectiv n analiz sunt reprezentate sub forma unormatrici de tipul variabilevariabile. Elementele acestor ma trici sunt mrimi numerice care exprimgradul de proximitate dintreperechile de variabile aflate n liniile i coloanele acestor matrici.

    Rezultcmatricile de proximitate conin indicatori de disimilaritate (distane) sau indicatori de similaritate pentru toateperechile p os ibi le de ob iec te sau de variabile. n construir ea matricilo r de p roximitate po t fi uti lizate, n funcie de proprietile

    obiectelor la care se refer, att variabile de tip cantitativ, ct i variabile de tip calitativ.Tipurile indicatorilor de similaritate sau de disimilaritate utilizai n evaluarea proximitilor trebuie sfie adecvate i

    compatibile cu natura datelor existente. De asemenea, n evaluarea proximitilor trebuie sse ia n considerare toate variabilelecare au o relevanridicatdin punct de vedere al clasificrii. Omiterea unor variabile din calculul proximitilor poate conducela obinerea unor soluii inconsistente.

    Datele din matricile de proximitate pot fi reprezen tate sub forma unui graf specific, care eviden iazpoziionarea spaialrelativa obiectelor sau a variabilelor i care ofero imagine sugestiv, de ansamblu, asupra distanrii respectivelor entitiinformaionale.

    Baza informaionalpentru determinarea m atricilor de proximitate o reprezintaa-numitele matrici de observaii, caresunt matrici de tipul obiectevariabilesau matrici de tipul variabileobiecte, n funcie de tipul analizei efectuate. n primulcaz, rndurile matricilor de observaii reprezintobiectele analizate, iar coloanele acestor matrici reprezintcarac teristicilereinute n analiz, adicvariabilele descriptor. n cel de-al doilea caz, interpretrile rndurilor i coloanelor sunt inversate.

    Entitile informaionale supuse procesului de clasificare cu ajutorul metodelor i tehnicilor de analiz cluster sunt

    reprezentate de ob iecte sau variabile. Obiectele implicate ntr-o analizcluster se mai numesc indivizi, observaii, articole saunregistrri. Din punct de vedere al modului de reprezentare extern, mulimile de informaii referitoare la aceste entiti suntorganizate sub forma unor fiieresau baze de date. Fiecare nregistrare din cadrul unui fiier sau unei baze de date defineteun anumit obiect. De obicei, n analiza cluster se presupune ctoate obiectele sunt caracterizate prin intermediul aceleiaimu limide variabile descriptor. Variabilele descriptor utilizate n analiza cluster pot sfie de acelai tip, cantitativ sau calitativ,sau pot sfie de tipuri diferite. n fiecare dintre cele doucazuri, evaluarea gradului de pr oximitate dintre obiecte se face n moddiferit.

    Cele mai mari probleme apar n cazul n care variabilele descriptor sunt de tipuri diferite, deoarece n acest caz proximitilepariale, evaluate n raport cu va riabile diferite, au naturincompatibili nu pot fi agregate n mod direct n scopul obineriiunui indicator de p roximitate la nivelul ansamblului de variabile. O astfel de situaie apare, de exemplu, cnd unele variabilesunt de tip interval sau raport, iar altele sunt de tip nominal. Aa cum o svedem n cadrul paragrafului 10.3.3.4, situaiile deacest fel impun utilizarea unor proceduri specifice de construire a indicatorilor de proximitate.

    Matricile de observaii pot conine fie rezultatele msurtorilor directe, efectuate asupra variabilelor originale, fierezultatele obinute n urma unor transformri specifice, efectuate asupra variabilelor originale. Mrimile din cea de-a douacategorie sunt reprezentate de scorur ile com ponente lor principa le sau de scorurile fac torilo r i se obin prin efectuarea, peobservaiile originale existente, a unei analize a compo nentelor principale sau a unei analize factoriale.

    n analiza cluster, matricile de observaii conin informaii cu caracter complet, adicinformaii referitoare la ntreagamulime de obiectesupuse clasificrii. Spre deosebire de aceasta, n cazul analizei discriminante informa iile coninute nmatricea de observaii sunt informaii cu caracterparial, referitoare la un eantion de obiecte extrase din popula ia de obiectesupusanalizei.

    8.6.2 Evaluarea distanelor dintre obiecte i tipuri de distanePrin natura lor numeric, variabilele de tip cantitativ, adic variabilele msurate pe scalele de tip raport, interval i,

    eventual, ordinal, permit o definire mai naturala conceptului de distan. Pentru variabilele de tip no minal, inclusiv variabilelede tip binar, distanele se calculeazntr-un mod specific, compa tibil cu natura acestor variabile.

    Pentru evaluarea disimilaritilor dintre obiectele ale cror caracteristici sunt de tip cantitativ sau dintre variab ile de tip can-titativ, pot fi folosite mai multe tipuri de distane, cum ar fi: distanaEuclidian(simpl, ponderatsau ptrat), distanaMan-hattan, distana Cebev , distanaMinkovski, distana Camberra, distanaMahalanobis, distanaPearson , distanaJambuetc.

  • 7/23/2019 Recunoasterea formelor

    13/30

    87

    Distana Euclidian

    DistanaEuclidian, care mai este cunoscuti sub numele de normde tip , este distana cea mai frecven t utilizatn

    prob lem ele de analizcluster. Ea se calculeazca rdcinptrata sumei ptratelor diferenelor coordonatelor celor douobiecte sau variabile pentru care se evalueazdistana.

    Distana Euclidianmsoardeprtarea dintre douobiecte sau dintre douvariabile n linie dreapt i este definitsubforma urmtoare:

    .

    Distana Euclidianexprimproximitatea dintre obiecte ca distanntre doupuncte din spaiul Euclidian, respectiv cadistanmsuratn linie dreapt. n acest sens, de exemplu, distana dintre oraul Bucureti i oraul New-York nu este odistan de tip Euclidian deoarece ea este exprimatde-a lungul curburii sau rotunjimii globului pmntesc, i nu n liniedreapt.

    Distana Manhattan

    Distana Manhattan , numiti distanrectangular, distanCity-Block sau normde tip , se calculeazca sum

    a valorilor absolute ale diferenelor coordonatelor celor dou obiecte sau celor dou variabile analizate i este definit de

    relaiile:.

    Deoarece diferenele de coordonate utilizate n calculul su nu sunt amplificateprintr-o ridicare la o putere, distan aManhattan este mai robustn raport cu prezena n date a valorilor aberante.

    Distana Manhattan poate fi calculati n varianta pondera t, calculul fcndu-se n mod similar cu cel al distan eiEuclidiene ponderate. De asemenea, distana Man hattan poate fi utilizatn cazul n care o biectele au caracteristici care suntmsurate pe scala de tip interval i pe scala de tip raport.

    Distana Cebev

    Distana Cebev , cunoscuti sub numele de maxim al dimensiunilor sau normde tip , este o distande tip valoare

    absoluti se determin ca fiind valoarea maxim a valorilor absolute ale diferenelor dintre coordonatele obiectelor sauvariabilelor, respectiv:

    .

    Distana Cebev poate fi utilizatatunci cnd se dorete ca douobiecte sau variabile saparca fiind diferite, dacelediferchiar i doar din p unct de ved ere al unei caracteristici, respectiv al unui obiect. n alte situaii, nu este recomandabil sse foloseascacest tip de distan.

    Distana Mahalanobis

    DistanaMahalanobiseste una dintre cele mai cunoscute, mai importante i mai frecvent utilizate distane. Ea este o formgeneralizata conceptului de distani se calculeazsub formele urmtoare:

    ,

    unde sunt vectori coloanreprezentnd liniile i i j din matricea de observaii X, sunt vectori coloanreprezentnd liniile p i q din matricea de observa ii Y, iar este notaia pentru inversa matricii de covarian, matrice

    calculatn spaiul variabilelor - n primul caz, respec tiv n spaiul observaiilor - n al doilea caz. Se poate observa c, n cazuln care matricea de covarian este egalcu matricea unitate, distana Mahalanob is se reduce la distana Euclidianptrat.

    Distana Mahalanobis reprezint singurul tip de distan care ia n considerare, ntr-o manier complet, gradul dedispersare al mulimii de obiecte sau al mulimii de variabile analizate, precum igradu l de corelare al respectivelor entitiinformaionale. Utilizarea distanei Mahalanobis este recomandat, mai ales n situaiile n care variabilele care descriu obiectelesunt corelate ntre ele. Distana Mahalano bis este utilizati n cazul tehnicilor de clasificare controlat, pe baza acestei distanefiind dezvoltat chiar un criteriu opera ional de discriminare.

    8.6.3 Evaluarea distanelor dintre clustereO problemdificilcare ap are n analiza cluster, este legatde necesitatea evalurii distanelor dintre clasesau clustere .

    Dificultatea acestei probleme este datde faptul cdistanele dintre clase sau clustere sunt, de fapt, distane ntre mulimi deobiectesau distane ntremulimi de variabile. Problema evalurii distanelor dintre clustere apare n special n cazul analizei cluster de tip ierarhic, n care construirea

  • 7/23/2019 Recunoasterea formelor

    14/30

    88

    Figura 8.4: Distana dintre douclustere n cazul metodei celor mai

    apropiai vecini

    Figura 8.5: Distana dintre douclustere n cazul metodei celor maideprta i vecini

    arborelui de clustere poate fi fcutpe baza comasrii succesive sau divizrii succesive a clusterelor. Comasarea clusterelor estenumit amalgamaresau agregare, iar divizarea clusterelor este numitdezagregare.

    Teoretic, procesul de agregare sau dezagregare succesiva clusterelor se bazeazpe definirea unei distane limitntreclustere, distannumitiprag de agregare , respectivprag de dezagregare . n principiu, decizia de com asare a douclusteresau de divizare a unui cluster este luatnumai dacdistana dintre aceste clustere este mai mic, respectiv mai mare dectdistana limitfixat.

    Dacn cazul evalurii gradului de apropiere sau deprtare dintre douobiecte lucrurile sunt relativ simple, fiind suficientsse calculeze una din distanele menionate mai sus, n cazul n care este necesar a fi evaluat gradul de ap ropiere sau deprtaredintre douclustere lucrurile devin ceva mai complicate i presupun existena unei metode specifice de evaluare.

    Distana dintre douclustere este, de fapt, o distandintre doumulimide puncte, adico distanmai dificil de evaluat.Ca distanntre doumulimi de puncte, distana dintre douclustere poate fi msuratcu ajutorul uneia dintre mai multemetode posibile.

    Dintre metodele propuse pentru ev aluarea distanelor dintre clustere menionm: metoda celor mai apropiai vecini, metodacelor mai deprta i vecini, metoda distanei medii ntre perechi, metoda centroidului i metoda lui Ward etc.

    8.6.3.1 Metoda celor mai apropiai veciniMetoda celor mai apropiai vecinievalueazdistana dintre douclustere ca fiind distana minimdintre toate perechile posibile de

    forme din cele douclustere. Aceasta nseamncdistana dintre douclustere este msuratprin distana dintre cele mai apropiate obiecteaparinnd celor douclase.

    Definiie:Metoda celor mai apropia i vecini evalueazdistana dintre douclustere ca distanntre douobiecte, unuldin primul cluster, iar cellalt din cel de-al doilea cluster, care sunt cele mai apropiatentre ele n sensul distanei utilizate.

    n figura urmtoare este vizualizatdistana dintre douclustere, evaluatdupmetoda celor mai apropiai vecini.

    8.6.3.2 Metoda celor mai deprtai veciniMetoda celor ma i deprta i vecinieste metoda dupcare distana dintre douclase este msuratprin distana dintre cele

    mai deprtate obiecte aparinnd celor douclustere. Pe baza acestei metode, douclustere sunt considerate a fi mai apropiatesau mai deprtate, n funcie de proximitatea dintre cele mai deprtate obiecte din cele douclustere.

    Definiie:Metoda celor mai deprta i vecini evalueazdistana dintre douclustere ca distanntre douobiecte, unuldin primul cluster, iar cellalt din cel de-al doilea cluster, care sunt cel mai deprtate ntre ele n sensul distanei utilizate.

    Calculul distanei dintre douclustere cu ajutorul metodei celor mai deprta i vecini se face pe baza datelor din matriceadistanelor dintre obiectele din cele douclustere, prin identificarea n aceastmatrice a elementului cu valoarea cea mai mare.

    Pentru evaluarea distanelor dintre obiectele cele mai deprtate din cele douclustere poate fi utilizatoricare dintremetodele cunoscute de calcul a distanelor dintre obiecte, n func ie de natura variabilelor care definesc obiectele supuseclasificrii.

    8.6.3.3 Metoda distanei medii dintre perechiMetoda distanei medii dintre perechile de obiecteevalueazdistana dintre douclustere prin intermediul distanei medii

    dintre toate perechile posibile de obiecte care aparin celor douclustere.

  • 7/23/2019 Recunoasterea formelor

    15/30

    89

    Figura 8.6: Ilustrarea grafica metodei distanei medii dintre perechi

    Figura 8.7: Distana dintre clustere n cazul metodei centroidului

    Definiie:Me toda d istan ei medii dintre perechi evalueazdistana dintre douclustere ca medie a distanelor dintreoricare douobiecte care aparin celor douclustere, unul primului cluster, iar cellalt din celui de-al doilea cluster.

    Evaluarea distanei dintre douclustere cu ajutorul metodei distanei medii ntre perechile de obiecte se face pe baza datelordin matricea distanelor dintre obiectele din cele douclustere, calculnd media acestor distane.

    n figura urmtoare este sugerato interpretare geometric a modului de calcul a distanei dintre clustere cu ajutorulmetodei distanei medii dintre perechi.

    Ca i n cazul celorlalte doumetode, pentru evaluarea distanelor dintre obiectele celor douclustere, poate fi utilizatoricare dintre metodele cunoscu te de calcul al distanelor dintre obiecte.

    8.6.3.4 Metoda centroiduluiMetoda centroidulu ieste metoda dupcare distana dintre douclustere este msuratca distanntre centroizii celor

    douclustere. n acest fel, douclustere sunt considerate mai apropiate sau mai deprtate, n funcie de gradul de apropiere saude deprtare dintre centroizii lor.

    Centroidulsau centrul de greutateal unui cluster reprezintobiectul, real sau abstract, ale crui caracteristici au ca valorichiar mediile caracteristicilor obiectelor care com pun clusterul respectiv.

    Definiie:Metoda centroidu lui evalueazdistana dintre douclustere ca distanntre centroiziicelor douclustere.

    Evaluarea distanei dintre douclustere cu ajutorul metodei centroidului se face calculnd mai nti centroizii celor douclustere, dupcare se evalueazdistana dintre clustere ca distanntre aceti centroizi.

    Figura urmtoare ilustreazinterpretarea geometrica ca lculului distanelor dintre clustere cu ajutorul metodei c entroidului.n aceastfigur, centroizii celor douclustere sunt marcai prin cele doupuncte de dimensiune mai mare.

    Deoarece centroidul este vectorul mediilor corespunztoare tuturor obiectelor dintr-un cluster, n calculul distanei dintredouclustere cu ajutorul metod ei centroidului sunt luate n considerare, n mod implicit, toate obiectele din fiecare cluster.

    8.6.3.5 Metoda lui WardMetoda lui Wardeste o metodde evaluare a distanei dintre douclustere, care se bazeazpe maximizarea gradului de

    omogenitate a clusterelor sau, ceea ce este acelai lucru, pe minimizarea variabilitii intracluster. De regul, gradul de omoge-nitate a unui cluster se considera fi cu att mai mare , cu ct suma totala ptratelor abaterilor intracluster este mai mic.

    Elementul caracteristic al metodei lui Ward este reprezentat de faptul c prin comasarea a douclustere se urmreteob inerea unei omogeniti maxime la nivelul tuturor clusterelor care aparin unei configuraii date a obiectelor pe clustere. nacest sens, se poate spune cdistana Ward dintre douclustere msoarvariabilitatea intracluster cumulat, pe care o inducecomasarea celor douclustere la nivelul configuraiei cluster rezultate. n acest sens, distana Ward p oate fi definitsub formaurmtoare:

    Definiie: Me toda lui Ward evalueaz distana dintre dou clustere sum total a ptratelor abaterilor la nivelulconfiguraiei cluster rezultate din comasarea ce lor douclustere pentru care se evalueazdistana.

    Spre deosebire de alte metode de ca lcul a distanelor ntre clustere, distana Ward ofero serie de avantaje. Aceste avantaje

    decurg din faptul cea este singura dintre metode le de evaluare a distanelor dintre clustere, care exprimdistanele din punctde vedere al minimizrii variabilitii intracluster sau, ceea ce nseamn acelai lucru, din punct de vedere al maximizriivariabilitii intercluster.

  • 7/23/2019 Recunoasterea formelor

    16/30

    90

    8.6.4 Metode i tehnici de analizclusterAnaliza cluster are ca scop cutareai identificarea n datele supuse analizei a uno r grupuri sau clustere, n func ie de

    similaritile i disimilaritile dintre obiectele la care se referrespectivele date.Cea mai importantetapdin cadrul unei analize cluster este cea a formrii clusterelor sau claselor. Algoritmii care pot

    fi utilizai pentru realizarea activitii de construire a clusterelor cunosc o mare varietate, care include algoritmi euristici,algoritmi de optimizare i algoritmi fuzzy. Diferenele dintre modul de co nstruire a clusterelor dupun algoritm sau altul, sunt

    determinate, n principal, de natura metode i utilizate pentru evaluarea distanelor ntre clustere. Mai mult, chiar tipul analizeicluster rezultdin natura algoritmului utilizat pentru construirea clusterelor.Din punct de vedere al naturii lor, al modului de operare i al tipului de soluii pe care le furnizeaz, metodele de analiz

    cluster pot fi mprite n doumari categorii: metode de tip ierarhici metode de tip iterativ sau de partiionare.Algoritmiisau metodele de tip ierarhicau ca scop producerea mai multorsoluii cluster, soluii numite ierarhii cluster.

    Caracteristica principala acestor algoritmi constn faptul cnumrul de clustere nu este cunoscut aprioric.

    Remarc: n cazul metode lor de clasificare ierarhic,numrul de clustere nu este cunoscut aprioric.

    Existdoucategorii de algoritmi de clasificare ierarhic: algoritmi de agregarei algoritmi de dezagregare.Rezultatele furnizate de algoritmii de clasificare ierarhicinclud mai multe variante de clasificare a obiectelor, fiecare

    variant de clasificare coninnd structuri cluster cu un numr variabil de clustere. Structurile cluster ob inute cu ajutorulalgoritmilor de acest fel se numesc structuri clu ster m ult inivel.

    Remarc: Algoritmii de clasificare ierarhicfurnizeazmai multe soluii, de tip multinivel, care se numesc ierarhiicluster i care diferntre ele prin numrul de clustere pe care le includ i prin gradul de agregare al clusterelor.

    Cea mai sinteticsoluie a unei structuri cluster obinute cu ajutorul metodelor d e clasificare ierarhiceste formatdintr-unsingur c lus ter, care include toate obiectele analizate. Cea mai detaliatsoluie a unei structuri cluster de acest fel include unnumr maxim de clustere, egal cu numrul de obiecte analizate, fiecare cluster coninnd un singur obiect. Aceasta nseamnc numrul posibil de soluii dintr-o structurcluster obinutcu ajutorul algoritmilor ierarhici este mai mic cu unu dectnumrul de obiecte supuse clasificrii. Acest numr este determinat de numrul de nivele ierarhiceale soluiei i este dat derelaia urmtoare:

    .

    Alegerea dintre cele soluii ale unei structuri cluster a celei mai potrivite solu ii cluster rmne la latitudinea

    cercettorului i se face, n principal, n funcie de obiectivele urmrite n analiz.Algorimii sau metodele de tip iterativau ca scop producerea u nei structuri cluster formatdintr-osingursoluie cluster.

    O astfel de structurcluster se numete structurcluster uniniveli conine o singurcluster, care include un numrfixat declustere.

    Remarc: Algoritmii de clasificare prin partiionare furnizeazsoluii unice, adicsoluii de tip uninivel.Caracteristica principala algoritmilor de partiionare este datde faptul cnumrul de clustere este fixat aprioricde ctre

    analistul de informaii. Algoritmii din aceastcategorie mai sunt cunoscui i sub numele de algoritmi de partiionare.

    Remarc: n cazul metodelor de clasificare prin partiionare,numrul de clustere este cunoscut aprioric.

    n funcie de natura c riteriului utilizat n procesul propriu-zis de clasificare, metodele de ana lizcluster pot fi mprite ndoucategorii: metode euristicei metode algoritmice.

    Metodele euris ticeinclud procedurile de clasificare dezvoltatea pe baza unei anumite euristici. O euristiceste o modalitateintuitivde soluionare a unei anu mite probleme particulare. Euristicile reprezintseturi de reguli sau de recomandri cu caractergeneral, deduse pe baza unor raionamente teoretice sau pe baza unor observaii statistice. n general, conceptul de euristicesteopus conceptului de algoritm i este utilizat pentru a defini metode i tehnici non-algoritmice.

    Prin natura lor, metodele de clasificare ierarhicsunt metode euristice. Astfel, metoda agregrii simple, metoda agregriicomplete, metoda agregrii medii, metoda centroidului sau metoda lui Ward, sunt metod e de tip euristic.

    Metodele algoritmice includ procedurile de clasificare de tip formal, baza te pe ex istena unui anumit algoritm de soluionarea problemei. Un algoritm este o mulime de finiti complet definitde operaii, pai sau proceduri, a cror execuie determinob inerea unui anumit rezultat sau a unei anumite soluii. Orice algoritm se compune din trei pri eseniale: ini ializarea,procedura sauschema i tera tivi criteriul de oprire.

    Deoarece includ toate com ponentele caracteristice unui algoritm, metodele de clasificare prin partiionare sunt metode cunaturpreponderent algoritmic. Spre deosebire de aceste metode , cele trei componente ale unui algoritm nu se regsesc n modexplicit i n cazul metode lor de clasificare ierarhic.

    8.6.4.1 Analiza cluster de tip ierarhicAnali za cluster de tip ierarh ic sau arborescent este o metodde clasificare bazat pe gruparea obiectelor pe baz de

    agregare succesivn clase din ce n ce mai largi de obiecte sau de dezagregare succesivn clase din ce n ce mai mici.Ipoteza fundamentala analizei cluster de tip ierarhic este aceea la nivelul mulimilor supuse studiului existmai multe

    niveluri de structurare naturala obiectelor pe grupe sau clase, evideniindu-se o imbricare sau o includere, de tip arborescent,

    a structurilor coninute la nivel latent n cadrul acestor mulimi.Ipoteza de baza clasificrii ierarhice: n cadrul mulimilor de obiecte analizate se difereniazo multitudine destructuri de tip latent, care sunt caracterizate printr-o imbricare de naturarborescent.

  • 7/23/2019 Recunoasterea formelor

    17/30

    91

    n cea mai mare parte a lor, algoritmii de clasificare ierahicsunt algoritmi de tip euristic. Existnsi o categorie apartede algoritmi de clasificare ierarhic, reprezentatde algoritmii de tip model formal, care genereazstructurile cluster pe bazamaximizrii verosimilitii.

    Rezultatul utilizrii analizei cluster de tip ierarhic l reprezinto mulime de structuri particulare de clustere, numitarboreal clasificrii sau arbore ierarhic.

    Structurile cluster care alctuiesc arborerele de clasificare includ un numr de clustere diferit. O soluie cluster cecorespunde unui nivel mai ridicat de agregare con ine un numr de clustere mai mic cu 1 dect o soluie cluster corespunztoareproximulu i nive l ie rarhic inferior. Aceasta nseamncstructurile cluster de tip ierarhic sunt caracterizate p rin nivele diferitede agregare, cuprinse ntre un nivel minim i un nivel maxim.

    Structura cluster cu cel mai nalt nivel de agregare este formatdintr-un singur cluster, care include toate obiectele supuseclasificrii. Structura cluster cu cel mai redus nivel de agregare este formatdintr-un numr de clustere egal cu numrul deobiecte analizare, fiecare cluster incluznd un singur obiect.

    Nu mrul de clustere din doustructuri cluster succesive diferprintr-o unitate, structura cluster cu nivel mai nalt deagregare coninnd cu un cluster mai puin dect structura cluster precedent.

    Cu ct nivelul de agregare al structurilor cluster este mai ridicat, cu att similaritile dintre obiectele unui cluster sunt maireduse, adicclusterele sunt mai eterogene. Acest lucru se explicprin faptul cun cluster de la un nivel de agregare mai naltco nine un numr mai mare de ob iecte dect un cluster de la un nivel de agregare mai redus.

    n funcie de condiiile iniiale de la care se pornete n construirea structurilor cluster i de sensul n care se desfoarconstruireaacestora, algoritmii de clasificare de tip ierarhic pot fi mprii n doumari categorii:

    algoritmi de clasificare prin agregare, amalgamare sau combinare; algoritmi de clasificare prin dezagregare sau divizare.

    Algoritmii de dezagregare construiesc clusterele ntr-o manier descendent, pornind cu toate obiectele ntr-un singur cluster icontinund, prin divizarea succesiva acestuia, pnla obinerea unor clustere care conin cte un singur obiect.

    Algoritmii de agregare sau de amalgamare construiesc clustere ntr-o manierascendent, pornind de la clustere care conin cte unsingur obiect i continund, prin comasare succesiva clusterelor, pnla obinerea unui cluster care include toate obiectele.

    n cazul procedurilor de clasificare prin agregare, n fiecare pas se comaseazntr-un singur cluster fie douobiecte, fie un obiect iun cluster, fie douclustere diferite. n fiecare etapa procedurilor divizative, un cluster este divizat fie sub forma a douclustere, fie subforma unui cluster i unui obiect, fie sub forma a douobiecte.

    Numrul de pai necesari pentru obinerea unei soluii cluster de tip ierarhic depinde de numrul de obiecte supuse clasificrii i estediferit pentru cele doucategorii de metode de clasificare ierarhic.

    Procesele de agregare i de dezagragare a clusterelor, specifice celor doucategorii de proceduri de clasificare ierahic, presupunutilizarea unor metode specifice de evaluare a distanelor dintre clustere.

    8.6.4.1.1 Metode de clasificare ierarhicprin agregare

    Algoritmii de agregare sau amalgamare se bazeazn mod exclusiv pe eva luarea disimilaritilor dintre clustere, adicpeevaluarea de distane intercluster. Datoritsimplitii lor, rezultatdin naturaleea ideii de comasare, algoritmii de agregare suntmai frecvent utilizai n activitile de clasificare, n comparaie cu algoritmii bazai pe dezagregare. Indiferent de tipulalgoritmului concret care este utilizat, n orice procedurbazatpe agregare construcia arborelui ierarhicde clustere presupuneparcurgerea urmtoarelor etape generale:

    iniial se pornete cu un numr de clustere egal cu numrul de obiecte, fiecare cluster fiind alctuit dintr-un singurobiect, respectiv:

    ;

    ulterior, de-a lungul a mai multor etape, clusterele iniiale sunt succesiv agregate n vederea obinerii unor clase din cen ce mai complexe. Numrul total de etape ale procedurii este egal cu . Agregarea este fcutpe baza unei msuri

    de disimilaritate ntre clusterele existente la un mo ment dat, respectiv pe baza une ia dintre distanele specifice. n fiecareetap, pe care o vom nota cu t, sunt agregate doar douclustere, respectiv acele clustere pentru care distana dintre ele este

    minim, n comparaie cu distanele dintre orice douclustere existente n acea etap. Aceastdistanse numete distande agregarei poate fi definitastfel:

    ,

    unde reprezintn umrul de clustere existente n etapa t. Cele douclustere care se comaseazntr-unul singur sunt

    clusterele pentru care se obine distana de agregare. Distana de agregare se numete prag de agregarei este specificfiecrei etape ntre care existo distanegalcu distana de agregare. Structura cluster obinutn etapa t este de forma:

    .

    Pe msura construirii ierarhiei cluster, pragul de agregare crete continuu, iar numrul de clustere se reduce cu 1 nfiecare etap. Ca urmare a relaxrii succesive a pragului de agregare, gradul de agregare a obiectelor n clustere cretecontinuu.

    n ultima etapa agregrii toate obiectele sunt incluse ntr-un singur cluster, respectiv:.

    Aceastprocedurde clasificare pe bazde agregare este comuntuturor algoritmilor din aceastcategorie. Diferenele

  • 7/23/2019 Recunoasterea formelor

    18/30

    92

    dintre algoritmii de clasificare ierarhicprin agregare sunt date doar de modul specific n care sunt evaluate distanele dintreclustere.

    n cadrul figurii urmtoare sunt vizualizate etapele necesare pentru o clasificare de tip ierarhic prin metode de agregare.

    Etapa 0 Etapa 1 Etapa 2 Etapa 3 Etapa 4Figura 8.8: Ilustrarea grafica etapelor clasificrii ierarhice prin agregare

    Evaluarea distanelor dintre clusterele obinute la un moment dat din desfurarea analizei cluster de tip agregare ierarhic,exceptnd prima etapn care clasele sunt alctuite din cte un singur obiect, poa te fi fcutfolosind oricare dintre metodelede msurare a distanelor dintre clustere, metode prezentate anterior.

    Spre deosebire de cazul clasificrii ierarhice prin agregare, n cazul procedurii bazate pe dezagregare se procedeaz oarecum invers. Se pornete cu un cluster care include toate obiectele i din acesta sunt difereniate clustere din ce n ce maimici, pncnd se obin clustere formate din cte un singur obiect.

    Datoritfaptului ctehnicile de clusterizare bazate pe agregare sunt cele mai frecvent utilizate, vom prezenta n continuarepr inc ipa lele tipur i a le acestora. Construirea arborilor de clu stere prin dezagregare este simila rcelei obinute prin agregare.

    n funcie de tipul distanelor utilizate pentru agregarea clusterelor, existpatru metode euristice de clasificare ierahic:metoda agregrii simple, metoda agregrii complete, metoda agregrii medii, metoda centroiduluii metoda lui Ward saumetoda varianei.

    8.8.4.1.1.1 Metoda agregrii simple

    n analiza cluster bazatpe agregare simplafectarea unui obiect la un cluster se face numai dacacel obiect are un anumitgrad de disimilaritate cu unul dintre obiectele care aparin deja clusterului. Clusterizarea de acest tip se m ai numete i analizclu