data mining pjesa 1

28
Hyrje Teknologjia e ditëve të sotme bën të mundur që të ruhen sasi të konsiderueshme të dhënash. Gjetja dhe përmbledhja e modeleve, tendencave dhe anomalive të këtyre bashkësive të dhënash është një nga sfidat më të mëdha të kohës. Kohët e fundit data mining ka qenë tema kryesore e trajtuar në shumë artikuj shkencorë apo libra voluminozë. Por duhet thënë se vetëm pak vjet më parë, shumë pak njerëz e njihnin kuptimin e termit data mining. Në dekadën e fundit është vënë re një progres marramendës i data mining dhe njohurisë makinë. Gërshetimi i statistikës, njohurisë makinë, teorisë së informacionit dhe programimit ka krijuar një shkencë solide me një bazë të gjërë matematikore dhe mjete ( tools ) shumë të fuqishme. Eshtë kjo arsyeja që paraqitja e këtij progresi është e një rëndësie të veçantë. Ky është një moment shumë i rëndësishëm në sintezën e data mining: analizimi i të dhënave, teorisë së informacionit dhe njohurisë makinë . Ajo çka do të paraqitet nëpërmjet kësaj lënde janë pikërisht konceptet bazë të data mining dhe implementimit të tyre nëpërmjet skemave praktike të njohurisë makinë. Do të trajtohet teoria e nxjerrjes automatike të modeleve nga të dhënat dhe vlerësimi i këtyre modeleve. Do të shpjegohen llojet e ndryshme të modeleve ( pemët e vendimit, rregullat dhe modelet lineare ) dhe përdorimi i tyre në praktikë. Secila prej çështjeve do të trajtohet duke u mbështetur në shembuj konkretë. Ata janë marrë nga jeta reale, pasi fusha e aplikimit të data mining është shumë e gjërë. Ajo përfshin shkencat natyrore, ekonomike, shkencat sociale, apo inxhinierike duke arritur deri tek sporti. Pra shtrihet në çdo aspekt të jetës, sepse kudo lind nevoja e nxjerrjes së “ thelbit “ të të dhënave që zotërohen. 1.1.Data mining dhe njohuria makinë. 1

Upload: anonymous-rrgvqj

Post on 28-Jan-2016

76 views

Category:

Documents


0 download

DESCRIPTION

Data Mining

TRANSCRIPT

Page 1: Data Mining Pjesa 1

Hyrje

Teknologjia e ditëve të sotme bën të mundur që të ruhen sasi të konsiderueshme të dhënash.

Gjetja dhe përmbledhja e modeleve, tendencave dhe anomalive të këtyre bashkësive të dhënash është një nga sfidat më të mëdha të kohës.

Kohët e fundit data mining ka qenë tema kryesore e trajtuar në shumë artikuj shkencorë apo libra voluminozë. Por duhet thënë se vetëm pak vjet më parë, shumë pak njerëz e njihnin kuptimin e termit data mining. Në dekadën e fundit është vënë re një progres marramendës i data mining dhe njohurisë makinë.

Gërshetimi i statistikës, njohurisë makinë, teorisë së informacionit dhe programimit ka krijuar një shkencë solide me një bazë të gjërë matematikore dhe mjete ( tools ) shumë të fuqishme. Eshtë kjo arsyeja që paraqitja e këtij progresi është e një rëndësie të veçantë. Ky është një moment shumë i rëndësishëm në sintezën e data mining: analizimi i të dhënave, teorisë së informacionit dhe njohurisë makinë.

Ajo çka do të paraqitet nëpërmjet kësaj lënde janë pikërisht konceptet bazë të data mining dhe implementimit të tyre nëpërmjet skemave praktike të njohurisë makinë.

Do të trajtohet teoria e nxjerrjes automatike të modeleve nga të dhënat dhe vlerësimi i këtyre modeleve. Do të shpjegohen llojet e ndryshme të modeleve ( pemët e vendimit, rregullat dhe modelet lineare ) dhe përdorimi i tyre në praktikë. Secila prej çështjeve do të trajtohet duke u mbështetur në shembuj konkretë. Ata janë marrë nga jeta reale, pasi fusha e aplikimit të data mining është shumë e gjërë. Ajo përfshin shkencat natyrore, ekonomike, shkencat sociale, apo inxhinierike duke arritur deri tek sporti. Pra shtrihet në çdo aspekt të jetës, sepse kudo lind nevoja e nxjerrjes së “ thelbit “ të të dhënave që zotërohen.

1.1.Data mining dhe njohuria makinë.

Ne jemi të mbingarkuar nga të dhënat. Sasia e këtyre të dhënave në jetën tonë vjen gjithmonë duke u rritur. Kompjuterat e sotëm e bëjnë shumë të thjeshtë procesin e ruajtjes së të dhënave. Tashmë ekzistojnë disqe me multigigabyte, që nuk janë të shtrenjtë, nëpërmjet të cilëve mund të zgjidhet mjaft thjesht ky problem. Në qoftë se ne duhet të ruajmë një sasi shumë të madhe të dhënash e nuk kemi më hapësirë në kujtesën e kompjuterit tonë, atëhere thjesht blejmë një disk të ri. Vendimet tona, zgjedhjet tona në një supermarket, gjendjet financiare, hyrjet, daljet, regjistrohen nga mjete elektronike, të cilat gjenden kudo. Çdo zgjedhje e bërë regjistrohet diku. Të gjitha këto janë zgjedhje personale dhe mund të përsëriten me mijëra herë në botën e tregtisë e industrisë.

Megjithatë ekziston një hendek mjaft i madh midis këtyre dy proceseve: gjenerimit të të dhënave dhe kuptimit të tyre. Fshehur brenda të dhënave qëndron një informacion mjaft i vlefshëm, i cili në qoftë se shfaqet në mënyrë eksplicite mund të jetë mjaft fitimprurës.

1

Page 2: Data Mining Pjesa 1

Kjo çka do të trajtohet më poshtë është pikërisht gjenerimi i modeleve nga të dhënat. Kjo nuk është diçka e re. Gjuetarët ndërtojnë modele mbi sjelljet e kafshëve, politikanët ndërtojnë modele mbi opinionet e votuesve, etj. Puna e një shkencëtari është t`u japë kuptim të dhënave, të ndërtojë modele prej tyre. Mbi këto modele të ndërtojë teori, në mënyrë që të mund të bëhen më pas vlerësime edhe në rastin e situatave të reja. Puna e një biznesmeni është të identifikojë mundësitë e reja, të ndërtojë modele në to, e t`i shfrytëzojë këto të fundit në mënyrën më fitimprurëse të mundshme.

Në data mining të dhënat ruhen në mënyrë elektronike dhe kërkimi në to është i automatizuar nëpërmjet kompjuterave. Edhe kjo nuk është diçka e re. Ekonomistët, parashikuesit e motit, inxhinierë telekomunikacioni kanë punuar mjaft mbi idenë e nxjerrjes në mënyrë automatike të modeleve, nga një bashkësi të dhënash për t`i përdorur për parashikime.

Ajo çka është e re është rritja e madhe e mundësive për të zbuluar modele nga të dhënat. Rritja e jashtëzakonshme e bazave të të dhënave vitet e fundit e ka bërë data mining një nga teknologjitë e reja më të përdorura. Eshtë arritur në përfundimin se sasia e të dhënave , që ruhen nëpër baza të dhënash, nëpër botë, dyfishohet çdo njëzetë muaj. Meqënë se sasia e të dhënave shtohet nga dita në ditë dhe makinat, që mund të kryejnë veprime me to janë bërë diçka e zakonshme, mundësitë për të përdorur data mining rriten. Të dhënat kur analizohen në mënyrë inteligjente, janë një burim mjaft i vlefshëm.

Data mining është proces i zgjedhjes së problemeve duke analizuar të dhënat ekzistuese në bazat e të dhënave.

Supozojmë se duhet të përcaktojmë se cilët blerës në një supermarket janë të ndershëm, e cilët jo. Çelësi i zgjidhjes së problemit qëndron në një bazë të dhënash, e cila ruan zgjedhje të secilit blerës së bashku me një profil të detajuar. Modelet e sjelljeve të blerësve të mëparshëm mund të analizohen për të identifikuar karakteristikat dalluese të blerësve të ndershëm dhe atyre jo të ndershëm. Në momentin që këto karakteristika dalluese përcaktohen, ato mund të përdoren për të identifikuar blerësit që mund të vjedhin. Këta të fundit do të mbikqyren më tepër se sa blerësit e tjerë. E njëjta teknikë mund të përdoret për të përcaktuar blerësit që parapëlqejnë një produkt të caktuar në mënyrë që t`ju bëhet një ofertë speciale. Në ditët e sotme, kur konkurenca është shumë e madhe, të dhënat janë elementi më i vlefshëm që çon në rritjen e ekonomisë.

Data mining është përcaktuar si procesi i zbulimit të modeleve të të dhënave.

Procesi mund të jetë automatik ose gjysmë automatik.- Si paraqiten këto modele?

Modelet paraqiten në trajtën e të ashtuquajtur “ modele strukturë”, sepse ato tregojnë strukturën e vendimit në një mënyrë eksplicite. Me fjalë të tjera, ato ndihmojnë të kuptojmë diçka nga të dhënat që ne kemi. Teknikat që shërbejnë për të ndërtuar modelet e strukturës realizohen nga një fushë e njohur si “ njohuria makinë”.

2

Page 3: Data Mining Pjesa 1

Modelet e strukturës:

Përgjigja e pyetjeve si: - “ Ç`janë modelet e strukturës?”; - “ Ç`farë forme kanë ata?” – do të jepet nëpërmjet ilustrimeve dhe jo nëpërmjet

përkufizimeve formale.

Tabela 1.1 Të dhënat e lenteve të kontaktit

Mosha Diagnoza Astigmatizmi Shkalla e prodhimit të lotëve

Lentet e rekomanduara

E re Miop Jo E zvogëluar AsgjëE re Miop Jo Normale Të butaE re Miop Po E zvogëluar AsgjëE re Miop Po Normale Të fortaE re Hipermetrop Jo E zvogëluar AsgjëE re Hipermetrop Jo Normale Të butaE re Hipermetrop Po E zvogëluar AsgjëE re Hipermetrop Po Normale Të fortaParapresbiopi Miop Jo E zvogëluar AsgjëParapresbiopi Miop Jo Normale Të butaParapresbiopi Miop Po E zvogëluar AsgjëParapresbiopi Miop Po Normale Të fortaParapresbiopi Hipermetrop Jo E zvogëluar AsgjëParapresbiopi Hipermetrop Jo Normale Të butaParapresbiopi Hipermetrop Po E zvogëluar AsgjëParapresbiopi Hipermetrop Po Normale AsgjëPresbiopi Miop Jo E zvogëluar AsgjëPresbiopi Miop Jo Normale AsgjëPresbiopi Miop Po E zvogëluar AsgjëPresbiopi Miop Po Normale Të fortaPresbiopi Hipermetrop Jo E zvogëluar AsgjëPresbiopi Hipermetrop Jo Normale Të butaPresbiopi Hipermetrop Po E zvogëluar AsgjëPresbiopi Hipermetrop Po Normale Asgjë

Tabela 1.1. tregon kushtet në të cilat një okulist vendos të këshillojë lente kontakti të forta, lente kontakti të buta, apo të këshillojë që të mos vendosen lente kontakti. Secili nga rreshtat e tabelës është një shembull. Pjesë e përshkrimit të strukturës të këtij informacioni do të ishte:

3

Page 4: Data Mining Pjesa 1

Në qoftë se shkallë prodhim loti = “ zvogëluar” atëhere Rekomandimi = “ asgjë”.

Përndryshe: kur mosha = e re dhe astigmatic = jo atëhereRekomandimi = “ e butë”...

Përshkrimi strukturor mund të mos jetë në trajtën e rregullave si më sipër. Një mjet tjetër mjaft popullor janë edhe pemët e vendimit, të cilat specifikojnë rrugën që duhet bërë deri sa të arrihet në një rekomandim të caktuar.

Shembulli i mësipërm është mjaft i thjeshtuar. Si fillim në tabelë janë paraqitur të gjitha kombinimet e mundëshmë të vlerave. Kemi 24 rreshta, të cilët përfaqësojnë 3 vlerësimet e mundshme të moshës, 2 të sëmundjeve ( miopi, hipermetropi, astigmatizmin dhe shkallën e prodhimit të lotëve ( 3 x 2 x 2 x 2 = 24 ).

Rregullat do të shërbejnë për të përmbledhur të dhënat.

Së pari: Në shumicën e situatave bashkësia e shembujve nuk është e plotë, dhe pjesë e punës që duhet bërë është t`i përgjithësojmë të dhënat për shembujt e rinj. Në qoftë se në tabelën 1.1. do të mungonin disa nga rreshtat ku shkalla e prodhimit të lotëve është “e zvogëluar”, atëhere n.q.s ne do të arrinim përsëri në një rregull:

Në qoftë se shkallë prodhim loti = “ zvogëluar” atëhereRekomandimi = “asgjë”

Ky i fundit do të përgjithësonte drejt rreshtat që mungonin dhe do t`i mbushte ata me një informacion korrekt.

Së dyti: vlerat janë specifikuar për të gjitha shembujt. Bashkësitë e të dhënave reale për një arsye apo një tjetër përmbajnë shembuj në të cilët disa veçori nuk kanë vlerë. Duhet të kemi parasysh se rregullat e mësipërme i klasifikojnë shembujt në mënyrë të drejtë, por shpesh, për shkak të gabimeve apo “zhurmave” në të dhëna, klasifikimi mund të mos jetë i drejtë.

Data miningTë gjitha teknikat, që do të përshkruhen më poshtë përfshihen në atë që quhet

njohuri makine. Data mining është diçka praktike dhe jo teorike. Ne jemi të interesuar për teknikat që gjejnë dhe përshkruajnë modele strukturore të të dhënave. Këto teknika do të shërbejnë si mjete që të ndihmuar në shpjegimin e të dhënave dhe në bërjen e parashikimeve të ndryshme në bazë të tyre të dhënat do të jenë në trajtën e shembujve. Shembuj për blerës të ndershëm apo jo për shembull. Apo situata të ndryshme në të cilat këshillohet ose jo vendosja e lenteve të kontaktit. Output-i do të jetë në trajtën e parashikimeve , ç’do të ndodhë në rastin e shembujve të rinj “Si do të sillet një blerës i caktuar ?” apo “Çfarë lentesh do të vendosen ?”

Shumë teknika të njohurisë makinë japin si output një bashkësi rregullash ose pemë vendimi. Ky output shërben për të kuptuar shembujt ekzistues dhe gjithashtu për të bërë parashikime për të ardhmen.

4

Page 5: Data Mining Pjesa 1

1.2.1. Disa shembuj të thjeshtë.

Më poshtë do të trajtohen mjaft shembuj e kjo për faktin e thjeshtë se data mining është pikërisht përfitimi i njohurive nga shembujt. Shembujt do të jenë nga fusha të ndryshme për të treguar gamën e madhe të përdorimit të data mining dhe teknikave të saj. Në fakt nevoja për të punuar me bashkësi të dhënash të ndryshme është po aq e madhe sa edhe ajo për të patur qindra shembuj të të njëjtit problem për të testuar dhe krahasuar algoritme të ndryshme në to.

Ilustrimet do të jenë thjeshtëzuara. Aplikacionet serioze të data mining përmbajnë në të vërtetë qindra, qindra-mijëra, apo dhe miliona raste individuale. Por në rastin e algoritmave, për të shpjeguar çfarë bëjnë dhe se si funksionojnë, mjaftojnë shembujt e thjeshtë nëpërmjet të cilëve të kapet esenca e problemit. Këta shembuj duhet të kenë një madhësi të caktuar ( jo shumë të vogël), në mënyrë që çdo detaj të jetë i kuptueshëm. Ilustrimet do të jenë të tipit “ akademik “ , pra do të ndihmojnë të kuptohet se çfarë po ndodhë.

Problemi i motit:

Problemi i motit është një bashkësi të dhënash, e cila do të përdoret shpesh për të ilustruar metodat e ndryshme të njohurisë makinë. Në këta shembuj do të studiohen disa kushte të caktuara në të cilat mund “ të luajmë “ ose “ jo “.

Tabela 1.2 Të dhënat e motit

Parashikimi Temperatura Lagështia Era LuajMe diell Engrohtë E lartë Jo e vërtetë joMe diell E ngrohtë E lartë E vërtetë joMe re E ngrohtë E lartë Jo e vërtetë poMe shi Mesatare E lartë Jo e vërtetë poMe shi E ftohtë Normale Jo e vërtetë poMe shi E ftohtë Normale E vërtetë joMe re E ftohtë Normale E vërtetë poMe diell Mesatare E lartë Jo e vërtetë joMe diell E ftohtë Normale Jo e vërtetë poMe shi Mesatare Normale Jo e vërtetë poMe diell Mesatare Normale E vërtetë poMe re Mesatare E lartë E vërtetë poMe re E ngrohtë Normale Jo e vërtetë poMe shi Mesatare E lartë E vërtetë jo

Në përgjithësi në një bashkësi të dhënash secila nga instancat karakterizohet nga vlerat përkatëse të veçorive apo atributeve siç quhen ndryshe. Në rastin konkret kemi katër attribute: perspektiva, temperatura, lagështia dhe era; dhe përfundimi është të luhet apo jo.

5

Page 6: Data Mining Pjesa 1

Në formën e tyre më të thjeshtëzuar, në tabelën 1.2, të katërt atributet kanë vlera simbolike dhe jo vlera numerike. Perspektiva mund të jetë: “ me diell “ ; “ me re “; ose “ me shi “. Temperatura mund të jetë: “vapë “, “ butë “ , “ ftohtë “. Lagështia mund të jetë: “ e lartë “, ose “ normale “; dhe era mund të marrë vlerat “ e vërtetë “ ose “ e gabuar “. Pra kemi 36 kombinime të mundëshmë ( 3 x 3 x 2 x 2 = 36 ), nga të cilat 14 janë prezantuar në bashkësinë e shembujve, 7 që do të shërbejnë si input. Një bashkësi rregullash që mund të nxirret nga këta shembuj, mund të ketë një trajtë të tillë:

Në qoftë se perspektiva = “ me shi “ dhe era = “ e vërtetë “ atëhere luaj= “ jo “.Në qoftë se perspektiva = “ me re “ atëhere luaj “ po “Në qoftë se lagështia = “ normale “ atëhere luaj “ po “.Në qoftë se asnjë nga të mësipërmet atëhere luaj “ po “.

Këto rregulla janë ndërtuar në trajtë të tillë që të zbatohen në mënyrë të njëpasnjëshme. Një bashkësi rregullash, që duhet të interpretohen në mënyrë sekuenciale shpesh quhet një listë vendimi.

Në qoftë se interpretohen si listë vendimi, rregullat e mësipërme klasifikojnë drejt të gjithë shembujt e tabelës. Ndërsa në qoftë se ato interpretohen në mënyrë individuale ( secila më vehte ), disa prej këtyre rregullave nuk do të jënë të vërteta. Për shembull rregulli: në qoftë se lagështia = “ normale” atëhere luaj “ po “ nuk përputhet me një nga shembujt e tabelës.

Kuptimi i një bashkësie rregullash varet pra nga mënyra se si këto të fundit interpretohen.

Tabela 1.3 Të dhënat e motit me disa attribute numerike.

Parashikimi Temperatura Lagështia Era LuajMe diell 85 85 False joMe diell 80 90 E vërtetë joI vrejtur 83 86 False poMe shi 70 96 False poMe shi 68 80 False poMe shi 65 70 E vërtetë jo

I vrejtur 64 65 E vërtetë poMe diell 72 95 False joMe diell 69 70 False poMe shi 75 80 False po

Me diell 75 70 E vërtetë poI vrejtur 72 90 E vërtetë poI vrejtur 81 75 False poMe shi 71 91 E vërtetë jo

Në rastin e një forme më komplekse në tabelën 1.3 dy atributeve temperaturës dhe lagështisë ju japim vlera numerike. Kjo do të thotë tashmë se testimi nuk do të bëhet thjesht

6

Page 7: Data Mining Pjesa 1

duke u mbështetur në barazime, por edhe në mosbarazime. Ky quhet një problem me attribute numerike. Më konkretisht, një peoblem me attribute mikse, sepse jo të gjitha atributet janë numerike.

Regulli i parë për tabelën 1.3 është i trajtës: Në qoftë se perspektiva = “ me diell “ dhe lagështia më e madhe se 85 atëhere luaj “

jo “.

Një proces më kompleks duhet të zhvillohet për të ndërtuar rregulla që përfshijnë teste numerike. Rregullat që kemi parë deri tani janë “ rregulla klasifikimi “ , ato parashikojnë klasifikimin e shembujve ( duhet të luhet apo jo. Në të njëjtën mënyrë mund të mos merret parasysh fare klasifikimi ( luhet apo jo ), por të kërkohen rregulla të cilat lidhin fort vlera të ndryshme të atributeve. Këto quhen “ rregulla bashkimi “. Shumë rregulla bashkimi mund të derivohen nga të dhënat për motin në tabelën 1.2. Disa mjaft të mira janë:

Në qoftë se temperature = “ ftohtë “ atëhere lagështia = “ normale “.Në qoftë se lagështia = “ normale “ dhe era = “ e gabuar “ atëhere luaj = “ po “; Në qoftë se parashikimi = “ me shi “ dhe luaj = “ jo “ atëhere lagështia = “ e lartë “.Në qoftë se era = “ e gabuar “ dhe luaj = “ jo “ atëherë perspektiva= “ me diell “ dhe

lagështia = “ e lartë “.

Të gjithë këto rregulla bëjnë parashikime të vërteta, ato janë 100% korrekte për të dhënat e shembullit tonë. Dy rregullat e para aplikohen në katër shembuj të bashkësisë së të dhënave, i treti në tre shembuj dhe i katërti në dy shembuj. Ka edhe shumë rregulla të tjera, përveç këtyre të paraqitura më lart. Në fakt mund të gjenden afërsisht 60 rregulla bashkimi të cilat mund të aplikohen në dy apo më shumë shembuj të të dhënave të motit dhe janë tërësisht të vërteta. Akoma më shumë rregulla do të gjejmë në qoftë se kërkojmë që vërtetësia e tyre të jetë më e vogël se 100%. Këto rregulla janë kaq të shumtë, sepse ndryshe nga rregullat e klasifikimit, rregullat e bashkimit mund të parashikojnë secilin nga atributet jo vetëm klasën e specifikuar dhe gjithashtu mund “ të parashikojnë “ më shumë se një atribut. Për shembull: rregulli i katërt parashikon dy attribute; perspektivën = “ me diell “ dhe lagështinë = “e lartë”

Lentet e kontaktit: Një problem i idealizuar Të dhënat e paraqitura më lart për lentet e kontaktit, tregojnë çfarë lentesh duhet të

vendosë një pacient në kushte të caktuara. Ky shembull është thjesht për ilustrim. Problemi është thjeshtëzuar mjaft dhe normalisht nuk do të përdoret për ndonjë diagnozë. Në kolonën e parë të tabelës 1.1. jepet mosha e pacientit. Presbiopia është një formë e përkeqësimit të të parit larg, që është karakteristike për moshën e mesme. Kolona e dytë jep diagnozën e mëparëshme, miopi apo hipermetropi. Kolona e tretë tregon në qoftë se pacienti është astigmatik apo jo, ndërsa e katërta lidhet me shkallën e prodhimit të lotit. Në këtë kontekst ky informacion është shumë i nevojshëm, pasi lotët lubrifikojnë lentet e kontaktit. Kolona e fundit tregon llojin e lenteve që rekomandohen: të forta, të buta apo asgjë. Në tabelë paraqiten kombinimet e mundshme të të gjitha atributeve.

Një bashkësi e thjeshtë rregullash të nxjerra nga informacioni i tabelës 1.1 është paraqitur në figurën1.1.

7

Page 8: Data Mining Pjesa 1

Figura 1.1 Rregulla për lentet e kontaktit

Figura 1.2 Pema e vendimit për të dhënat e lenteve të kontaktit.

Kjo është një bashkësi e madhe rregullash, por ajo i klasifikon në mënyrë korrekte të gjithë shembujt. Rregullat janë të plota dhe deterministe; ato japin një rekomandim të vetëm për secilin nga shembujt. Përgjithësisht nuk ndodh kështu. Ka raste kur nuk ekziston asnjë rregull, apo raste të tjera , kur ekzistojnë dy apo më shumë , duke çuar kështu në rekomandime të ndryshme për të njëjtin pacient. Shpesh here rregullave të përftuar mund t`u bashkangjiten probabilitete apo pesha, për të treguar se disa prej tyre janë më të rëndësishëm apo më të besueshëm se sa disa të tjerë. Këto rregulla nuk bëjnë gjë tjetër veçse përmbledhin informacionin e dhënë, duke e shprehur atë në një mënyrë më konçize. Kjo është mjaft e rëndësishme, megjithse nuk kalojmë në përgjithësime. Njerëzit shpesh përdorin teknikat e njohurisë makinë për të nxjerrë përfundime nga të dhënat që ata zotërojnë e jo për të bërë parashikime mbi rastet e rinj.

8

If shkalle prodhimi loti=e zvogeluar then rekomandimi=asgjeIf mosha=e re and astigmatic=jo and shkalle prodhimi loti=normale then rekomandimi=te butaIf mosha=presbiopik and diagnoza=miop and astigmatic=jo then rekomandimi=asgjeIf diagnoza=hipermetrop and astigmatic=jo and shkalle prodhimi loti=normale then rekomandimi=te butaIf mosha =e re and astigmatic=po and shkalle prodhimi loti=normale then rekomandimi=te forta………If mosha=presbiopik and diagnoza=hipermetrop and astigmatic=po then rekomandimi=asgje

Page 9: Data Mining Pjesa 1

Në fakt, një sërë kërkimesh premtuese dhe të suksesshme të njohurive makinë fillimisht u bënë për të kompensuar një database ( bazë të dhënash ) shumë të madhe, që përmbante gjithë kombinimet e mundshme dhe fondin e lojrave përkatëse të shahut. Struktura e të dhënave e përdurur në këtë rast ishte një pemë vendimi dhe jo një bashkësi rregullash. Figura 1.2. tregon një përshkrim struktural në formën e një peme vendimi për të dhënat e problemit të lenteve të kontaktit. Shpeshherë pemët e vendimit mund të jenë më konçize dhe të paraqiten më qartë sesa bashkësia e rregullave. Avantazhi i tyre është se ato mund të vizualizohen më shpejt. ( Gjithsesi në pemën e vendimit të figures 1.1. dy shembuj klasifikohen gabim ). Fillimisht në pemë testohet shkalla e prodhimit të lotëve dhe dy degët korespondojnë me dy mundësitë e vlerave të këtij atributi. Në qoftë se shkalla e prodhimit të lotëve është e zvogëluar ( dega e majtë ) rezultati është “ asgjë “ ( nuk vendosen lente kontakti ). Në rastin normal ( dega e djathtë ) bëhet një test i dytë, kësaj here mbi astigmatizmin. Në çdo rast, pavarësisht nga rezultati i testimit, arrihet në gjethe, të cilat tregojnë rekomandimin e mjekut për pacientin përkatës.

Irisi: Një bashkësi të dhënash numerike

Bashkësia e të dhënave të këtij shembulli i përket statisticienit të njohur R.A. Fisher ( mesi i viteve `30 ). Kjo është bashkësia më e famshme e të dhënave, e cila përdoret në data mining dhe përmban 50 shembuj mbi këto tre lloje bimësh: Iris setoza, Iris versikolor dhe Iris verxhinika ( tabela 1.4 ).

Tabela 1.4. Të dhënat e IrisitNr Gjatësia e

sepaleveGjerësia e sepaleve

Gjatësia e petaleve

Gjerësia e petaleve

Tipi

1 5.1 3.5 1.4 0.2 Iris setosa2 4.9 3.0 1.4 0.2 Iris setosa3 4.7 3.2 1.3 0.2 Iris setosa4 4.6 3.1 1.5 0.2 Iris setosa5 5.0 3.6 1.4 0.2 Iris setosa….51 7.0 3.2 4.7 1.4 Iris versikolor52 6.4 3.2 4.5 1.5 Iris versikolor53 6.9 3.1 4.9 1.5 Iris versikolor54 5.5 2.3 4.0 1.3 Iris versikolor55 6.5 2.8 4.6 1.5 Iris versikolor

101 6.3 3.3 6.0 2.5 Iris verginika102 5.8 2.7 5.1 1.9 Iris verginika103 7.1 3.0 5.9 2.1 Iris verginika104 6.3 2.9 5.6 1.8 Iris verginika105 6.5 3.0 5.8 2.2 Iris verginika

Në tabelën 1.4 kemi katër attribute: gjatësinë e sepaleve, gjërësinë e sepaleve, gjatësinë e petaleve, gjërësinë e petaleve. ( Të gjitha matjet janë në cm ). Ndryshe nga bashkësitë e mëparshme të të dhënave, këtu të gjithë atributet kanë vlera numerike. Nga kjo bashkësi të dhënash arrijmë në rregullat e mëposhtme:

Në qoftë se gjatësi e petaleve < 2.45 atëhere Iris setosa

9

Page 10: Data Mining Pjesa 1

Në qoftë se gjerësi – sepal < 2.45 dhe gjatësi – petal < 4.55 atëhere Iris versikolor. Më vonë do të shohim se si i njëjti informacion i këtyre rregullave mund të shprehet në mënyrë më kompakte.

Performanca e CPU-së: Hyrja në parashikimet numerikePavarësisht se bashkësia e të dhënave të Iris-eve kishte atribute numerike, rezultati

përfundimtar ishte një kategori e caktuar dhe jo një vlerë numerike. Tabela 1.5 tregon një bashkësi shembujsh, ku si atrbutet dhe rezultati marrin vlera numerike. Në këta shembuj vlerësohet performanca e kompjuterit në bazë të një sërë atributesh të rëndësishëm. Shembujt përfaqësojnë: Një nga 209 konfigurimet e ndryshme të kompjuterave.

Mënyra klasike e paraqitjes së rezultateve është nëpërmjet një shume lineare të atributeve, të cilët kanë edhe peshat e tyre përkatëse. Për shembull:

PRP = - 55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX + 0.6410 CACH – 0.2700 CHMH + 1.480 CHMAX. ( Në rastin e dytë të tabelës jepen shkurtimet e emrave të variablave ).

Ky quhet një ekuacion regresi, dhe procesi i përcaktimit të peshave quhet regres.

Këtu të gjitha të dhënat kanë vlera numerike. Situatat praktike zakonisht paraqesin një përzjerje të atributeve numerike dhe jo numerike.

Tabela 1.5 Te dhenat e performances se CPU-se cikli memorja e kryesore kashe kanalet performanca koha (ns) min max (kb) min max MYCT MMIN MMAX CACH CHMIN CHMAX PRP

1 125 256 6000 256 16 128 1982 29 8000 32000 32 8 32 269...208 480 512 8000 32 0 0 67209 480 1000 4000 0 0 0 45

Negociatat e punësimit : Nje shembull më realist.

Bashkësia e të dhënave në këtë shembull jepet nga tabela 1.6. Kjo është mbështetur në negociatat për punësim të mbi 600 personave të profesioneve të ndryshme ( mësues, infermierë, staf universitar, policë etj.). Secili nga shembujt ka të bëj me një kontratë dhe rezultati është në qoftë se kjo kontratë është e pranueshme apo jo. Kontratat e pranueshme janë ato për të cilat kanë qënë dakord të dy palët ( punëdhënësi dhe punëmarrësi ). Kontata të pa pranueshme janë ato, që nuk është pranuar nga njëra pale ose që janë pranuar, por që nga pikëpamja e ekspertëve nuk duhet të ishin pranuar.

Në bashkësinë e të dhënave ndodhen 40 shembuj ( plus 17 të tjerë që ruhen për qëllime testimi ).

Meqënëse numri i atributeve është shumë i madh tabela 1.6 është paraqitur ndryshe nga tabelat e tjera ( këtu kolonat janë bërë rrjeshta ), përndryshe kjo tabelë do të duhej të paraqitej në disa faqe.

10

Page 11: Data Mining Pjesa 1

Tabela 1.6Atributi Tipi 1 2 3

…40

Numri I viteve 1 2 3 2Përqindje 2% 4% 4.3% 4.5%Përqindje ? 5% 4.4% 4.0%

Viti I dytëPërqindje ? ? ? ?{ Jo,tcf, tc } Jo Tcf ? Jo

Orë pune në javë ( numri I orëve ) 28 35 38 40Pension { jo, Jo ? ? ?Pagesë direkte Përqindje ? 13% ? ?Punë suplementare Përqindje ? 5% 4% 4

{ po, jo } Po ? ? ?Pushime normale (numri I ditëve ) 11 15 12 12Pushime {poshtë-avg,avg,gen} Avg Gen Gen AvgAtributi Tipi 1 2 3

…40

{ po, jo } Jo ? ? PoAsistenca

{ jo, gjysmë, plotësisht} Jo ? Plotë Plotë{ po, jo } Jo ? ? Po { jo, gjysmë, plotësisht} Jo ? Plotë Gjysmë{ mire, keq } Keq Mirë Mirë Mirë

Shumë nga vlerat mungojnë ose janë të panjohura. Këto vlera paraqiten në tabelë me pikëpyetje. Kjo është një bashkësi vlerash më realiste se sa bashkësitë e vlerave të mëparëshme. Duket sikur në këtë rast nuk mund të bëhet një klasifikim i drejtë, sepse shumë vlera mungojnë.

Figura 1.3 tregon dy pemë vendimi për këtë bashkësi të dhënash. Figura 1.3.a është e thjeshtëzuar dhe e përafërt; të dhënat nuk paraqiten në mënyrë ekzakte. Për shembull mund të klasifikohen si të këqija disa kontrata që në të vërtetë janë të mira. Por kjo pemë vendimi ka kuptim nga ana intuitive: një kontratë është e keqe ( për puntorin ) në qoftë se rritja e rrogës vitin e parë është e vogël ( më pak se 2.5% ). Në qoftë se rritja e rrogës vitin e parë është më e madhe, është mirë në qoftë se ka shumë ditë pushimi ( më shumë se 10 ditë ). Edhe në qoftë se numri i ditëve të pushimit është më i vogël, kontrata është e mirë në qoftë se rritja e rrogës vitin e parë është mjaft e madhe ( mbi 4% ).

Figura 1.3.b paraqet një pemë vendimi më komplekse për të njëjtën bashkësi të dhënash. Në fakt ajo e përfaqëson më mirë bashkësinë e të dhënave të përdorura për të ndërtuar .

Gjithsesi , në qoftë se shikojmë degën e majtë nuk ka shumë kuptim që në qoftë se orët e punës janë më shumë sesa 36, kontrata e punës është e keqe nuk ka kontribute shëndetsore ,ose kontribute të plota shëndetsore. Por kjo kontratë është e mirë kur ka gjysëm kontribut shëndetësor . Nuk ka kuptim që kontrata të jetë e mirë kur ka gjysëm kontribut shëndetsor dhe e keqe kur ka ose nuk ka fare kontribut shëndetësor .Ky është një

11

Page 12: Data Mining Pjesa 1

fakt, që rrjedh nga vlerat e përdorura për të krijuar pemën e vendimit dhe që nuk përputhet me idenë e gjithësecilit për të dalluar “ të mirën” nga “ e keqja” .

Pema e figurës 1.3b mund të japë rezultate më të mira me të dhënat e përdorura nga klasifikuesi për ta ndërtuar atë, por sigurisht nuk do të jetë rezultative për një bashkësi të dhënash të tjera, të pavarura , që do të shërbejnë për ta testuar atë. Kjo dukuri quhet “mbipërshtatje“ me bashkësinë e të dhënave, që përdoren për të ndërtuar pemën, në rastin konkret.

Figura1.3 Peme vendimi per te dhenat e punësimit

<=2.5 >2.5

>10 <=10

(a) <=4 >4

<=2.5 >2.5

(b)

<=3.6 >3.6 >10 <=10

asgje gjysem i plote <=4 >4

12

Rritja e rroges vitin e pare

Ditet e pushimit

Rritja pas vitit te pare

E keqe

E keqe E mire

E mire

Rritja e rroges vitin e pare

Ore pune ne jave

Kontributetshendetesore

Rritja pas vitit te pare

Ditet e pushimeve

E keqe

E keqe E keqe E keqe E keqe E mire

E mire

Page 13: Data Mining Pjesa 1

Kasifikimi i sojës : një sukses klasik i njohurisë makinë.

Një sukses i hershëm i aplikimit të njohurisë makinë është problemi i identifikimit të rregullave për të diagnostikuar sëmundjet e bimës së sojës.

Të dhënat janë marrë nga libra ,që përshkrujnë sëmundjet e bimëve.Bimët vezhgoheshin për 35 atribute, secili prej të cilëve mund të merrte pak vlera të mundshme. Shembujt janë etiketuar me diagnozën e një eksperti të kësaj fushe . Ka 17 kategori sëmundjesh të ndryshme.

Tabela1.7 Te dhenat e sojes.

Atributi Numri i vlerave ShembullMjedisi Numri i ngjarjeve 7 Korrik Rreshjet 3 Mbi normen Temperatura 3 Normale Historiku 4 Si vitin e shkuar Demtime 2 Po Zona e demtuar 4 E izoluar Lartesia e pemes 2 Normale Rritja e pemes 2 Anormale Baktere 3 Me pak se 80%Frutat Gjendja e frutave 2 NormaleGjethet Gjendja 2 Anormale Madhesia e gjethes 3 Mungon E zverdhur 3 Mungon............

Kercelli Gjendja 2 Anormale Kancer 4 Pertej kufirit Ngjyra e kancerit 4 Mungon.........

Rrenja Gjendja 3 Normale

Diagnoza 19 Semundje e kercellit

Tabela 1.7 jep atributet, numrin e vlerave të ndryshme që ato mund të marrin dhe një rekord shembull secilën bimë. Atributet janë vendosur në kategori të ndryshme , në mënyrë që të jenë më të thjeshta për t`u lexuar .

13

Page 14: Data Mining Pjesa 1

Dy rregulla të përftuara nga këto të dhëna janë :Në qoftë se [gjendja e gjethes është normale dhe gjendja e kërcellit eshtë normale

dhe kalbëzimi i kërcellit është poshtë vijës së kufirit dhe kalbëzimi ka ngjyrë kafe] Atëhere Diagnoza është rhizoctonia e kalbjes së rrënjës.

If [dëmtimet e gjethes mungojnë and gjendja e kërcellit është anormale and kalbëzimi i kërcellit është poshtë vijës së kufirit and kalbëzimi ka ngjyrë kafe ]ThenDiagnoza është rhizoetonia e kalbjes së rrënjës.

Këto rregulla ilustrojnë rolin e madh që luajnë njohuritë e mëparshme me njohuritë makinë, shpesh ajo quhet njohuri zotëruese. Në fakt ,diferenca e vetme midis dy përshkrimeve është “gjëndja e gjethes është normale” dhe dëmtimet e gjethes mungojnë. Në këtë zotërim, në qoftë se gjëndja e gjethes është normale atëhere dëmtimet sigurisht që do të mungojnë, kështu që njëri nga këta kushte është rast i vecantë i tjetrit. Kështu në qoftë se rregulli i parë është i vërtetë, i dyti domosdoshmërisht do të jetë i vërtetë. Rregulli i dytë luan rol vetëm në rastin kur dëmtimi i gjethes mungon por gjendja e gjethes nuk është normale, pra kur ka diçka tjetër të ndryshme nga dëmtimi i gjethes , që nuk shkon. Kjo sigurisht nuk është e dukshme nga një lexim i rastësishëm i rregullave .

Kërkimet e bëra në fund të viteve `70 për këtë problem, gjetën se këto rregulla mund të zgjerohen nga një algoritëm njohurie makine. Shembujt që u përdorën për ndërtimin e rregullave ishin zgjedhur në mënyrë të kujdeshme nga një bashkësi rastesh që ishin të ndryshëm nga njëri-tjetri, mjaft “larg” në hapësirën e shembujve. Në të njëjtën kohë, u intervistua edhe pathologu i bimëve, i cili kishte dhënë diagnozat dhe ekspertiza e tij ishte shndëruar në rregullat e diagnostifikimit.Çuditërisht, kompjuteri gjeneroi rregulla të cilat ishin më të mira sesa ato që përdorte eksperti i kësaj fushe. Ato diagnostikonin drejt 97.5% të shembujve krahasuar me vetëm 72% të shembujve që diagnostikoheshin drejt nga rregullat e ekspertit .

1.3. Fusha e aplikimit.

Shembujt e mësipërm janë shembuj të nxjerrë nga projekte kërkimore, jo nga sisteme prodhimi. Dhe ilustrimet janë të thjeshtëzuar; ata janë zgjedhur qëllimisht të tillë në mënyrë që të mund të përdoren më vonë për të kuptuar algoritmet e ndryshme .

Cila është pika e fortë? Më e rëndësishme është që këto janë aplikime të njohurisë makinë, të cilat tashmë janë vënë në punë dhe funksionojnë mjaft mirë. Duke qënë aplikime të fushave të ndryshme, ilustrimet e mëposhtme tentojnë përdorimin e njohurisë makinë në situata nga më të veçantat. Theksi kryesor vendoset në faktin që këto aplikime të kenë një performancë mjaft të mirë edhe në shembujt e rinj. Gjithsesi nuk duhet lënë mënjanë edhe marrja e njohurive nga strukturat e vendimit, të cilat burojnë nga zbatimi i algoritmeve të ndryshme të data mining në të dhënat atribuese. Mendohet që është mjaft e rëndësishme përdorimi i teknologjisë si një mjet për të bërë parashikime me performancë të lartë. Në tre shembujt e mëposhtëm fakti që struktura e vendimit është e kuptueshme është veçoria kryesore në përdorimin e suksesshëm të skemës.

14

Page 15: Data Mining Pjesa 1

Vendimet që përfshijnë gjykimin.

Kur aplikohet për një kredi, duhet plotësuar një pyetësor me pyetje mbi gjendjen financiare dhe pyetje të karakterit personal. Ky informacion përdoret nga kompania që do të japë kredinë si bazë për të vendosur në qoftë se kredia do të jepet apo jo. Vendime të tilla zakonisht merren në dy faza. Fillimisht përdoren metoda statistikore për të përcaktuar rastet që dukshëm duhet të pranohen apo refuzohen për dhënie kredie. Rastet, të cilët ndodhen në vijën e kufirit janë më të vështirë dhe kërkojnë dhe gjykimin njerëzor.

Për shembull, një kompani kredie përdor procedura vendimi statistikore për të llogaritur një parameter numerik duke u bazuar nga informacioni i pyetësorit. Aplikuesve u jepet kredia në qoftë se ky parameter është mbi një kufi të sipërm dhe u refuzohet në qoftë se parametri është më i vogël se sa një kufi i poshtëm, dhe ky i përcaktuar. Këtu përfshihen 90% të rasteve ; 10% të rasteve të tjerë, që ndodhen ndërmjet dy kufijve i jepen personelit përkatës për të marrë një vendim. Ekzaminimi i të dhënave historike mbi kreditë e paguara apo jo, tregon se gati gjysma e aplikantëve që ndodhen në zonën e kufirit nuk e kthejnë kredinë. Një zgjidhje mjaft e lehtë do të ishte të mos u jepej kredi këtyre aplikuesve, por profesionistët e kësaj fushe mendojnë se janë pikërisht këta aplikantë prej të cilëve mund të përfitohet, sepse atyre u duhet të jenë mjaft aktive , që të kthejnë kredinë, sepse në të kundërt financat e tyre do të bllokohen. Duhet të arrihet një kompromis midis llogaritarëve të kompanisë që jep kredi, të cilët nuk i parapëlqejnë klientët e “ rrezikshëm” dhe drejtuesve të shitjeve, të cilët nuk parapëlqejnë refuzimin e mundësive për të dhënë kredi.

Hyn në lojë tani njohuria makinë. Si input u përdorën 1000 shembuj të kufirit, të cilëve u ishte dhënë kredia, duke specifikuar në qoftë se huamarrësi e kishte shlyer apo jo atë. Rreth 20 atribute u përdorën pyetsorët, si mosha, vjetërsia në punën e tanishme, koha e qëndrimit në qytetin e fundit, procedurat penale, numri i transaksioneve bankare, kartat e ndryshme të kreditit në zotërim, etj. Një nga teknikat e njohurisë makinë u përdor për të ndërtuar një bashkësi rregullash klasifikimi, të cilat parashikonin drejt dy të tretat ( 2/3 ) e shembujve të kufirit, në një bashkësi krejt të re shembujsh, të cilat u përdorën për testim. Këto rregulla të reja jo vetëm që rritën shkallën e parashikimeve, por gjithashtu ato ishin mjaft tërheqëse për kompaninë, sepse nëpërmjet tyre aplikuesve mund t`u shpjegoheshin dhe arsyet për vendimet e marra.

Kontrolli i imazheve.Që në fillim të teknologjisë satelitore, shkencëtarët ambientalistë u përpoqën që të

gjenin nga imazhet satelitore zonat e deteve dhe oqeaneve të ndotura me naftë, në mënyrë që të parandaloheshin katastrofat ekologjike dhe të ndaloheshin ndotjet ilegale. Satelitët mundësuan monitorimin e zonave bregdetare ditë-natë, pavarësisht nga gjendja e motit. Ndotjet e naftës në imazhet e marra nga sateliti duken si zona të errëta, madhësia dhe forma e tyre ndryshonin në varësi të kushteve të motit dhe detit. Gjithsesi zona të errëta të ngjashme me to mund të shkaktohen nga kushtet lokale të motit; p.sh. era shumë të forta. Dedektimi i ndotjeve është një proces shumë i shtrenjtë, i cili kërkon një personel mjaft të përgatitur.

Një sistem dedektimi rastësish u ndërtua për të studiuar imazhet satelitore. Ky sistem më vonë u përdor në çdo anë të globit, nga përdorues të ndryshëm; ( qeveri, agjensi, kompani të ndryshme etj. ) me objektiva aplikimi, hapësira gjeografike të ndryshme. Mjohuria makinë bëri të mundur që sistemi të mund të dedektonte zonat e ndotura dhe më pas këto ndotje duhet të konfirmoheshin dhe nga specialistët e peshës, sepse mund të kishte dhe alarme jo të vërtetë. Në ndryshim nga aplikimet e tjera të njhurisë makinë, të cilat gjenerojnë një klasifikues, i cili më pas zbatohet në fushën përkatëse, në këtë aplikim zbatohet vetë skema ( jo klasifikuesi ). Inputi jonë në këtë rast, imazhet e marra nga sateliti,

15

Page 16: Data Mining Pjesa 1

dhe outputi janë një bashkësi shumë më e vogël imazhesh me zona të mundshme ndotjeje me kufij të pa ngjyrosur. Fillimisht, veprohet mbi imazhin në mënyrë që ai të normalizohet. Më pas identifikohen zonat e errëta. Nga secili rajon nxirren një sërë atributesh, të cilat karakterizojnë madhësinë, formën, sipërfaqen, intensitetin, dhëmbëzimin e kufijve të zonave, ngjashmërinë me rajone të tjera, dhe informacion mbi përbërjen e tokës në zonat përreth. Më pas, mbi këta vektorë atributesh aplikohen teknikat standarde të njohurisë makinë. Në rastin e këtij shembulli janë hasur mjaft pengesa. Njëra prej tyre është pamjaftueshmëria e të dhënave. Ndotjet e naftës (fatmirësisht) janë shumë të pakta dhe klasifikimi manual është mjaft i kushtueshëm.

Një problem tjetër është natyra jo e balancuar e problemit; që do të thotë që nga shumë rajone të errëta, vetëm një pjesë shumë e vogël janë ndotje. Së treti, shembujt e ndryshëm mund të grupohen në mënyrë natyrale, por karakteristikat e përbërjes së teritorit variojnë nga një grup në një grup tjetër. Së fundmi, teknikat e njohurisë makinë këtu shërbejnë si një filtër, vetë përdoruesi i tyre duhet të pajiset me mjete të fuqishme për të dalluar alarmet e rreme.

Parashikimi i ngarkesës së rrjetit elektrik.Në fushën e energjisë është shumë e rëndësishme të përcaktohet sa më parë që të

jetë e mundur kërkesën për energji elektrike. Eshtë shumë e rëndësishme të bëhen vlerësime mjaft të mira për ngarkesën maksimale dhe minimale të rrjetit elektrik çdo orë, ditë muaj, stinë apo vit. Ka disa vite që përdoret një parashikues automatik mjaft i mirë, i cili parashikon ngarkesën e rrjetit dy ditë më vonë. Si fillim, ai përdor të dhënat e mbledhura 15 vitet e fundit, për të krijuar një model statistikor. Ky model përbëhet nga tre komponentë: Ngarkesa bazë e vitit, periodiciteti i ngarkesës gjatë vitit dhe efekti i ditëve të pushimit. Për të normalizuar ngarkesën bazë, të dhënat e çdo viti të mëparshëm standardizohen duke i zbritur ngarkesën mesatare të vitit çdo leximi të ngarkesës së orëve dhe duke pjestuar më pas me devijimin standard të të gjithë vitit. Periodiciteti i ngarkesës së rrjetit studjohet në tre forma: ditore, përdorimi i energjisë elektrike arrin minimumin në mëngjes herët dhe maksimumin në mesditë dhe pasdite; javore, kërkesa për energji elektrike është më e vogël në fundjavë, sezonale, ku kërkesa rritet gjatë dimrit dhe verës përkatësisht për ngrohje dhe freski, duke u krijuar kështu një cikël vjetor. Në rastin e ditëve të pushimit të rëndësishme siç janë Krishtlindjet apo Viti i Ri vërehet një rritje e ndjeshme e kërkesës për energji. Ndërsa në rastin e ditëve të pushimit më pak të rëndësishme vihet re një luhatje fare e vogël. Të gjitha këto efekte merren parasysh në parashikim.

Kështu që, modeli i ngarkesës së rrjetit elektrik është statik, i ndërtuar nga të dhëna historike dhe duke menduar për kushte moti “ normale” gjatë gjithë vitit. Hapi përfundimtar është marrja parasysh e kushteve klimaterike. Kjo bëhet nëpërmjet një teknike, e cila gjen, në të dhënat e kaluara ditët më të ngjashme me ditën për të cilën ne duam të bëjmë parashikimin. Në këtë rast parashikimi trajtohet si një korrigjim shtesë që i bëhet modelit statik. Gjenden tetë ditët më të ngjashme dhe më pas mesatarja e ngarkesës në këto ditë. Kjo bëhet për të arritur një rezultat akoma më të mirë. Ndërtohet një bazë të dhënash që përmban temperaturën, lagështinë, shpejtësinë e erës dhe sasinë e reve, për çdo orë të 15 viteve të fundit, së bashku me diferencën ndërmjet ngarkesës aktuale dhe asaj të parashikuar nga modeli statik. Një analizë regresi linear bëhet për të përcaktuar efektet relative të këtyre parametrave të ngarkesës dhe disa koeficientë përdoren për të dhënë peshat e funksionit të distancës së përdorur për të gjetur ditët më të ngjashme. Sistemi rezultat arrin të njëjtën performancë si dhe specialistët e kësaj fushe parashikimi. Por ai është shumë herë më i shpejtë. Atij i duhen sekonda dhe jo orë për të realizuar një parashikim të ngarkesës ditore.

16

Page 17: Data Mining Pjesa 1

Diagnostikimi i defekteve.Një nga fushat kryesore të aplikimit të sistemeve eksperte është ajo e diagnozave.

Megjithëse shpesh herë rregullat e gjeneruara nga ekspertë janë mjaft të mira, njohuria makinë vjen në ndihmë në situatat kur ndërtimi i rregullave manualisht kërkon një punë shumë të madhe. Mirëmbajtaja e mjeteve të ndryshme si motorët apo gjeneratorët mund të parandalojë prishjen e tyre dhe ndërprerjen e proçesit industrial. Teknikët inspektojnë rregullisht secilin nga mjetet, matin dridhjet në pikat të ndryshme për të përcaktuar nëse mjetet kanë nevojë për ndonjë shërbim. Defekte tipike janë: zhvendosjet e ndryshme nga boshti, zhvidhosjet, ç’balancimi i pompave, etj.

Defektet e të gjitha ketyre mjeteve duke filluar nga pompat e vogla deri në alternatorët-turbo, diagnostikohet nga një ekspert me experiencë 20- vjeçare në këtë fushë. Defektet identifikohen duke matur vibrimin në tre pika të ndryshme të mjetit gjatë montimit të tij e duke përdorur barzimin Furie për të përcaktuar energjinë në tre drejtime të ndryshme të secilës harmonikë të shpejtësisë të rrotullimit. Ky proces është mjaft i mërzitshëm për shkak të gabimeve në matje dhe procedurës së regjistrimit e cila kryhet nga eksperti për të arritur në diagnozë të caktuar.

Megjithëse rregullat e gjeneruara nga ekspertët janë mjaft të mira, ky proces duhet të përsëritet mjaft herë për të gjitha makineritë e llojeve të ndryshme. Në këtë pikë lindi nevoja e automatizimit të tij (procesit) nëpërmjet teknikave të njohurisë makinë. U shfrytëzuan 600 raste defektesh, secili prej të cilëve shoqërohej me bashkësinë përkatëse të matjeve dhe diagnozën e ekspertit. Ky ishte rezultat i një pune 20 vjeçare në këtë fushë. Rreth gjysma e këtyre rasteve u nxorrën jashtë përdorimit për shkak të arsyeve të ndryshme. Pjesa tjetër shërbeu si input për teknikat e njohurisë makinë. Qëllimi nuk ishte të përcaktohej në qoftë se një e metë ekzistonte apo jo, por të diagnostikohej lloji i të metës, duke ditur që ajo ekziston. Për këtë ishte e pa nevojshme që në input të përfshiheshin shembujt ku të metat nuk ekzistonin. Atributet e matura ishin të një niveli shumë të ulët, ata u përpunuan nëpërmjet funksioneve të ndryshme të dhëna nga ekspertët për të aritur në disa attribute të reja. Atrbutet e devijuara u manipuluan nga një algoritëm induktiv dhe prodhuan bashkësinë e rregullave të diagnostikimit. Megjithse rregullat e përftuara ishin mjaft komplekse, ekspertët ngelën të kënaqur, sepse ata mund t`i shpjegonin këto rregulla në dritën e njohurive të tyre mbi mekanikën. Një e trea e rregullave të reja përputhen me rregullat ekzistuese të përdorura nga ekspertët. Testi i performancës tregoi se këto rregulla ishin superiore ndaj atyre të mëparshme. Dhe ky rezultat u konfirmua nga përdorimi i tyre në industrinë kimike.

Marketingu dhe shitjet.Disa nga aplikacionet më aktive të data mining janë bërë për fushën e marketingut

dhe shitjeve. Në këto fusha kompanitë kanë një sasi shumë të madhe të dhënash të regjistruara në mënyrë preçize, të dhëna të cilat më pas shfrytëzohen në mënyrë të vlefshme. Në këto aplikime interesi bazë është parashikimi, se si arrihet në këtë të fundit nuk ka shumë rëndësi.

Ne tashmë e kemi përmendur problemin e ndershmërisë së blerësve në një supermarket. Bankat kanë qënë të parat që kanë adoptuar teknologjinë e data mining, si pasojë e suksesit të madh të saj në rastin e dhënies së kredive. Data mining tani ka filluar të pëdoret për të zvogëluar lidhjen stërmunduese të klientëve duke ndërtuar modele që parashikojnë ndryshime të tilla si: ndryshimin e bankës, ndryshimin e vendbanimit, etj. Mund të përcaktohen grupe klientësh të cilët i bëjnë porositë e tyre nga shtëpia apo grupe të tjerë për të cilët mendohet se një shërbim i caktuar është i nevojshëm. Të tillë si p.sh. klientë të cilët nuk marrin asnjëherë para kesh në avancë nga karta e tyre e kreditit, por

17

Page 18: Data Mining Pjesa 1

mund t`a bëjnë këtë, të gatshëm për të paguar norma të larta interesi, në Nëntor apo Dhjetor me rastin e festave. Një fushë tjetër është ajo e kompanive celulare, të cilat studiojnë sjelljet e konsumatorëve të tyre në bazë të këtyre të fundit, përcaktojnë se cilët klientë duhen lajmëruar për një shërbim të ri që do të kryhet nga kompania (lajmërohen klientët që mendohet se ju intereson ky shërbim i ri ).

Në qoftë se do të lajmëroheshin të gjithë klientët do të kishte një kosto të madhe. Data mining ndihmon në përcaktimin e grupeve të klientëve, nga të cilët mendohet se përfitimi do të jetë më i madh. Shumë teknika bashkimi tentojnë të gjejnë grupe artikujsh transaksionet e së cilëve realizohen së bashku. Për shumë shitës me pakicë ky është informacioni i vetëm i vlefshëm për data mining.

Për shembull në rastin e një supermarketi fakti që kur blihet një birrë blihen dhe patatina është diçka e dukshme, ( mbase nuk ka fare nevojë për ndihmë për teknikat e data mining në këtë rast ). Por teknikat e data mining arrijnë në përfundimin që të Premteve mjaft klinetë blejnë birrë dhe pelena së bashku. Kjo lidhet me faktin që prindërit e rrinj i kalojnë fundjavët në shtëpi me bebet e tyre. Një informacion i tillë mund të përdoret për qëllime të ndryshme si: limitimi i uljes së çmimit vetëm për njërin nga produktet që blihen së bashku, ofrimi i kuponave për produktin tjetër, kur blihet vetëm njëri prej produkteve, e kështu me rradhë. Një vlerë të jashtëzakonshme ka përcaktimi i historikut të blerjeve të secilit klient. Të dhënat që mund të mblidhen për një klient janë shpesh herë më të vlefshme se sa paratë e marra prej tij. Identifikimi i klientëve të veçantë jo vetëm që mundëson analizimin e ndërtimin e modeleve mbi sjelljet, por edhe bën të mundur përcaktimin e grupeve të cilëve duhet t`u bëhen oferta speciale për t`u shndëruar më pas në klientë të ardhshëm.

Kjo na çon drejt marketingut, një tjetër fushë mjaft popullore ku përdoret data mining. Ofertat promocionale janë mjaft të shtrenjta dhe të ngadalta në nxjerrjen e përfitimeve, por ato janë shumë të leverdisëshme. Çdo teknikë që bën të mundur fokusimin e promocioneve me anën e postës, duke arritur në një rezultat të njëjtë apo të përafërt është mjaft e vlefshme. Bazat e të dhënave komerciale përmbajnë informacionin demografik të bazuar në kodet e qyteteve, nëpërmjet të cilëve mund të nxirret një informacion mjaft i vlefshëm mbi llojet e klientëve që një shoqëri mund të ketë. Kjo bëhet nëpërmjet ndërtimit të një modeli social – ekonomik. Ky model mund të përdoret mbi informaconin e përftuar nga një promocion postar me përgjigje. Pra promocioni realizohet nëpërmjet postës dhe personat e interesuar mbi produktet kthejnë përgjigje pozitive për të marrë informacion të mëtejshëm. Në këtë mënyrë mund të parashikohet sasia e klientëve të ardhshëm. Nëpërmjet data mining mund të përcaktohen mjaft mirë klientët të cilët janë të gatshëm për t`ju përgjigjur ofertave speciale. Njohuria makinë na ndihmon në gjetjen e tyre.

Njohuria makinë dhe statistika.Cinikët, duke keqinterpretuar interesin e madh në këtë fushë vendosën shënjën e

barazimit midis data mining dhe statistikës plus marketingut. Në të vërtetë ne nuk duhet të kërkojmë një vijë ndarëse ndërmjet njhurisë makinë dhe statistikës. Ajo është një zgjerues, shumë dimensional, i teknikave të analizimit të të dhënave. Disa prej këtyre teknikave derivojnë nga njohuritë e fituara nga statistika standarde dhe të tjerat janë më afër njhurive të fituara nga zbatimi në shkencat kompjuterike i njohurisë makinë. Historikisht, si statistika dhe njohuria makinë kanë pasur tradita mjaft të ndryshme. Në qoftë se, përpiqemi të vendosim theksin në një ndryshim të vetëm, atëhere duhet të themi se statistika është e përqëndruar në testimin e hipotezave, ndërsa njohuria makinë në formulimin e procesit të gjeneralizimit ( përgjithësimit ) si një kërkim midis hipotezave të mundshme. Ky është një thjeshtëzim shumë i madh: statistika përfshin shumë më tepër

18

Page 19: Data Mining Pjesa 1

sesa testimi i hipotezave, ndërsa teknikat e njohurisë makinë nuk merren me ndonjë kërkim specific. Në të kaluarën, janë zhvilluar në paralel me njëra tjetrën skema mjaft të ngjashme të njohurisë makinë dhe statistikës. Një prej tyre është skema e pemëve të vedimit. Dy projekte të ndryshëm prodhuan skema mjaft të ngjashme për ndërtimin e pemëve të vendimit duke u mbështetur me shembuj të caktuar dhe studiuesit u njohën me punën e njeri-tjetrit shumë kohë më vonë. Një fushë tjetër, ku lindën metoda të ngjashme, është ajo e përdorimit të metodës së “fqinjit më të afërt” për klasifikim. Këto janë teknika standarde të statistikës, që janë përshtatur nga studiuesit e njohurisë makinë, për të përmirësuar performancën e klasifikimit dhe për të bërë më të thjeshtë veprimet që kryhen gjatë këtij procesi.Tashmë të dy fushat konvergojnë me një qëllim të vetëm. Shumë algoritme të njohurisë makinë përdorin teste statistikore për të ndërtuar rregullat apo pemët dhe për të korrigjuar modelet e “ mbipërshtatura “, të cilat lidhen shumë fort me detajet e shembujve të caktuar, nga të cilët ato janë ndërtuar; varen nga specifikat e shembujve, kështu që nuk mund të shërbejnë për procesin e përgjithësimit. Vlerësimi i modeleve të njohurisë makinë bëhet nëpërmjet testeve të ndryshëm statistikorë. Prandaj edhe studimi i data mining dhe teknikave të saj kërkon njohuri të mira statistikore.

19