melez yaklasimlarla turkce dokumanlarda yazar tanima author attribution of turkish documents with...

Upload: nurcan-ates

Post on 06-Apr-2018

226 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    1/56

    YILDIZ TEKNK NVERSTES

    FEN BLMLER ENSTTS

    MELEZ YAKLAIMLARLA

    TRKE DOKMANLARDA YAZAR TANIMA

    Filiz TRKOLU

    FBE Bilgisayar Mhendislii Anabilim Dal Bilgisayar Mhendislii Programnda

    Hazrlanan

    YKSEK LSANS TEZ

    Tez Danman : Yrd. Do. Dr. Banu DR

    STANBUL, 2006

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    2/56

    ii

    NDEKLER

    Sayfa

    KISALTMA LSTES ...............................................................................................................iv

    EKL LSTES ......................................................................................................................... v

    ZELGE LSTES ...................................................................................................................vi

    NSZ.....................................................................................................................................vii

    ZET.......................................................................................................................................viii

    ABSTRACT .............................................................................................................................. ix

    1. GR

    .......................................................................................................................1

    2. YAZAR TANIMA ALANINDA YAPILMI NCEK ALIMALAR .............3

    3. YAZARLIK ZELLKLER ..................................................................................8

    3.1 zellik Vektrleri .................................................................................................... 83.1.1 statistiksel zellikler ..............................................................................................83.1.2 Kelime Zenginliine Dayal zellikler ................................................................... 93.1.3 Dilbilgisi zellikleri .............................................................................................. 103.1.4 levsel Kelimeler .................................................................................................. 113.2 zellik Birletirme Yoluyla Oluturulan Vektrler ..............................................11

    3.3 zellik Azaltma Yoluyla Oluturulan Vektrler...................................................123.4 Klliyat ..................................................................................................................133.4.1 Klliyat - I .............................................................................................................143.4.2 Klliyat - II ............................................................................................................143.4.3 Klliyat - III...........................................................................................................14

    4. SINIFLANDIRMA YNTEMLER..................................................................... 15

    4.1 Naive Bayes...........................................................................................................154.2 Destek Vektr Makinesi DVM (Support Vector Machine SVM)...................174.2.1 Bire Kar Hepsi (One-Against Rest) .................................................................... 194.2.2 Bire Kar Bir (Pairwise) .......................................................................................19

    4.2.3 Ynlendirilmi evrimsiz izge (Directed Acyclic Graph) ................................. 194.3 K-En Yakn Komuluk K-EK (K-Nearest Neighbour- K-NN)..........................194.4 ok Katmanl Alglayc KA (Multiple Layer Perceptron MLP)................. 204.5 z Dzenleyici zellik Haritas DH (Self Organizing Map SOM).............214.6 Rastgele Orman RO (Random Forest - RF) .......................................................234.7 Korelasyon Tabanl zellik Seme ....................................................................... 244.8 Oylama (Vote) .......................................................................................................24

    5. DENEYSEL SONULAR.................................................................................... 26

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    3/56

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    4/56

    iv

    KISALTMA LSTES

    AADTT Automatic Author Detection for Turkish TextKA ok Katmanl AlglaycDVM Destek Vektr MakinesiK-EK K-Enyakn KomulukKTS Korelasyon Tabanl zellik Seme

    NB Naive BayesDH z Dzenleyici zellik HaritasRO Rastgele OrmanTKV Trke Kelime Veritaban

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    5/56

    v

    EKL LSTES

    Sayfa

    ekil 4.1 DVM yntemi ile dorusal snflandrma.........................................................18ekil 5.1 Rastgele Orman yntemi ile her klliyattan elde edilen snflandrma baar

    oranlar ..............................................................................................................31

    ekil 5.2 Naive Bayes snflandrcs kullanlarak her klliyattan elde edilen baaroranlar. .............................................................................................................32

    ekil 5.3 Destek Vektr Makinesi metodu ile her klliyattan elde edilen baaroranlar ..............................................................................................................33

    ekil 5.4 ok katmanl alglayc yntemi ile deney yapldnda klliyatlardan eldeedilen baar oranlar......................................................................................... 35

    ekil 5.5 K-Enyakn komuluk ile snflandrma yaplarak her klliyattan elde edilenbaar oranlar.................................................................................................... 36

    ekil 5.6 z dzenleyici zellik haritas yntemi ile her klliyattan elde edilen baaroranlar ..............................................................................................................37

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    6/56

    vi

    ZELGE LSTES

    Sayfa

    izelge 2.1 Yazar tanma alannda yaplan almalarn karlatrmas ...............................6izelge 3.1 zellik saylar indirgenmi olan yeni zellik vektrleri..................................13izelge 3.2 Klliyat ierisinde yer alan yazarlar ................................................................. 13

    izelge 5.1 Klliyat-I zerinde elde edilen snflandrma baarlar ................................... 27izelge 5.2 Klliyat-II zerinde elde edilen snflandrma baarlar .................................. 29izelge 5.3 Klliyat-III zerinde elde edilen snflandrma baarlar................................. 30izelge 5.4 Klliyat-I iin snflandrc birletirme sonular ............................................38izelge 5.5 Klliyat-II iin snflandrc birletirme sonular ...........................................39izelge 5.6 Klliyat-III iin snflandrc birletirme sonular..........................................40izelge 6.1 Yntemlerden alnan en baarl sonular ve bu sonular veren zellik

    vektrleri........................................................................................................... 41izelge 6.2 Snflandrc birletirilerek elde edilen en iyi sonular, klliyat ve zellik

    vektrleri ...........................................................................................................42

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    7/56

    vii

    NSZ

    Yapay Zekann bir dal olan Doal Dil leme alannda yaplm olan bu almann amac,yazar belli olmayan dokmanlarn yazarn bulmaya almaktadr. alma, Trkedokmanlar zerinde farkl zellikler karlarak eitli snflandrma yntemleriyledokmann ait olduu snf bulmaya dayanmaktadr. Ayrca, bu zellik ve yntemlerin

    birletirilmi halleri de snflandrma yaplrken analiz edilmitir. Bu alma, Trkedokmanlar iin yazar tanma alannda yaplm bu gne kadarki en kapsaml almadr.

    almam boyunca hi eksik etmedii motivasyonu ve zaman ynetimi, ynlendirmesi,esirgemedii yardm iin ve zamann bana tm titizliiyle ayrd iin Yrd.Do.Dr.BanuDiriye teekkr ederim.

    Desteini pratik zmlere dntrerek yol almamdaki yardmlar iin Ar.Gr.M.FatihAmasyalya teekkr ederim.

    Bu uzun alma boyunca bana kar hep anlayl ve sevgi dolu olan aileme ve arkadalarmada sonsuz teekkr ederim.

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    8/56

    viii

    ZET

    nternetin yaygnlamasyla elektronik ortamdaki dokman says olduka artmtr. Gittikeartan bu bilgiye daha kolay ve hzl erimek amacyla metin snflandrma nemkazanmaktadr. Son yllarda, metin snflandrma alannda yaplan almalarn bir ksm,yazar tanma ad verilen ve anonim bir metnin yazarn veya yazarpheli olan bir metninyazarn belirlemeyi amalayan almalar kapsamaktadr.

    Bu almada, Trke dokmanlarn yazarlarnn belirlenmesinde farkl zelliklerin vesnflandrclarn performansa etkileri aratrlmtr. Dokmanlarn istatistiksel, dilbilgisel,kelime zenginliine dayal zellik vektrleri karlmtr. Ayrca Trke dokmanlar iin ilkdefa, ilevsel kelimelerin frekanslar karlarak ayr bir zellik vektr daha oluturulmutur.Sonraki aamada seilen baz vektrler birletirilerek yeni zellik vektrleri oluturulmutur.Sistemin renmesine etkisi olmayan veya ayrt edici zellii fazla bulunmayan zelliklerielemek amacyla, zelllik azaltma metodu uygulanarak yeni vektrler elde edilmitir.Sonuta, 14 farkl zellik vektr oluturulmu ve bunlar ile denemeler yaplmtr.

    Kullanlan klliyat, salk, gndem, ekonomi gibi farkl konularda yazan 18 yazara ait, 35adet dokman alnarak 630 metinden olumaktadr. Farkl dokman gruplarnn, farklkonularda yazlan metinlerin ve yazar saysnn baarya olan etkisini gzlemlemek amacyla3 farkl klliyat grubu oluturulmutur. Tm deneylerde 10-kat apraz geerlilikuygulanmtr.

    Yazar belirlemede hangi zellik veya zellik birleimlerinin daha baarl olduunu analizetmek amacyla alt farkl snflandrma metodu kullanlarak performanslar karlatrlmtr.Bu metodlar Naive Bayes, Destek Vektr Makinesi, Rastgele Orman, K-Enyakn Komuluk,ok Katmanl Alglayc ve z Dzenleyici zellik Haritas dr. Snflandrc birletirmeileminin performansn gzlemlemek amacyla, Naive Bayes, Destek Vektr Makinesi ve

    Rastgele Orman yntemleri birletirilmitir.

    Yaplan denemelere gre, en baarl sonular, yazar saysnn az olduu ve farkl konulardakiyazlardan oluan klliyattan elde edilmitir. Tm zelliklerin birletirilmesinden oluanzellik vektr, dierlerine gre daha iyi performans gstermi ve en yksek baar orannok Katmanl Alglayc yntemi vermitir. Birletirilmi snflandrclar ile bireyselsnflandrclara gre daha dk baar sonular alnmtr.

    Anahtar kelimeler: Yazar tanma, metin snflandrma, zellik seme, snflandrcbirletirme, Naive Bayes, Destek Vektr Makinesi, Rastgele Orman, K-Enyakn Komuluk,ok Katmanl Alglayc ve z Dzenleyici zellik Haritas.

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    9/56

    ix

    ABSTRACT

    There are numerous text documents available in electronic form. With the rapid growth ofonline information, text categorization has become one of the best automated techniques forhandling, organizing text data. During the last decades, many classification tasks that arecalled author attribution were studied for identifying the author of an anonymous text, or textwhose authorship is in doubt.

    In this study the effect of different features and classifiers on performance of authorattribution of Turkish texts are explored. Different vectors of statistical, grammatical, richnessfeatures are generated. Also a set of function words were applied on Turkish documents forthe first time. All feature sets are combined and new vectors are obtained. In order to escapefrom features that are not relevant and beneficial for learning, feature selection method isapplied over features and new vectors are formed from these reduced features. In the end weobtained 14 different feature vectors.

    Corpus used in this work is formed from singly-authored 630 documents obtained from 35

    texts per 18 different authors that are writing on different subjects like medical, popularinterest and economics. To determine the capability of identifying authorship forheterogeneous documents, and different dataset sizes, this corpus is divided into 3 parts:Dataset I, Dataset II, Dataset III. Experiments are run 10-fold cross-validation on all datasets.

    To analyse which features or feature combinations are successful for identifying the author ofa document, comparative performance of six different classification methods are used. Thesemethods are Naive Bayes, Support Vector Machine, Random Forest, Multilayer Perceptron,k-Nearest Neighbour and Self-organizing Feature Vector. We combined Random Forest,

    Naive Bayes and Support Vector Machine in order to analyse success ratio in proportion tosingle classifiers.

    According to experimental results, most successful results are obtained from corpus of whichauthor count is less and documents are written on different topics. Feature vector which iscombined from all features gives better performance than others. Highest score is obtainedfrom Multilayer Perceptron method. Combined classifiers gave poor results in proportion tosingle classifiers.

    Keywords: Authorship attribution, text classification, feature selection, combining classifier, Naive Bayes, Support Vector Machine, Random Forest, Multilayer Perceptron, K-NearestNeighbour, Self-Organizing Feature Vector.

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    10/56

    1

    1. GRWebin yaygnlamas, bilgisayarlarn gelimesi ile elektronik metinlerin says her geen gn

    artmaktadr. Bu elektronik verilere daha hzl, kolay ve doru bir ekilde eriebilmek iin

    dokmanlarn otomatik olarak snflandrlmas nem kazanmaktadr.

    Yapay Zeka teknolojisi gn getike daha fazla hayatmza girmekte ve daha ileri rnlerle

    gelimeye devam etmektedir. Bu teknolojilerden yapay sinir alar, bilgisayarlara insann

    zelliklerini kazandrmada ve bilgisayarn renmesini salamaktadr. Yapay Zekann bir

    kolu olan Doal Dil leme ana ilevi doal bir dili zmleme, yorumlama, anlama ve

    retme olan bilgisayar sistemlerinin tasarmn ve gerekletirilmesini konu alan bilim ve

    mhendislik dal olarak tanmlanmaktadr.

    Makine renmesi (Machine Learning) zaman iinde davranlarn iyiletirilmesi olarak

    tanmlanmaktadr. ok saydaki rnein yorumlanmas byk boyutta insan emei ve zaman

    gerektirir. Bu yorumlama maliyeti, Makine renmesi tekniklerini gerek hayattaki Doal

    Dil leme uygulamalarna uyarlamadaki byk engellerden biridir.

    Dokman snflandrma ilemi, dokmanlarn nceden tanmlanm kategorilerle

    etiketlendirilmesidir. Doal Dil lemede dokman snflandrmann, e-posta filtreleme, yazar

    tanma, web ierii organizasyonu gibi birok uygulama alan vardr.

    Bir dokman nitelendirmedeki iki ana faktr, dokmann ierii ve stilidir. Stilistik zellikler

    zerine literatrde yaplan almalar, dokmann ierii zerine yaplan almalarla

    kyaslandnda olduka snrl sayda kalmaktadr. Bunun sebebi, stilin tam olarak

    tanmlanamamas ve Doal Dil leme sistemlerine uyarlamann zor olmasdr. Stile dayal

    ilemlerde istatistiksel metodlarn kullanm gereki bir yaklam olarak kantlanmtr

    (Stamatatos, 2000).

    Stil zelliklerine dayal snflandrma iki ekildedir:

    Dokmann tr (genre detection): Dokmann trn belirlemeyle ilgilidir Yazar tanma (author attribution): Dokmann yazarn belirlemeyle ilgilidir

    Stil zelliklerine dayal dokman snflandrma ileminin iki ana aamas vardr:

    Stil zelliklerinin karlmas ve hesaplanmas Snflandrma

    Yazar tanma, anonim veya yazarnn kim olduundan tam olarak emin olunamayan edebi

    dokmanlarn yazarlarnn belirlenmesidir (Stamatatos, 2000). Ayn dokman zerinde,

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    11/56

    2

    yazarlk iddia eden iki kiiden hangisinin dokmann gerek yazar olduunun tespitinde veya

    bir dokman yazdn kabul etmeyen kiinin tespitinde, yazar tanma uygulamalarndan

    faydalanlr. Herhangi birinin almasn gizlice al p, kendi ismi altnda yaynlamak zor

    deildir. Bu gibi durumlarda, yazar tanma metodlar dokmann gerek sahibini bulmakta

    nemli bir rol oynamaktadr. Yazar belirleme alanndaki almalar bizim, dilleri ve insanzekasnn nasl altn anlamamz salar (Gerritsen, 2003).

    renme sistemlerinde deiik renme stratejileri kullanlmaktadr. Bunlar eiticili ve

    eiticisiz olmak zere ikiye ayrlr.

    Eiticili renmede sistem, olay bir eitici yardmyla renir. Bu yntemde snflarn

    nceden bilinmesi ve bu snflara ait belgelerden oluan bir eitim kmesi gerekmektedir.

    Eitici sistemde hem rnek iin girdi, hem de o girdi sonucunda olumas beklenen kt

    verilir. Sistemin yapmas gereken girdileri, eiticinin belirledii ktlara haritalamaktr.

    Eiticisiz renmede ise, snflarn nceden bilinmesine ve herhangi bir aamada insan

    yardmna ihtiya yoktur. Sisteme sadece girdi deerleri gnderilir ve sistemin kendi kendine

    renmesi beklenir. Sistemin altrl p sonlandrlmasndan sonra ktlarn

    yorumlanmasnn kullanc tarafndan yaplmas gerekmektedir.

    Bu almada yazar tanma iin eiticili ve eiticisiz temel yntemler kullanlmaktadr.

    Eiticili yntemlerden Destek Vektr Makineleri (Support Vector Machine), Naive Bayes, K-

    Enyakn Komuluk (K-Nearest Neigbour K-NN), ok Katmanl Alglayc (MultilayerPerceptron) ve Rastgele Orman (Random Forest); eiticisiz yntemlerden de z Dzenleyici

    zellik Haritas (Self Organizing Feature Map - SOFM) seilmitir. ncelikle yazara ait

    zellikler kartlarak farkl zellik vektrleri elde edilmi, ayrca bu zellik vektrleri

    birletirilerek yeni vektrler elde edilerek snflandrma baarlar gzlemlenmitir. Daha

    sonra elde edilen zellik vektrleri kullanlarak zellik azaltc fonksiyonlar yardmyla

    zellik says indirgenmi vektrler oluturulmu ve tm vektrlerin baar performanslar

    birbirleri ile karlatrlmtr. almann sonucunda seilmi baz snflandrclar

    birletirilerek melez bir sistem oluturulmu ve baar performanslar llmtr.

    Tezin ikinci blmde, yazar tanma alannda daha nce yaplm olan almalara yer

    verilmitir. nc blmde metinlerden elde edilen zellik vektrlerinin karlmas

    anlatlm, drdnc blmde de bu almada kullanlm olan snflandrma yntemlerinden

    ve bunlarn birletirilmesinden bahsedilmitir. Beinci blmde ise deneysel sonulara,

    klliyata ve yorumlara yer verilmitir.

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    12/56

    3

    2. YAZAR TANIMA ALANINDA YAPILMI NCEK ALIMALARYazar tanma alannda yaplan almalarn says son yllarda hzla artmaktadr.

    Stamatatos ve arkadalar (Stamatatos, 1999), szdizimsel stil zelliklerinin eitli

    kombinasyonlar

    n

    kullanarak dokmanlar

    n yazarlar

    n

    belirleme zerine bir al

    mayapmlardr. Bu szdizimsel stil zellikleri, yaynn yapld 1999 tarihinde yazar tanma

    iin en ayrdedici zellikler olarak ileri srlmtr. Yaplan almada Yunanca metinler

    incelenip bunlardan tamlama ve kelime ayrtrclar elde edilmitir. Cmle says, kelime

    says, noktalama iaretlerinin says, isim tamlamas says, isim tamlamasndaki kelime

    says gibi zellikler karlarak kullanlmtr. Szdizim ayrtrmann yan sra dokmann

    ayrtrlmayan ksmnn miktar da gz nne alnarak yazarn szdizimsel karmaklna

    baklmtr. Tm bu zellikler kullanlarak 22 zellie sahip bir zellik vektr

    oluturulmutur. Snflandrmada Dorusal oklu Regresyon metodu kullanlmtr. Bumetod, her yazar iin, bir dokmann o yazar tarafndan yazlma olasln reten bir model

    oluturmas nedeniyle Markov modeline benzemektedir. Klliyat, bir Yunan gazetesinden

    alnan 10 farkl yazarn makalelerinden olumutur. Her yazarn 20 adet yazs alnm,

    bunlarn 10 tanesi eitim seti, 10 tanesi de test seti olarak kullanlmtr. Deneylerde % 69luk

    doru snflandrma baars elde edilmitir. Bu almada, yazar tanma ve yazar dorulama

    problemleri birbirinden ayrlarak incelenmitir. Yazar dorulamann amac, birisi tarafndan

    yazar olduu iddia edilen bir metnin o kiiye ait olup olmadnn gvenilirlik seviyesinin

    bulunmasdr. Yazar tanmann amac ise, bir dokmann nceden belirlenmi yazar

    snflarndan hangisine ait olunduunun belirlenmesidir.

    Peng ve arkadalar, (Peng, 2003) geen en sk kullanlan ladet n-gramlar karp, her yazar

    n-gramlardan oluan bir vektrle modelleyerek yazar tanmay incelemilerdir. l ve nnin

    eitli deerleri test edilmitir. Yazar belli olan her dokman iin zellik vektr

    oluturulduktan sonra snflandrma ilemi en yakn komuluk algoritmasyla

    gerekletirilmitir. 19. ve 20. yzyla ait sekiz kurgu bilim yazarnn dokmanlarndan

    oluturulan bir klliyat zerinde, farkl

    lve n deerleri denenerek, en s

    k geen 20 unigram(n=1) kullanlarak, % 100 doruluk oran elde edilmitir. Ayn metodlar ile 20 Yunanl

    yazarn dokmanlar kullanlarak yaplan yazar tanmada % 85lik baar elde edilmi iken,

    ince bir klliyat zerinde bu baar % 89a ulamtr. Bu almada, farkl diller zerinde

    yazar tanma yaplarak savunulan metodun dilden bamsz olduu vurgulanmtr.

    Khmelev ve Tweedie (Khmelev ve Tweedie, 2001), Markov zincirlerini kullanarak bir metod

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    13/56

    4

    gelitirip yazar tanmay incelemilerdir. Metod, belirlenmi bir dokmann belirli bir yazar

    tarafndan yazlma olasln elde etmek amacyla Markov modelini kullanr. Markov

    modelinde en yksek olaslk deerini veren yazar, kazanan yazar olup, o metni onun yazd

    kabul edilir. Karakter bi-gramlar (n=2) kullanlarak, her yazar iin Markov model elde edilir.

    27x27lik bir matriste her 1-gramn varl saylarak her dokman iin modelleroluturulmutur. Bu matriste her satr, o satrn toplamna blnerek bir olaslk elde edilir.

    almada dokmanlar n ilemlerden geirilerek, noktalama iaretleri, gereksiz boluklar ve

    byk harfle balayan kelimeler alnmamtr. Kullanlan klliyat Gutenberg projesinden 45

    yazarn 387 dokmanndan, Federalist yaynlarndan ve birok yazar olan Outside the Cave

    of the Shadows yaynndan olumutur. Gutenberg projesindeki yazarlarn

    snflandrlmasnda Markov modelleri, dokmanlarn % 74,4n doru snflandrmtr.

    Outside the Cave of the Shadows klliyat alt para eklinde eitilmitir. Kayna belli

    olan paralarda % 100 baar elde edilmi, Federalist yaynlarnn snflandrlmasnda ise %91 lik baar alnmtr.

    Fung, (Fung, 2003) Federalist yaynlarnn yazarlk zelliklendirilmesi iin Destek Vektr

    Makinesi snflandrcsn kullanlmtr. almada Federalist yaynlar as, of ve on

    kelimelerinin boyutlu uzaynda bir dzlemle ayrlmlardr. Bir takm fonksiyonel

    kelimeler kullanlarak Destek Vektr Makinesi uygulanm ve yaynlar birbirinden

    ayrlmtr.

    Diri ve Amasyal, (Diri ve Amasyal, 2003) Trke dokmanlarn yazarlarnn belirlenmesi

    iin melez bir snflandrc kullanmlardr. Snflandrclardan biri dokmann ieriini,

    dieri ise belirlenen 22 farkl stil zelliini kullanmaktadr. Dokman ieriine bal

    snflandrmada Naive Bayes, stil zelliklerine gre snflandrma da ise kendi gelitirdikleri

    Automatic Author Detection for Turkish Text (AADTT) metodunu kullanmlardr. Klliyat,

    www.hurriyet.com.trden indirilen 18 yazara ait politika, gncel ve salk konulu

    dokmanlardan oluup, denemeler iki farkl veri seti zerinde yaplmtr. Grup 1, 18 farkl

    yazarn 20 yazs alnarak 360 dokmandan oluup, 20 yaznn 15 tanesi eitim, 5 tanesi de

    test iin kullanlmtr. Grup IIde 18 farkl yazarn 35er yazs alnarak 630 dokman elde

    edilmi, bunlardan 35 yaznn 28 tanesi eitim, 7 tanesi de test iin kullanlmtr. Elde

    ettikleri sonulara gre stile dayal zelliklerin daha baarl olduunu vurgulamlardr. Naive

    Bayes ve stile dayal zellikleri kullanan yntem birletirildiinde tanma baars

    ykselmitir. Grup I zerinde Naive Bayesin baars % 43 iken, AADTT nin baars % 84

    tr. Grup II iin Naive Bayesin baars % 53 iken, AADTTnin baars ise % 70tir. Her iki

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    14/56

    5

    yntem birletirildiinde Grup I iin % 89, Grup II iin % 82lik baar oran elde

    edilmektedir. almalarnda stile dayal zelliklerin, ortak kelimelerin dokmanlarda geme

    sklyla bir arada kullanldnda, tanma baarsn arttrdn sylemektedirler.

    Koppel ve Schler (Koppel ve Schler, 2003), klliyatlarn bir e-posta tartma grubundaki

    yazmalardan oluturarak eitli zellik vektrlerini ve bunlarn birleimini kullanarak yazar

    zelliklendirme almas yapmtr. Yaptklar alma, De Vel (De Vel, 2001) tarafndan

    yaplan e-posta metinleri zerindeki yazar tanma almasna paralellik gstermektedir.

    Ancak Koppel ve Schler bu almadan farkl, bir e-posta dokmanndaki yapsal zellikleri

    (attachment, HTML tag) kullanmamlar, dier zelliklere ek olarak kullanm ve imladan

    kaynaklanan farkl sistematik hatalar da incelemilerdir. Klliyatlar, 11 yazar tarafndan

    yazlan 480 e-postadan olumaktadr. E-postalarn herbiri yaklak 200 kelimeden

    olumaktadr. Bu dokmanlar ileyerek farkl zellik snfna gre deerler bulmulardr.

    Birinci snf, 480 tane fonksiyonel kelimenin metinlerdeki kullanm skln gstermektedir.

    kinci snfta, ikili kelime gruplarnn kullanm sklna baklm ve metinde en az 3 kere

    geen gruplar birer zellik olarak kullanlmtr. nc snfta ise metinde geen hatalara

    baklmtr. Bu hatalar kelime tekrar, harf eksiklii, harf tekrar, fazladan harf yazlmas,

    zaman kipinin yanll vb. dir. Tm denemeler 10-kat apraz salama (k-fold cross

    validation) kullanlarak Destek Vektr Makinesi ve Karar Aalar yntemleriyle test

    edilmitir. En yksek baar Karar Aalar iin % 72, Destek Vektr Makinesi ile de % 60

    olarak elde edilmitir.

    De Vel, (De Vel, 2001) yazar tanma almasn farkl konulardaki e-posta metinleri zerinde

    yapm ve Destek Vektr Makinesi kullanarak bu metinleri snflandrmtr. E-posta

    dokmanlar zerinde yazar tanma almalarnn yaplmas, yaynlar zerinde veya baka tr

    kaynaklardan oluturulmu Klliyatlar zerinde yazar tanma almas yapmaktan daha

    farkldr. ncelikle, e-posta metinlerinin boyutlar ksadr ve bilinen dil tabanl lm

    yntemleri bunlar iin uygun deildir. kinci olarak, bir e-posta dokmann formle etmedeki

    kompozisyon stili genelde, ayn yazar tarafndan yazlan normal metin dokmanlarndan

    farkldr. almada, normal metin dokmanlarndan karlan yazar profilinin, e-posta

    dokmanlarndan karlan yazar profilinden farkl olabildii zerinde durulmutur.

    Kullanlan klliyat 3 farkl haber grubundan ve ana dili ngilizce olan 4 erkek yazardan

    alnan, 1259 dokmandan oluturulmu ve konusu olmayan e-posta metinleri karlmtr.

    Dokmanlarn gvde ksm, n ilemlerden geirilerek yantlama metinleri ve imzalar elde

    edilmitir. 170 tane stil zellii ve 21 tane yapsal zellik oluturulmutur. Bunlar ksa

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    15/56

    6

    kelimelerin says (all, at, his, vs.), ortalama cmle uzunluu, kelime zenginlii,

    ortalama kelime uzunluu, ilevsel kelimelerin says, fonksiyonel kelime frekans dalm,

    kelimelerdeki karakterlerin says, noktalama iaretleri olarak alnmtr. Bu almalarn

    sonucunda en yksek % 100, en dk %17,2 baar elde edilmitir. Deneylerde kullanlan

    yazar says olduka azdr, ancak birok yazardan farkl konularda ok sayda e-postatoplamann kolay olmad belirtilmitir.

    izelge 2.1de yazar tanma alannda son yllarda yaplm olan almalarn karlatrlmas

    verilmitir. Bu tabloda kimler, hangi yntemleri kullanarak ka snf ierisinden dokmann

    yazarn tandklarn, hangi doal dilde altklarn, eitim ve test setlerindeki dokman

    saylar gsterilmitir.

    izelge 2.1 Yazar tanma alannda yaplan almalarn karlatrmas

    Eitim seti Test setiReferans Yntem(zellik) YazarSays

    yazar bana metin says

    Klliyatdili

    Baaroran

    Stamatatosvd., 1999

    22 stil zellii 10 10 10 Yunanca 69%

    22 stil zellii

    Disk. Analiz72%

    22 stil zellii

    oklu Regresyon

    YunancaVeri Seti A

    66%

    22 stil zellii

    Disk. Analiz70%

    Stamatatosvd., 2000

    22 stil zellii

    oklu Regresyon

    10 10 10

    Yunanca

    Veri Seti B69%

    En sk geen 50kelime

    74%Stamatatosvd.,, 2001

    22 stil zellii

    10 20 10 Yunanca

    81%

    De Vel,2001

    Yapsal ve dilselzellik

    4 - ngilizce % 100

    Khmelev,Tweedie2001

    Markov Model

    Karakter bigram45

    -

    GutenbergProjesi,ngilizce

    % 74,4

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    16/56

    7

    2 -

    Federalistyaynlar

    ngilizce

    % 91

    2 -

    Outsidethe Cave of

    Shadowyayn,ngilizce

    % 100

    Koppel veSchler, 2003

    Szcksel zellik,kelime gruplar,hatalar

    1110-kat apraz Geerlilik

    ngilizce % 100

    Naive Bayes, tmkelimeler

    43%

    AADTT

    11 stil zellii84%

    NB+AADTT

    18 15 5

    TrkeGrup 1

    89%

    Naive Bayes,

    tm kelimeler53%

    AADTT

    22 stil zellii70%

    Diri veAmasyal,2003

    NB+AADTT

    18 28 7Trke

    Grup 2

    82%

    6-gram model ngilizce 100%

    5-gram model ince 89%Peng vd.,2003

    3-gram model

    8 - -

    Yunanca % 97

    2 roman 20 romanHalteren,2004

    Dilsel zellik 89-kat apraz Geerlilik

    Hollandaca 99,4%

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    17/56

    8

    3. YAZARLIK ZELLKLERHer yazarn kendisine zg bir yazm slubu vardr. Yazarlarn kendilerine zg olan bu

    tarzna yazarlk zellii (authorship attribution) denir. Yazarlara ait dokmanlarn renme

    teknikleri kullanlarak snflandrlmas iin, bu dokmanlardan belirli zelliklerin elde

    edilerek, zel bir ekilde gsterilmesi gerekmektedir. Dokmanlarn birer zellik vektr

    eklinde gsterimi en ok kullanlan metodlardan biridir (Salton, 1975). Her dokman, boyutu

    dolan bir vektr ile ifade edilir. dboyutu, dokmann dadet farkl zellie sahip olduunu

    gsterir. Bu almada dokmanlar iin drt farkl zellik vektr oluturulmutur.

    3.1 zellik VektrleriBu almada daha nceki yazar tanma almalarnda ayr birer zellik olarak kullanlan

    zellikler bir araya getirilerek drt farkl zellik vektr oluturulmutur. Bu drt farkl

    zellik vektr istatistiksel, dilbilgisi, kelime zenginlii ve szcksel zelliklerden

    olumaktadr.

    3.1.1 statistiksel zelliklerlk sluba dayal almalar bir dokmandaki zellikleri sayma fikri eklinde ortaya kmtr.

    Bu fikir, kelime uzunluklarn ve cmle uzunluklarn sayma eklinde hayata geirilmitir

    (Diederich, 2000). Daha sonra kelime says, cmle says, bir kelimedeki harf says,

    noktalama iaretleri says gibi zellikler de istatistiksel zellikler olarak yazar tanma

    almalarnda olduka sk yer almaya balamtr. Graham ve arkadalar (Graham vd., 2004)

    karakter ve hece cinsinden ortalama kelime uzunluunu ve her kelime uzunluunun frekansn

    hesaplamtr. Kelih ve arkadalar (Kelih vd., 2005) yazar snflandrmada kelime

    uzunluunun etkisini incelemilerdir. De Vel ve arkadalar (De Vel vd., 2001) e-posta

    metinleri zerinde yaptklar almada ortalama cmle uzunluu, bo satrlarn tm satrlara

    oran, ortalama kelime uzunluu, noktalama iaretleri says gibi istatistiksel zellikleri

    kullanmlardr. Diri ve Amasyal (Diri ve Amasyal, 2003), kelime says, cmle says,

    ortalama cmle uzunluu, bir kelimedeki karakter say

    s

    , noktalama iaretleri say

    s

    , kelimebana hece says vb. gibi 22 tane ayrt edici zellik belirlemi ve kullanmlardr.

    Bu almada 10 farkl istatistiksel zellik kullanlmtr. Bunlar:

    Dokmann uzunluu (dokmandaki toplam kelime says) Ortalama cmle uzunluu (bir cmledeki kelime says) Cmle says

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    18/56

    9

    Tm dokmandaki nokta says Tm dokmandaki nokta says Tm dokmandaki virgl says Tm dokmandaki noktal virgl says Tm dokmandaki iki nokta says Tm dokmandaki nlem says Tm dokmandaki soru iareti says

    almada bu zellikler kullanlarak oluturulan vektrden Vistolarak bahsedilecektir.

    3.1.2 Kelime Zenginliine Dayal zelliklerBir yazarn kelime daarcnn zenginliini bulmak amacyla farkl istatistiksel zellikler

    kullanlmtr. Bu zellikler bir yazarn yaratcln gstermektedir. Yazar tanma

    almalarndaki makalelerin bir ou kelimelere ve onlarn kullanm sklna dayanr

    (Burrows 1992, Holmes 1994, Forsyth 1995). Bu durum, az sayda dokmann kelime

    frekanslarnn istatiksel analizini yapmann n ilemesiyle gerekletirilir.

    Bu almada yazarn kelime zenginliini lmek amacyla:

    1. Farkl kelime saysnn toplam kelime saysna oran (type/token ratio)2. Dokmanda yalnzca bir kere geen kelimelerin says (hapax legomena)3. Dokmanda sadece iki defa geen kelimelerin says (hapax dislegomena)

    karlm ve bu zellikler kullanlarak oluturulan vektre Vzen denilecektir.

    Birinci zellik V/N olarak gsterilmektedir. V dokmandaki farkl szck says, N

    dokmandaki toplam szck saysdr. Tm bu zellikler, kelime daarc asndan yazarn

    daha nce kullanmad bir yazm eklini retebilme olasn hesaplar. En fazla sklkla

    kullanlan kelimelerin dokmanlarda gemesi muhtemel olarak beklendiinden, nadiren

    kullanlan kelimelerin bir yazar ayrdetmek iin daha nemli bir bilgi olduu dnlr.

    De Vel ve arkadalar (Del Vel vd., 2001, 2002) e-posta metinlerinin yazarlarn bulmak iin

    yaptklar almalarnda; Graham ve arkadalar (Graham vd., 2003) stilistik zeliklerden

    faydalanarak dokmanlar snflandrma almalarnda; Stamatatos ve arkadalar

    (Stamatatos vd., 2000) dokman snflandrmay hem tr hem de dokmann yazar asndan

    incelediklerinde; Koppel ve Schler (Koppel ve Schler, 2004), dokmann yazarn dorulama

    iin yaptklar almalarnda bu zellii de kullanmlardr.

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    19/56

    10

    3.1.3 Dilbilgisi zellikleriBir metindeki isim, sfat, fiil, zarf, zamir, bala, nlem, orta saylar da ayrt edici

    zelliklerdir. Diri ve Amasyalnn (Diri ve Amasyal, 2003), Trke dokmanlar zerinde

    inceledikleri yazar tanmada oluturduklar 22 zelliin 8 tanesi bu kelime tiplerinin saysnn

    cmle saysna oranndan olumaktadr.

    Bu almada dilbilgisi zellikleri Vdiltve Vdilc zellik vektrleri altnda incelenmitir. Vdilt

    ad verilen bu vektr, dokmanda geen toplam kelime tr saylarn tutmaktadr. Yani ilgili

    dokmanda ka tane sfat, isim, vb. olduuyla ilgilenir. Vdilc ise, cmle bana den kelime

    tipi orann tutar. Her tip iin, tipin dokmandaki toplam saysnn dokmandaki toplam

    cmle saysna oran olarak alnr.

    Bu zellikler karlrken Trk Dil Kurumunun [9] 35000 kelimelik szlnden

    yararlanlarak oluturulan Trke Kelime Veritaban (TKV) kullanlmtr. Trkede birkelimenin tipi isim, sfat, fiil, zarf, zamir, bala, nlem, orta tiplerinden biridir. Bununla

    birlikte, Trkede ayn kelimenin birden fazla tipi de olabilir, yani ayn kelime hem sfat hem

    de isim olarak kullanlabilinir. rnein, Melike ye yeil elbise ok yakm. cmlesindeki

    yeil sfattr. Melike yeili sever. cmlesinde ise yeil isim olarak kullanlmtr.

    TKVnda bir kelime iin en az bir, en fazla farkl kelime tipi tutulmutur. TKVnda

    kelimenin sadece bir tipi varsa o tip seilmektedir. Birden fazla tipe sahip olan bir kelimenin

    tipini bulmak iin aadaki kurallar (Diri ve Amasyal, 2003) srayla uygulanmtr:

    1. Bir kelimenin olas tiplerinden biri sfatsa ve kelime ek almamsa ve bir sonrakikelime isim veya zamirse bu kelime sfattr.

    2. Bir kelimenin olas tiplerinden biri sfat ise ve kelime ek almamsa, kelimenin olastiplerinden sfat karlr ve tip says azaltlr. Eer tip says 1e dyorsa kelimenin

    tipi olarak alnr.

    3. Bir kelimenin olas tiplerinden biri sfatsa ve kelime ek almamsa 7. madde uygulanr.4. Bir kelimenin olas tipleri arasnda sfat yoksa, fakat zarf varsa ve bir sonraki kelime

    fiilse veya bir sonraki kelime cmlenin sonunda ise bu kelime zarf olarak alnr.

    5. Bir kelimenin olas tipleri arasnda sfat yoksa, fakat zarf varsa ve bir sonraki kelimeisimse, kelimenin olas tiplerinden zarf karlr ve tip says azaltlr. Eer tip says

    1e dmse kelimenin tipi olarak alnr.

    6. Bir kelimenin olas tipleri arasnda sfat yoksa, fakat zarf varsa ve kelime cmleninsonundaysa bu kelime fiil olarak alnr.

    Yukardaki kurallarla tipi belirlenemeyen kelime iin olas tipler arasnda kelimenin en fazla

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    20/56

    11

    sklkla kullanlan tipi tercih edilir.

    3.1.4 levsel Kelimelerlevsel kelimeler (function word), herhangi bir szcksel anlam olmayan veya belirsiz

    anlam olan, fakat bir cmledeki kelimeler arasnda dilbilgisel ilikiler kurmaya yarayankelimelerdir. levsel kelime olarak adlandrlmayan kelimeler ierik kelimeleri (content

    word) veya szcksel (lexical) kelimeler adn alr. Bunlar isim, fiil, sfat ve ou zarflardr.

    Baz zarflar ilevsel kelimedir, rnein neden. Szlkler, ierik kelimelerini aka

    tanmlar, fakat ilevsel kelimelerin genel kullanmlarn tanmlamazlar. Dilbilgisinde ise

    ilevsel kelimelerin kullanm detaylca anlatlr. levsel kelimeler edat, zamir, yardmc fiil

    veya bala olabilir. levsel kelimeler ek alm veya almam da olabilir.

    Yazar tanma almalarnda, ilevsel kelimelerle yaplan ilk alma Burrows tarafndan

    yaplmtr (Burrows, 1987). Baayen ve arkadalar (Baayen, 2002) 42 ilevsel kelime ve 8

    adet noktalama iaretini kullanarak yazarlar zelliklendirmiler ve % 81,5 baar elde

    etmilerdir. Kullandklar klliyat farkl konu zerine yazlan 72 renci makalesinden

    olumaktadr. Ayn klliyat kullanarak Juola ve Baayen (Juola ve Baayen, 2003 ) %87 baar

    elde ederken, kullandklar zellikler arasnda 164 ilevsel kelime yer almaktadr. Binongo

    (Binongo, 2003) ele ald bir kitabn yazarnn kim olduunu incelemek amacyla, yazar

    zelliklendirmede en ok kullanlan 50 ilevsel kelimeyi kullanmtr. Holmes ve arkadalar

    (Holmes, 2001), iki yazarn dokmann birbirinden ayrmak amacyla 50 ilevsel kelimekullanmtr. Zhao ve Zobel (Zhao ve Zobel, 2005), ilevsel kelimelerin yazar tanmada ne

    kadar baarl olduunu analiz etmitir. Argamon ve Levitan (Argamon ve Levitan, 2005),

    yazar zelliklendirmede ilevsel kelimelerin kullanlln lmlerdir.

    Trke iin daha nce ilevsel kelimelerin listesi karlmadndan, bu alma iin TKV

    kullanlarak bir ilevsel kelimeler listesi oluturulmutur. TKVndan yaplan bir sorgulamayla

    tipi edat, zamir, yardmc fiil, bala olan kelimeler karlm ve daha sonra tm klliyat

    zerinde bu kelimelerin kullanm skl hesaplanmtr. Klliyatta bir kez bile kullanlmayan

    kelimeler karlm ve geriye klliyatta yer alan 620 adet ilevsel kelime braklmtr.

    Bunlarla adna Visldenilen zellik vektr oluturulmutur.

    3.2 zellik Birletirme Yoluyla Oluturulan Vektrlerzellik vektrlerini ayr ayr analiz etmenin yansra birlikte de deerlendirmek amacyla

    zellik vektrlerinin birletirilmesi yoluna gidilmitir. Elde edilen yeni zellik vektrleri

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    21/56

    12

    aadaki gibidir:

    VgtVist + Vzen + Vdilt + Visl

    Vgc Vist + Vzen + Vdilc + Visl

    Vgist Vist + Vzen + Vdilt

    Vgt, drt ana zellik vektrnn birletirilmesiyle elde edilmitir. Dilbilgisi zellik

    vektrlerinden Vdilt, yani dokman bazndaki tip says kullanlm ve zellik says 641e

    ykselmitir. Vgc de, Vgt gibi drt farkl zellik vektrnn birletirilmesinden meydana

    gelmitir. Tek fark Vdilt yerine cmle bazl olan Vdilc kullanlmtr ve zellik says

    641dir. Vgist istatistiksel, dilbilgisel ve zenginlie dayal zelliklerin birletirilmesinden

    oluturulmutur. Oluturulan bu vektr 21 zellie sahiptir.

    3.3 zellik Azaltma Yoluyla Oluturulan VektrlerDokmanlar tanmlamak amacyla kartlm olan zelliklerin bazlar dokmanlar iin ayrt

    edici veya gerekli olmayabilir. Bu durum hedef modelin renme kalitesini de drebilir.

    zelliklerin bir alt kmesiyle benzer baar sonular alnrken, fazla sayda zellik

    kullanmamz sistemi yavalatabilir. Yksek boyutlu zellik setinin baarya etkisini lmek,

    gereksiz zellikler varsa bunlar elemek ve tanma sistemini buna gre analiz etmek amacyla

    zellik azaltma metodu uygulanmtr. Bu blmde bahsedilen zellik azaltc olarak WEKA

    [1] paketi ierisinde yer alan CfsSubsetEval fonksiyonu kullanlmtr.

    Bu almada dilbilgisi zellikleri Vdilt ve Vdilc zellik vektrleri altnda incelenmitir.

    Vdilt, dokmanda geen toplam kelime tr saylarn tutmakta yani o dokmanda ka tane

    sfat, isim, vb. olduuyla ilgilenmektedir. Vdilc ise cmle bana den kelime tipi orann

    tutmaktadr. Her tip iin, tipin dokmandaki toplam saysnn, dokmandaki toplam cmle

    saysna orandr.

    Dilbilgisi zelliklerinin metinde geme sklklarn tutan Vdilt vektrndeki zellik says,

    CfsSubsetEval fonksiyonu kullanlarak azaltlmtr. zellik says azaldnda snflandrma

    ileminin sreside ksalmtr. Oluan yeni zellik vektr Vdilta olarak adlandrlmtr.

    Bir dier dilbilgisi zelliklerinden oluan Vdilc vektrne de CfsSubsetEval fonksiyonu

    uygulandnda Vdilca elde edilmitir.

    levsel 620 kelimeden oluan Visl zellik vektr, CfsSubsetEval fonksiyonu kullanlarak

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    22/56

    13

    zellikleri azaltldnda Visla ad verilen yeni bir zellik vektr elde edilmitir.

    Tm zelliklerin birletirilmesiyle oluturulan Vgt ve Vgc vektrlerine CfsSubsetEval

    fonksiyonu uygulandnda srasyla Vgta ve Vgca vektrleri elde edilmitir.

    statistiksel, dilbilgisel ve zenginlie dayal

    zellik vektrlerini birletirerek oluturduumuzVgist zellik vektrnden de, zellik azaltc CfsSubsetEval fonksiyonu kullanlarak, Vgista

    zellik vektr elde edilmitir.

    Yeni zellik vektrlerinin, farkl dokman gruplarna gre elde edilen zellik saylar izelge

    3.1de gsterilmitir.

    izelge 3.1 zellik saylar indirgenmi olan yeni zellik vektrleri

    zellik

    Vektr

    Ana zellik

    Vektr-zellik Says

    Klliyat-I zellik

    Says

    Klliyat-II

    zellik Says

    Klliyat-III

    zellik Says

    Vdilta Vdilt 8 5 3 7

    Vdilca Vdilc 8 7 4 7

    Visla Visl - 620 24 27 43

    Vgta Vgt - 641 27 16 31

    Vgca Vgc- 641 24 17 40

    Vgista Vgist - 21 15 12 12

    3.4 KlliyatBu almada, nceki almalarla kyaslama yapabilmek ve gvenirlii arttrmak amacyla

    Diri ve Amasyal (Diri ve Amasyal, 2003) tarafndan oluturulan ve kendi yazar tanma

    almalarnda kullanlan geniletilmi klliyat tercih edilmitir. Bu klliyat iin, gnlk

    gazetelerimizden olan Hrriyet [2], Vatan [3] ve Sabahtan [4] ekonomi, gncel, salk ve

    magazin gibi konularda yazlar indirilmitir. Mevcut klliyat 18 farkl yazarn her birine ait 35

    farkl yazsndan oluan 630 adet dokmandan meydana gelmektedir. Bu yazarlar cizelge

    3.2de verilmektedir.

    Yaplan deneysel sonular, tek bir klliyata bal kalmadan yorumlayabilmek iin, farkl

    dokman gruplarnn farkl konularda yazlan metinlerin ve yazar saysnn baarya olan

    etkisini gzlemlemek amacyla 3 farkl klliyat grubu oluturulmutur.

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    23/56

    14

    izelge 3.2 Klliyat ierisinde yer alan yazarlar

    Kod Yazar Konu KByte Kod Yazar Konu KByte

    1 Aye Arman Popler 203 10 Fatih Altayl Gndem 148

    2 Bekir Cokun Gndem 65,7 11 Gndz Tezmen Salk 128

    3 Cneyt lsever Gndem 100 12 Hadi Uluengin Dnya 133

    4 Doan Hzlan Popler 100 13 Muharrem Sarkaya Gndem 111

    5 Erkan elebi Popler 143 14 Oktay Eki Gndem 97,1

    6 Emin laan Gndem 139 15 Pakize Suda Popler 119

    7 Ercan Kumcu Ekonomi 115 16 Serdar Turgut Popler 132

    8 Erturul zkk Gndem 130 17 Tufan Tren Gndem 110

    9 Erdal Salam Ekonomi 148 18 Yaln Bayer Gndem 235

    3.4.1 Klliyat - IFarkl konularda yazan 18 yazarn her birine ait 35 farkl yazsndan, 630 dokmandan,

    oluturulmutur. Bu konular popler hayat, gncel, ekonomi, dnya ve salk zerinedir. Bu

    gruptaki yazarlarn kodu 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18dir.

    3.4.2 Klliyat - IISadece gncel konularda yazan 9 yazar

    n 35 adet yaz

    al

    narak, 315 adet dokmandanoluturulmutur. Bu grupta bulunan yazarlarn kodu 2, 3, 6, 8, 10, 13, 14, 17, 18dir.

    3.4.3 Klliyat - IIIFarkl konularda yazan 9 yazarn 35 adet yazs alnarak, 315 adet dokmandan

    oluturulmutur. Bu gruptaki yazlar popler hayat, gncel, dnya, salk ve ekonomi

    zerinedir. Yazarlarn kodu ise 1, 5, 7, 8, 9, 10, 11, 12, 14 tr.

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    24/56

    15

    4. SINIFLANDIRMA YNTEMLERBu almada, WEKA ierisinde yer alan snflandrma yntemlerinden bei seilerek

    kullanlmtr. Bunlar Naive Bayes, Destek Vektr Makinesi, Rastgele Orman, K-Enyakn

    Komuluk ve ok Katmanl Alglayc olup tm denemelerde ntanml (default) parametre

    deerleri kullanlmtr. Ayrca, Matlabin ktphanesindeki z Dzenleyici zellik Haritas

    fonksiyonu 10lu apraz geerlilik uygun hale getirilerek kullanlmtr.

    4.1 Naive Bayes Naive Bayes snflandrcs, dokman snflandrmada baars kantlanm, popler bir

    makine renmesi tekniidir (Domingos ve Pazzani, 1997). Naive Bayes snflandrcs, ok

    iyi bilinen, pratik, olasla dayanan, birok uygulamada kullanlan bir snflaycdr.

    Chakrabarti vearkadalar bir klliyattaki metinlerin hiyerarik olarak organize edilmesi iin

    Naive Bayesi kullanmlardr (Chakrabarti vd., 1997). Frietag ve McCallum, dokmanlardan

    bilgi karabilmek iin, an her dmndeki kelime dalmn hesaplamak amacyla Naive

    Bayes benzeri bir model kullanmtr (Frietag ve McCallum, 1999). Dumais ve arkadalar

    dokman snflama ilemini otomatize etmek amacyla Naive Bayes ve dier metin

    snflayclar kullanmlardr (Dumais vd., 1998). Naive Bayes in olduka sk

    kullanlmasnn bir baka nedeni kolay anlalabilir bir yntem olmasdr. Baz alanlarda

    Naive Bayes, performans olarak yapay sinir alar ve karar aac renmelerine kar tercih

    edilebilir. Peng ve arkadalar, Bayes teoremini kullanarak dokmanlardan elde ettikleri

    karakter bazl n-gramlarla yazar tanma uygulamas gerekletirmilerdir (Peng vd., 2002).

    Domingos ve Pazzani, Naive Bayes in hangi durumlarda s nflandrma iin en uygun

    olduunu ve hangi durumlarda olaslk tayinlerinin (assessment) yanl olduunu

    aratrmlardr (Domingos ve Pazzani, 1996). Domingos ve Pazzani bu noktay netletirip,

    Naive Bayesin snflandrma iin en uygun olduu basit durumlar gstermilerdir.

    Naive Bayes hedefe ulamak iin en uygun imkanlar semeye ynelik bir model oluturur.

    Yeni rnekler zerindeki s

    n

    fland

    rma, Bayes kural

    kullan

    larak, rnee en ok benzeyensnf seilerek yaplr. Naive Bayes snflandrcs rneklerin tm zelliklerinin, snfn

    artlarn veren zellikler asndan birbirinden bamsz olduunu kabul eder. Buna Naive

    Bayes Bamszlk Varsaym denir. Bu varsaym birok gerek problemde geersiz olsa da,

    Naive Bayes ou zaman ok iyi snflandrma performans gsterir ve bu sebeple dier Bayes

    snflandrclardan hesaplama zaman olarak ok daha hzl alr (Friedman, 1997;

    Domingos ve Pazzani, 1997). Bamszlk varsaym ve her zellik iin, parametreler ayr

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    25/56

    16

    olarak renilir ve bu durum genelde zellik says ok olduunda renmeyi byk lde

    kolaylatrr (McCallum vd., 1998)(Kim vd., 2003).

    Naive Bayes snflandrcs, herx rneinin bir zellik vektryle ifade edildii ve hedef

    fonksiyon f(x)in V snrl deer kmesinden herhangi bir deer alabildii renme ilerine

    uygulanr. Hedef fonksiyon iin bir eitim seti hazrlanr. eklindeki zellik

    vektryle ifade edilen, yeni bir rnek alnr ve eiticiden bu rnein hedef deerini yani ait

    olduu snf tahmin etmesi istenir.

    Yeni gelen rnein snfnn belirlenmesi, Bayes yaklamna gre, rnei anlatan

    zellik deerlerine gre en uygun hedef deerinin, vMAP (maximum a posteriori

    hypothesis), atanmasdr.

    )...,|(maxarg 21 njVjv

    MAP aaavPv

    = (4.1)

    Bayes teoremi kullanlarak (4.1)deki denklem yle yazlabilir:

    )()|...,(maxarg

    )...,(

    )()|...,(maxarg

    21

    21

    21

    jjnVjv

    MAP

    n

    jjn

    VjvMAP

    vPvaaaPv

    aaaP

    vPvaaaPv

    =

    =

    (4.2)

    Eitim verisine dayanarak (4.1)deki iki terim hesaplanr. HerP(vj) deeri, eitim verisinde

    geen, her hedef deervjnin frekans saylarak kolaylkla hesaplanabilmektedir. Bu terimlerin

    saysnn olas rnekler arp olas hedef deerleri saysna eit olmas probleme neden

    olabilir. Bu nedenle, gereki hesaplar elde etmek iin her rnein, rnek uzaynda defalarca

    grlmesi gerekmektedir.

    Naive Bayes snflandrcs, zellik deerlerinin, hedef deerden bamsz olmas kabulne

    dayanr. Bir baka deyile, (a1,a2an) balamnn olasl, herbir zelliin olaslklarnn

    rndr:

    )|()|...,( 21 ji ijn vaPvaaaP = (4.3)

    Bu denklemi (4.2)de yerine koyarsak Naive Bayes snflandrma yaklamn elde etmi

    oluruz:

    )|()(maxarg ji

    ijVv

    NB vaPvPvj

    = (4.4)

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    26/56

    17

    vNB, Naive Bayes snflandrcsnn ktsn, yani snf gsterir. Bir Naive Bayes

    snflandrcsnda, eitim verisinden hesaplanmas gereken farklP(ai|vj) terimlerinin says,

    farkl zellik deerleri arp farkl hedef deerleri says kadardr.

    Ksaca, Naive Bayes renme metodu, eitli P(vj) ve P(ai|vj) terimlerinin eitim verisi

    zerindeki frekanslarna dayanarak hesapland bir renme aamasdr. Bu hesaplanma

    btn, renme hipoteziyle ilikilidir. Bu hipotez, daha sonra (4.4)teki denklem

    uygulanarak her yeni rnein snflandrlmas iin kullanlr.

    Naive Bayes renmesi ve dier renme metodlar arasndaki ilgin bir fark, olas

    hipotezlerin alan zerinde aka arama yaplmamasdr (bu durumda, olas hipotezin alan,

    eitli P(vj) ve P(ai|vj) terimlerine atanan olas deerlerin alandr). Bunun yerine, hipotez

    arama yapmadan, basite eitim rnekleri arasndaki eitli veri kombinasyonlarnn

    frekanslar saylarak oluturulur (Mitchell, 1997).

    Naive Bayes, olaslkl bir snflandrcdr ve verilen bir dokman snflandrmak iin

    kelimelerin ve snflarn olaslklarn kullanr (Nther, 2005). Bu almada zellikler kelime

    frekanslar deildir, ve zelliklerin devam eden bir dalmlar vardr. Bu nedenle, yaplan

    deneylerde Naive Bayes in WEKA [1] uygulamas kullanlmtr. Bu uygulama John ve

    Langleyin (John, Langley 1995) almalarna dayanmaktadr.

    John ve Langley, yaptklar almada, parametrik olmayan younluk hesab iin, normallik

    varsaymndan vazgeerek bunun yerine istatistiksel metodlar kullanmlardr. Bir NaiveBayes snflandrcs iin, eitli doal ve yapay alanlarda, younluk hesabnn iki metodunu

    karlatrarak, deneysel sonular elde etmilerdir. Bu metodlardan biri, normallii varsaymak

    ve koullara bal her durumu bir Gaussian ile modellemektir. Dieri ise, parametrik olmayan

    kernel younluk hesabn kullanmaktr. Birok doal ve yapay verilerle yaptklar bu deneyler

    sonucunda, hatann ok byk oranda azaldn gzlemlemiler ve Bayes modelleri ile

    renmede kernel hesabnn faydal bir ara olduunu yorumlamlardr.

    4.2 Destek Vektr Makinesi DVM (Support Vector Machine SVM)Destek Vektr Makinesi (DVM) yntemi, Vapnik ve arkadalar tarafndan gelitirilmi etkili

    bir renme yntemidir. DVM teorisi Vapnikin almasnda geni birekilde ele alnmtr

    (Vapnik, 1995). Bu teori, yapsal risk minimizasyonu prensibine dayanr. Joachims

    (Joachims, 1998), dokmanlar farkl konulara gre snflandrmak iin DVM kullanmtr.

    statistiksel zellik olarak dokmanda en az defa geen kelimeleri kullanmlar ve 10.000

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    27/56

    18

    zellik elde etmilerdir.

    Platt ve arkadalar (Platt vd., 1998), dokman snflandrmada, doru ve hzl olduu iin

    dorusal DVM kullandlar. Dorusal DVM, test edilen snflandrclardan hz kendisine en

    yakn olandan dahi 35 kat daha hzldr. Platt ve arkadalar DVM snflandrcsn, Reuter-

    21578 topluluu, e-posta metinleri ve web sayfalarna uyguladlar.

    Diederich ve arkadalar (Diederich, 2000), yazar tanma almalarnda DVM kullamlardr.

    Alman gazetesinden alnan dokmanlarla eitli denemeler yaplm ve % 6080 orannda

    baar elde etmilerdir.

    DVM, 2 snfa ait elemanlarn oluturduu eitim kmelerini, en uygun dzlem ile

    birbirlerinden ayrmaya alan bir yntemdir. En uygun dzlemi belirlerken mmkn

    olabildiince az sayda destek vektr kullanlr. DVM ile dorusal snflandrma yntemi

    ekil 4.1de gsterildii gibidir.

    ekil 4.1 DVM yntemi ile dorusal snflandrma

    DVM yaklam, yksek boyutlu verilerin olduu durumlarda dahi, gl bir genelleme

    zelliine sahip, tahmine dayal bir model gelitirebilir. DVM her zaman, bir optimizasyon

    zm aradndan fazla sayda zelliin analizine olanak tanyabilmektedir [5].

    Pozitif ve negatif rnekleri birbirinden ayran bir dzlem bulunmaktadr ve bu dzlem

    zerindeki noktalarwx+b=0 eitliini salamaldr. Burada w, dzleme olan normal ve |b| /

    ||w|| dzlemden orijine dik uzaklktr. Dzleme en yakn olan pozitif ve negatif rnekler

    arasndaki mesafe dzlemin tolerans olarak adlandrlrsa, DVM toleransn en byk olduudzlemi bulmaya almaktadr (Kepeneki, 2004).

    DVM ynteminin, dier snflandrma yntemlerinden en temel fark, sadece iki snf

    birbirinden ayrabilmesidir. Bu ayrm yaplrken dikkat edilmesi gereken en kritik nokta, iki

    snfa ait rnekleri birbirinden ayracak olan dzlemin en uygun konumdan geirilmesidir.

    Dzlemin uygun bir konumdan geirilememesi durumunda, snflandrmada yanl sonular

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    28/56

    19

    retilebilir.

    DVM, yalnzca iki snf karlatrmak zere gelitirilmi bir yntemdir. Dolaysyla,

    sistemde ikiden fazla snf olduunda, DVM yntemi ile alabilmek iin gerekli

    dzenlemelerin yaplmas gerekmektedir. Bu amala, ikiden fazla snfn olduu bir sistemde,

    DVM yntemini kullanabilmek iin eitli algoritmalar gelitirilmitir. Bu algoritmalar

    unlardr:

    4.2.1 Bire Kar Hepsi (One-Against Rest)Adndan da anlald gibi karlatrma srasnda snflardan biri (+) kabul edilirken, kalan

    dier tm snflar (-) olarak kabul edilir ve buna gre ilem yaplr. Burada, karlatrma

    srasnda + ve - snflardaki rnek saylar farkl olabilmekte, ayn zamanda daha fazla

    karlatrma ve ilem gerektirdiinden, fazla kullanlan bir yntem deildir.

    4.2.2 Bire Kar Bir (Pairwise)Snflar ikili gruplar halinde alnr ve bu ikililer zerinden karlatrma yaplarak ilerlenir.

    Burada, aa zerinde, en alttaki dmden yukarya doru ilerlenir, en son admda, kk

    dm ile karlatrma yaplp sonu bulunur. "Bire Kar Hepsi" yntemine kyasla daha iyi

    bir zm olduu sylenebilir.

    4.2.3 Ynlendirilmi evrimsiz izge (Directed Acyclic Graph)Temel olarak, "Bire Kar Bir" yntemiyle benzerlik gstermektedir. Bu yntemde, test verisi,

    aa zerinde, kk dmdeki ikiliden balanarak karlatrlr ve aacn en alt seviyesine

    kadar iteratif olarak ilerlenir. N seviyeli bir aa iin nce (1,2) snf ikilisi kyaslanr, bu

    ikiliden galip kacak snfkazanan ise; bir sonraki aamada (kazanan,3) ikilisi kyaslanr ve

    bu ekilde ilerlenerek, en sonunda (kazanan, N) ikilisi karlatrlp, test verisinin hangi snfa

    daha yakn olduu bulunur (Pal vd., 2004).

    Bu almada WEKA uygulamas iinde yer alan DVM snflandrcs kullanlmtr. Bu

    s

    n

    fland

    r

    c

    Platt (Platt, 1998) taraf

    ndan bahsedilen ard

    k en kk optimizasyonkullanlarak eitilen Destek Vektr Makinesidir.

    4.3 K-En Yakn Komuluk K-EK (K-Nearest Neighbour- K-NN)K-Enyakn Komuluk (K-EK), dokman snflandrmada kullanlan en popler yntemlerden

    biridir (Manning ve Schutze, 1999). Farkl klliyatlar zerinde yaplan birok aratrmada K-

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    29/56

    20

    Enyakn Komuluk algoritmasnn ok iyi performans gsterdii gzlemlenmitir (Yang ve

    Liu, 1999) (Joachism, 1998) (Baoli vd., 2002). Diederichin (Diederich, 2000) yazar tanma

    alannda yapt almasnda kulland snflandrma yntemlerinden biri de K-Enyakn

    Komuluktur. Zhao ve Zobel (Zhao ve Zobel, 2005), ilevsel kelimelerin yazarlk

    zelliklendirmede ne kadar baarl olduunu analiz etmek amacyla almalarnda K-Enyakn Komuluk metodunu da kullanmlar ve %77 baar elde etmilerdir. Wolters ve

    Kirsten (Wolters ve Kirsten, 1999), dile bal zellikleri analiz etmek amacyla K-Enyakn

    Komuluk yntemi ile snflandrma yapmlardr.

    K-Enyakn Komuluk ynteminde en yakn k adet rnek bulunur ve bu rnekler en ok hangi

    snftan iseler, test rnei de o snfa aittir denir. Bu metodda, test rneinin, eitim

    kmesindeki btn rneklere olan yaknl hesaplanr. Hesaplama ilemi iin klid bants

    (4.5) kullanlr. Hesaplanan uzaklk deerleri, kkten bye doru sralanr. En yakn k

    adet rnek iinde en ok bulunan snf, test rneinin ait olduu snf gsterir [6].

    P ve Q noktalar iin,

    ( )xP p= ve ( )xQ q= ise klid bantsyledir:

    2( )x x x xq p q = (4.5)

    Bu almada WEKA uygulamas iinde yer alan K-Enyakn Komuluk snflandrcs

    kullanlmtr. Bu snflandrc Aha ve Kibler (Aha ve Kibler, 1991) tarafndan bahsedilen K-Enyakn Komuluk yntemi esas alnarak gelitirilmitir.

    4.4 ok Katmanl Alglayc KA (Multiple Layer Perceptron MLP)Bir yapay sinir ann, renmesi istenen olaylarn girdi ve ktlar arasndaki ilikiler

    dorusal olmayan ilikiler olduunda, bu tr olaylar gelimi bir model olan ok Katmanl

    Alglayc (KA) modeli ile renilebilir. Rumelhart ve arkadalarnn (Rumelhart vd., 1986)

    gelitirdii bu modele hata yayma modeli veya geriye yaym modeli (backpropogation

    network) de denir. zellikle snflandrma, tanma ve genelleme yapmay gerektriren

    problemler iin ok nemli bir zm aracdr.

    KA alar ileriye doru balantldr ve katmandan oluur. Girdi katman, d dnyadan

    gelen girdileri alarak ara katmana gnderir. Gelen her bilgi ilenmeden bir sonraki katmana

    gider. Ara katman, girdi katmanndan gelen bilgileri ileyerek bir sonraki katmana gnderir.

    Bir KA anda birden fazla ara katman olabilir. kt katman, ara katmandan gelen bilgileri

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    30/56

    21

    ileyerek, aa girdi katmanndan verilen girdilere karlk an rettii ktlar belirleyerek

    d dnyaya gnderir.

    KA alar, eiticili renme stratejisine gre alr. Alara eitim srasnda hem girdiler

    hem de o girdilere karlk retilmesi beklenen ktlar verilir. An grevi her girdi iin o

    girdiye karlk gelen kty retmektir. KA alarnn almasyledir:

    An zmesi istenen olay iin daha nce gereklenmi rnekler bulunur An topolojik yaps belirlenir. Ka tane girdi nitesi, ka ara katman ve ka kt

    eleman olmas gerektii belirlenir

    An renme katsays, ileme giren elemanlarn toplama ve aktivasyonfonksiyonlar, momentum katsays gibi parametreler belirlenir

    Elemanlar birbirine balayan arlk deerlerine balang deerleri atanr An renmeye balamas ve uygun olan arlklar deitirmesi iin rnekler belirli

    bir dzenee gre aa verilir

    Sunulan girdi iin an kt deeri hesaplanr An rettii hata deerleri hesaplanr Geri hesaplama yntemi uygulanarak retilen hatann azaltlmas iin arlklarn

    deitirilmesi gerekletirilir

    Yukardaki admlar KA ann renmesi tamamlanncaya kadar, yani gerekleen kt ile beklenen ktlar arasndaki hatalar kabul edilir dzeye ininceye kadar devam eder.

    (ztemel,2003)

    De Vel (de Vel 1999), dokmanlarn snflandrma performansn lmek amacyla Naive

    Bayes, K-Enyakn Komuluk ve Destek Vektr Makinesi nin yan sra KA yntemini de

    kullanmtr. Diederichin (Diederich, 2000) yazar tanma alannda yapt almasnda KA

    yntemi ile de snflandrma yaplm ve %93,3 lk bir baar elde edilmitir.

    Bu almadaki deneyler, WEKAda KA ynteminin ntanml parametreleri kullanlarakyaplmtr.

    4.5 z Dzenleyici zellik Haritas DH (Self Organizing Map SOM)z Dzenleyici zellik Haritas (DH) Kohonen tarafndan gelitirilmitir. Kohonen ve

    arkadalar (Kohonen vd., 2000), ok byk sayda dokman topluluunu metinsel

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    31/56

    22

    benzerliklerini gz nne alarak organize etmek amacyla bir sistem gelitirmilerdir. Bu

    sistem DH yntemi esas alnarak oluturulmutur. zellik vektr olarak dokmanlarda

    geen kelimelerin istatistiksel gsterimleri kullanlmtr. almalarnn temel amac, DH

    yntemini yksek boyutlu verilerle lmlemektir. Deneylerinde 6.840.568 tane dokman,

    1.002.240 dml bir DH sistemine yerletirmilerdir. zellik vektr olarakarlklandrlm kelime histogramndan oluturulan 500 boyutlu vektr kullanlmtr.

    DH alarnn girdi vektrlerini snflandrma ve girdi vektrlerinin dalmn renebilme

    yetenekleri ok yksektir. Alarn en temel zellii, olaylar renmek iin bir retmen veya

    an retmesi gereken ktlarn aa bildirilme zorunluluunun olmamasdr. zellikle

    beklenen ktlarn belirlenemedii problemler iin kullanlr.

    A, girdi ve kt katmanndan olumaktadr. DH alar yarmay kazanan elemanlarn 1,

    dierlerinin 0 deerini almas ilkesine dayanr. Bir girdi verildiinde, kt katmanndakielemanlar birbirleri ile yarrlar ve yarmay kazanan eleman girdinin snfn gsterir.

    Kazanan her elemann komularn gsteren komuluk alan oluturulur. Komuluk alan

    iindeki btn elemanlar kazanan eleman ile birlikte dnlr ve komularn eitim srasnda

    arlklar deiir.

    An eitilmesi esnasnda, herhangi bir t zamannda rnek setinden bir rnek, aa verilir.

    Girdi vektr X ile arlk vektr A normalize edilmi olmaldr. kt elemanlarndan

    kazanan eleman bulunur. Bunun iin iki yoldan birisi kullanlmaktadr:

    1. Her elemann kts (), arlklarla girdilerin arpmnn toplam ile bulunur. Yani,

    0i i i

    i

    A X= (4.6)

    Bu kt deerlerinden en yksek deere sahip olan ilem eleman yarmay kazanmaktadr.

    Bu elemann k. eleman olmas durumunda,

    1k = (4.7)

    0i = 1,2...i = ve i k (4.8)

    2. klid mesafesi (d) kullanlarak girdi vektrne en yakn arlk vektrne sahipeleman kazanan elemandr. ki vektr arasndaki mesafe:

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    32/56

    23

    j jd X A= (4.9)

    (4.9)daki gibidir. Her kt eleman iin bu mesafeler hesaplanr ve en kk mesafesi olan

    eleman kazanan eleman olarak kabul edilir.

    Kazanan eleman belirlendikten sonra bu eleman ve komularnn arlklar (4.10)daki

    formle gre deitirilir:

    A(t+1)=A(t)+ g(i,k)(X(t)-A(t)) (4.10)

    Burada renme katsaysdr. renme annda zamanla kltlr (ztemel, 2003).g(i,k) ise

    komuluk fonksiyonudur, i ve kelemanlarnn komuluklarn belirler. i = kdurumundag(i,k)

    = 1 olur. Bu fonksiyon zaman ierisinde azalan bir fonksiyondur. Genel olarakg(i,k),

    2 2

    g(k)=exp(- /2 )i kd d (4.11)

    (4.11)deki gibi ifade edilir. Formlde di ve dk, i. ve k. elemanlarn pozisyonunu gsteren

    vektrlerdir. ise komuluk alannn geniliini gstermektedir. Bu parametre de zaman

    ierisinde azaltlr (ztemel, 2003).

    Bu almadaki DH deneyleri, MATLAB SOM ktphanesindeki fonksiyon kullanlarak

    altrlmtr.

    4.6 Rastgele Orman RO (Random Forest - RF)Rastgele Orman, birok karar aacndan oluan ve bireysel aalar tarafndan oylanarak

    kazanan snf veren bir yntemdir. Bu yntem Leo Breiman ve Adele Cutler tarafndan

    gelitirilmitir. Rastgele Orman ynteminde birok snflandrma aac oluturulur. Girdi

    vektrndeki bir objeyi snflandrmak iin, aa kmesinde (forest) yer alan her aaca giri

    vektrleri verilir. Her aa bir snflandrma sonucu retir. RO, tm aalar arasnda en ok

    oyu alan snf seer. Her aa, eitim setindeki rneklerin rastlantsal birekilde, yenisiyle

    deitirme (replacement) mantyla oluturulur.

    Mevcut bir aa eitim seti yenileme mantyla oluturulurken, verinin te biri aacn

    dnda kalr. Kalan ksm, aalarn aa kmesine eklenirken snflandrma hatasn

    hesaplamak amacyla kullanlr.

    Aalarn her biri oluturulduktan sonra, tm veri aa zerinde altrlr ve her veri ifti

    iin yaknlk hesab yaplr. Eer iftin her biri ayn son dm zerine yerleirse yaknlk

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    33/56

    24

    deerleri 1 arttrlr. altrma bittikten sonra yaknlk deerleri aa saysna blnerek

    normalizasyon yaplr [7].

    Breiman (Breiman, 2001), Rastgele Orman zerine yapt almada bu yntemin aa

    tahminlerinin bir birleimi olduunu belirtmitir. Her aa, aa kmesindeki her aaca ayn

    ekilde datlan ve birbirinden bamsz olarak rneklendirilen rastlantsal bir vektrn

    deerlerine dayanr. Breimana gre, aa snflandrclarndan oluan bir aa kmesinin

    genelleme hatas, aalarn her birinin kmedeki bireysel glerine ve aralarndaki

    korelasyona baldr.

    Bu almada, WEKAda Breimann (Breiman, 2001) almas esas alnarak oluturulan

    fonksiyonlar varsaylan parametreler ile kullanlmtr.

    4.7 Korelasyon Tabanl zellik SemeYakn zamandaki almalar, zellik alt kmesi semenin makine renmesi yntemlerinin

    performansna olumlu bir etkisi olduunu gstermitir. Baz algoritmalar, ok fazla veri

    yznden yavalarken ya da performanslar kt etkilenirken bazlarnn renme ilemiyle

    ilikileri olmayabilir. Bu nedenle, zellik alt kme seimi, renme yntemlerinin

    performansn arttran bir yntemdir (Hall ve Smith, 1997).

    Korelasyon Tabanl zellik Seme (KTS), korelasyona dayanan bir zellik alt kme seme

    metodudur. KTS, hesaplama yapar ve zellik vektrlerinin kendilerindense zellik alt

    kmelerini derecelendirir. Bu yntemin temelinde, zellik alt kmelerinin deerini hesaplama

    vardr. Bu hesaplamada, tek bana snf etiketini tahmin eden zelliklerin saysna baklrken,

    korelasyonun derecesi de gz nne alnr (Hall, 1998).

    KTS yntemi olduka esnektir, eitli aratrma ve deerlendirme metodlarnn

    birletirilmelerine imkan salar.

    Bu almadaki zellik alt kmeleri, WEKAnn [1] KTS uygulamas ile oluturulmutur.

    4.8 Oylama (Vote)Baz durumlarda, sadece bir snflandrcdan alnan sonu verimli olmayabilir, ya da tek bir

    snflandrcya bal kalmak istenmeyebilir. Farkl veri gruplar zerinde snflandrclarn

    baars farkllk gsterebilir. Bir veri grubunda baarl olan bir yntem, ikinci bir veri

    grubunda ayn baary gstermeyebilir. Bu durumda snflandrclarn birletirilmesi gerekir.

    Baar orann ve doruluunu arttrmak amacyla eitli snflandrclar birletirilebilir.

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    34/56

    25

    Oylama yntemi de bunlardan biridir.

    Oylama, saysal tahminleri veya olaslk deerlerini kullanarak snflandrclar birletirme

    yntemidir. Her snf iin olaslk deerleri veya saysal tahminler toplanr. En yksek

    toplama sahip olan snf kazanan snftr.

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    35/56

    26

    5. DENEYSEL SONULARDeneysel sonular alnrken farkl alanlarda yazan 18 yazarn, 35 farkl yazsndan oluan

    farkl klliyat kullanlmtr. Her bir yazya ait 14 adet deiik zellik vektr

    oluturulmutur. zellik vektrlerinin yazar belirmedeki baarlarn test ederken 10lu apraz

    geerlilik (10-fold cross validation) kullanlmtr.

    apraz geerlilik, eitim seti ile renilen modelin baka yeni setler zerinde nasl

    performans gstereceini hesaplayan yaklamlardam biridir. xli apraz geerlilikte, veri x

    adet eit alt kmeye blnr. Her defasnda eitim setinden farkl bir alt kme karlarak

    sistemx defaeitilir [8].

    Weka paketi ierisinde yer alan snflandrma yntemlerini kullanrken (Naive Bayes, DVM,

    KA, K-Enyakn Komuluk ve RO) varsaylan parametreler tercih edilmitir. K-Enyakn

    Komuluk yntemi ile snflandrma yaplrken eitli k deerleri denenmi, bunlar arasnda

    en baarl olan k = 7 deeri seilmitir.

    5.1 Klliyata Gre Deneysel SonularBu blmde farkl klliyat zerinde yaplan deneysel sonular srasyla verilmitir.

    5.1.1 Klliyat-I iin Deneysel Sonularlk nce, popler hayat, gncel, ekonomi, dnya ve salk gibi farkl konularda yazan 18

    yazara ait 35 dokman alnarak oluturulan Klliyat-I zerinde, 14 farkl zellik vektr

    kullanlarak 6 farkl snflandrcyla deneyler yaplmtr. izelge 5.1de 18 farkl yazarn

    snflandrlmasndan alnan baar sonular verilmitir.

    Klliyat-Ideki en iyi performans %82,1 olup istatistiksel, kelime zenginlii, dilbilgisel ve

    ilevsel kelime frekans zelliklerinden oluturulan Vgt zellik vektr ile DVM snflandrma

    ynteminden alnmtr. DVM ynteminin, bu veri seti zerinde zellik vektrnn boyutu

    arttka daha iyi sonular verdii gzlemlenmitir. En kt sonu ise Visl ile KA

    snflandrcs kullanldnda alnmtr. Baar oran % 9,2 olmutur.

    Tm snflandrclarn 14 zellik vektrnde verdikleri baarlarn ortalamalar alndnda

    Naive Bayesin %55,5 ile en baarl, DHnn % 28,5 ile bu klliyatta en baarsz yntem

    olduu gzlenmitir (izelge 5.1).

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    36/56

    27

    izelge 5.1 Klliyat-I zerinde elde edilen snflandrma baarlar

    zellik Vektr RO% NB% DVM% KA% K-EK%Vist 60,3 55,5 41,9 59,6 56,3

    Vzen 14,9 19,2 14,1 18,7 17,1

    Vdilt 46 45,4 27,1 45,7 45,4

    Vdilc 43,8 40,7 36,5 46,3 41,1

    Visl 30,4 62,8 76,2 9,2 19,2

    Vgt 49,6 67,7 82,1 10,6 25,5

    Vgc 48 66,5 80 8,5 23,6

    Vgist 71,4 68 65,9 71,4 68,6

    Ort Baar %45,6 53,2 53 33,8 37,1

    Vdilta 40,8 40,4 18,2 45,8 45,8

    Vdilca 42,5 40,1 35,1 44,9 42,8

    Visla 40 53 48,6 45 42,7

    Vgta 70 74,1 72,9 72,7 64,7

    Vgca 69,5 75,4 70,3 72,2 66,6

    Vgista 67,9 67,5 60,5 71,7 65,4 Ort Baar %

    55,1 58,4 50,9 58,7 54,7

    Genel Ort Baar %49,7 55,5 52,1 44,4 44,6

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    37/56

    28

    zellik vektrlerinin her bir snflandrc iin verdikleri doruluk oranlar toplanarak

    ortalamas alndnda en baarl vektr Vgta iken, performans en dk vektr Vzen

    olmutur (izelge 5.1).

    Genel olarak Klliyat -Iin baars ortalama olarak %45,8dir.

    5.1.2 Klliyat-II iin Deneysel SonularSadece gncel konularda yazan 9 yazara ait 35 dokman alnarak oluturulan Klliyat-II

    zerinde, 6 farkl snflandrc kullanlarak 14 farkl zellik vektr ile deneyler yaplmtr.

    izelge 5.2de bu deneyler sonucunda elde edilen baar sonular verilmitir.

    Klliyat-IIde %85 olan en yksek baar oran, istatistiksel, kelime zenginlii, dokman bazl

    dilbilgisel ve ilevsel kelime frekans zelliklerinden oluturulan Vgc zellik vektrnn,

    KA yntemiyle snflandrmas sonucunda elde edilmitir. KA yntemi, bu veri setizerinde Klliyat-Ie gre daha iyi sonular vermitir. En kt sonu ise Vzen ile DVM

    snflandrcs kullanldnda alnmtr. Baar oran % 14,9 olmutur.

    Tm snflandrclarn 14 zellik vektrnde verdikleri baarlarn ortalamalar alndnda

    KA yntemi %64,6 ile en iyi performans, DH yntemi ise % 43,1 ile en kt performans

    veren yntem olmutur (izelge 5.2).

    zellik vektrlerinin ortalamas alndnda en baarl vektr Vgca iken, performans en

    dk vektr Vzendir (izelge 5.2).

    Genel olarak Klliyat-IInin baars ortalama olarak % 56,7dir.

    5.1.3 Klliyat-III iin Deneysel SonularPopler hayat, gncel, dnya, salk veya ekonomi konularnda yazan 9 yazarn 35 dokman

    alnarak oluturulan Klliyat-III zerinde, 14 farkl zellik vektr kullanlarak 6 farkl

    snflandrcyla deneyler yaplmtr. izelge 5.3te 9 farkl yazarn snflandrlmasndan

    alnan baar sonular verilmitir.

    Klliyat-IIIdeki en iyi performans %89,2 olup, istatistiksel, kelime zenginlii, dokman bazl

    dilbilgisel ve ilevsel kelime frekans zelliklerinden oluturulan Vgc zellik vektr ile KA

    snflandrma ynteminden alnmtr. En kt sonu ise Vzen ile DVM snflandrcs

    kullanldnda %28,2 olarak alnmtr.

    Tm snflandrclarn 14 zellik vektrnde verdikleri baarlarn ortalamalar alndnda

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    38/56

    29

    izelge 5.2 Klliyat-II zerinde elde edilen snflandrma baarlar

    zellik Vektr RO% NB% DVM% KA% K-EK%Vist 68,9 72,7 66,3 72,4 68,9

    Vzen 15,5 19,3 14,9 15,5 17,5

    Vdilt 63,5 64,8 54,6 61,2 57,1

    Vdilc 40,3 41 42,5 42 39,4

    Visl 41 58,7 77,1 77,7 25,4

    Vgt 51,1 65,4 82,2 83,5 33,7

    Vgc 56,2 65,7 83,8 85 34,2

    Vgist 76,5 76,8 77,7 76,5 69,8 Ort Baar % 51,6 58,1 62,4 64,2 43,3

    Vdilta 55,9 58,4 42,2 59,4 57,5

    Vdilca 35,5 41,6 36,2 36,5 36,5

    Visla 60,0 67,3 69,5 63,2 52,0

    Vgta 75,5 80,0 78,4 75,9 68,0

    Vgca 78,4 84,1 79,7 81,0 73,3

    Vgista 74,3 78,7 72,4 74,3 74,9 Ort Baar % 63,3 68,4 63,1 65,1 60,4

    Genel Ort Baar % 56,6 62,5 62,7 64,6 50,6

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    39/56

    30

    izelge 5.3 Klliyat-III zerinde elde edilen snflandrma baarlar

    zellik Vektr RO% NB% DVM% KA% K-EK%Vist 75 72 52,7 68 67,3

    Vzen 33 29,8 28,2 34,6 33

    Vdilt 64,1 53,7 30,8 60 58,4

    Vdilc 54,9 60,3 55,5 60,6 55

    Visl 53,3 76,2 82,5 87,9 31,1

    Vgt 64,1 79 87,6 88,9 41

    Vgc 65 78,4 87 89,2 35,2

    Vgist 81 76,2 71,4 79,4 72,7Ort Baar % 61,3 65,7 62,0 71,1 49,2

    Vdilta 58,4 54,3 30,5 60,7 58,4

    Vdilca 57,1 59,0 56,2 60,0 59,4

    Visla 65,0 74,0 75,9 75,0 59,0

    Vgta 80,3 85,0 85,0 84,0 76,2

    Vgca 79,4 85,0 86,0 84,1 73,0

    Vgista 80,3 75,5 66,3 75,5 72,4Ort Baar % 70,1 72,1 66,7 73,2 66,4

    Genel Ort Baar % 65,1 68,5 64,0 72,0 56,6

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    40/56

    31

    KA ynteminin %72 ile en baarl, DH ynteminin %44,2 ile en baarsz olduu

    gzlenmitir (izelge 5.3).

    zellik vektrlerinin ortalamas alndnda en baarl vektr Vgta iken, performans en

    dk vektr Vzen olarak tespit edilmitir (izelge 5.3).

    Genel olarak Klliyat-IIIn baars ortalama %61,7dir.

    5.2 Yntemlere Gre Deneysel SonularBu blmde kullandmz alt yntemin yazar tanmadaki baarlar ayr ayr verilmektedir.

    5.2.1 Rastgele OrmanRastgele Orman yntemi ile her klliyattan elde edilen snflandrma baar oranlarekil

    5.1deki grafikte gsterilmitir.

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    Vist

    Vzen

    Vdilt

    Vdilc Vi

    sl Vgt

    Vgc

    Vgist

    Vdilta

    Vdilc

    aVi

    sla Vgta

    Vgca

    Vgist

    a

    zellik Vektr

    Baar

    Oran

    %

    Klliyat-I

    Klliyat-II

    Klliyat-III

    ekil 5.1 Rastgele Orman yntemi ile her klliyattan elde edilen snflandrma baaroranlar

    Rastgele Orman ynteminin Klliyat-I zerindeki en yksek baars %71,4 olup Vgist zellik

    vektrnden elde edilmitir. En kt sonu ise Vzen zellik vektr ile al nan %14,9dur.

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    41/56

    32

    Klliyat-II ile yaplan deneylerde bu yntemin en iyi performans Vgca ile alnan %78,4

    sonucudur. En kt performans ise Vzen zellik vektr ile alnan %15,5dir. Klliyat-IIIte

    elde edilen en yksek baar %81 olup, Vgist zellik vektrnden elde edilmitir. En kt

    sonu yine Vzen zellik vektrnden elde edilen % 33tr.

    zellik vektrlerine gre ortalama alndnda Rastgele Ormann en baarl olduu zellik

    vektr %76,3 baar ile Vgisttr. Snflandrma iin en elverisiz zellik vektr ise %21,1

    ile Vzen dir.

    Her klliyat iin baar ortalamalar hesaplandnda, RO snflandrma ynteminin Klliyat-

    IIIte, %65 ile en baarl sonu verdii gzlemlenmitir.

    Genel olarak klliyat iin Rastgele Orman ynteminin ortalama baars % 57,1dir.

    5.2.2 Naive BayesNaive Bayes snflandrcs kullanlarak her klliyattan elde edilen baar sonularekil

    5.2deki grafikte gsterilmitir.

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    Vist

    Vzen Vd

    ilt

    Vdilc Vi

    slVg

    tVg

    cVg

    ist

    Vdilta

    Vdilc

    aVi

    slaVg

    taVg

    ca

    Vgist

    a

    zellik Vek tr

    BaarOran

    %

    Klliyat-I

    Klliyat-II

    Klliyat-III

    ekil 5.2 Naive Bayes snflandrcs kullanlarak her klliyattan elde edilen baar oranlar

    Naive Bayes ynteminin Klliyat-I zerindeki en yksek baars %75,4 olup, Vgca zellik

    vektrnden elde edilmitir. En kt sonu ise Vzen zellik vektr ile alnan %19,2dir.

    Klliyat-II ile yaplan deneylerde bu yntemin en iyi performans Vgca ile alnan %84,1lik

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    42/56

    33

    sonutur. En kt performans ise Vzen zellik vektr ile alnan %19,3tr. Klliyat-IIIte

    alnan en yksek baar %85 olup, hem Vgta hem de Vgca zellik vektrnden elde

    edilmitir. En kt sonu yine Vzen zellik vektrnden elde edilen %29,8dir.

    zellik vektrlerine gre ortalama alndnda Naive Bayesin en baarl olduu zellik

    vektr %81 baar ile Vgcadr. Snflandrma iin en elverisiz zellik vektr ise % 22,7 ile

    Vzendir.

    Her klliyat iin baar ortalamalar hesaplandnda % 68,5lik baar oranyla Klliyat-III,

    Naive Bayesin en baarl sonu verdii klliyattr.

    Genel olarak klliyat iin Naive Bayes ynteminin ortalama baars % 62,1dir.

    5.2.3 Destek Vektr MakinesiDestek Vektr Makinesi metodu ile her klliyattan elde edilen baar oranlar ekil

    5.3deki grafikte gsterilmitir.

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100

    Vist

    V

    zen

    Vdilt

    V

    dilc

    Visl Vg

    tVg

    c

    V

    gist

    V

    dilta

    Vdilca

    V

    isla

    Vgta

    V

    gca

    Vgista

    zellik Vektr

    BaarOran

    %

    Klliyat-I

    Klliyat-II

    Klliyat-III

    ekil 5.3 Destek Vektr Makinesi metodu ile her klliyattan elde edilen baar oranlar

    Destek Vektr Makinesi yntemi ile Klliyat-I zerinde yaplan snflandrmada en yksek

    baar %82,1 olup, Vgt zellik vektrnden elde edilmitir. En kt baar sonucu ise Vzen

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    43/56

    34

    zellik vektr ile alnan %14,1dir. Klliyat-II ile yaplan deneylerde bu yntemin en iyi

    performans Vgc ile alnan %83,8 sonucudur. En kt performans ise Vzen zellik vektr ile

    alnan %14,9dur. Klliyat-IIIte alnan en yksek baar %87,6 olup, Vgt zellik vektrnden

    elde edilmitir. En kt sonu yine Vzen zellik vektrnden elde edilen %28,2dir.

    zellik vektrlerine gre ortalama alndnda DVMnin en baarl olduu zellik vektr

    %84 baar ile Vgtdir. Snflandrma iin en elverisiz zellik vektr ise % 19luk baar ile

    Vzendir.

    Her klliyat iin baar ortalamalar hesaplandnda Klliyat-IIIn, %64 baar oran ile

    Destek Vektr Makinesinin en baarl olduu klliyat olduu gzlemlenmitir.

    Genel olarak klliyat iin Destek Vektr Makinesi ynteminin ortalama baars %

    59,6dr.

    5.2.4 ok Katmanl AlglaycSnflandrma yapmak amacyla ok Katmanl Alglayc yntemi ile deney yapldnda

    klliyatlardan elde edilen baar oranlarekil 5.4deki grafikte gsterilmitir.

    ok Katmanl Alglayc ynteminin, Klliyat-I zerindeki en yksek baars %72,7 olup,

    Vgta zellik vektrnden elde edilmitir. En kt sonu ise, Vgc zellik vektr ile alnan

    %8,5tir. Klliyat-II ile yaplan deneylerde bu yntemin en iyi performans Vgc ile alnan

    %85tir. En kt performans ise, Vzen zellik vektr ile al

    nan % 15,5tir. Klliyat-IIItealnan en yksek baar %89,2 olup, Vgc zellik vektrnden elde edilmitir. En kt sonu

    Vzen zellik vektrnden elde edilen %34,6dr. KA yntemi Klliyat-Ide dier

    klliyatlara nazaran daha kt bir performans gstermitir. Klliyat-I iin Visl, Vgt ve Vgc ile

    alnan sonular dier klliyatlara gre olduka dktr.

    zellik vektrlerine gre ortalama alndnda bu yntemin en baarl olduu zellik vektr

    %77,5 baar ile Vgtadr. Snflandrma iin en elverisiz zellik vektr ise %23 ile

    Vzendir.

    Her klliyat iin baar ortalamalar hesaplandnda Klliyat-IIIn, %72 baar oran ile ok

    Katmanl Alglaycnn en baarl olduu klliyat olduu gzlemlenmitir.

    Genel olarak klliyat iin ok Katmanl Alglayc ynteminin ortalama baars

    %60,3tr.

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    44/56

    35

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100

    Vist

    Vzen

    Vdilt

    Vdilc Vi

    sl Vgt

    Vgc

    Vgist

    Vdilta

    Vdilc

    aVi

    sla Vgta

    Vgca

    Vgist

    a

    zellik Vektrleri

    BaarOran

    %

    Klliyat-I

    Klliyat-II

    Klliyat-III

    ekil 5.4 ok katmanl alglayc yntemi ile deney yapldnda klliyatlardan elde edilenbaar oranlar

    5.2.5 K-Enyakn KomulukK-Enyakn Komuluk ile snflandrma yaplarak her klliyattan elde edilen baar oranlarekil 5.5deki grafikte gsterilmitir.

    K-Enyakn Komuluk ynteminin Klliyat-I zerindeki en yksek baars %68,6 olup, Vgist

    zellik vektrnden elde edilmitir. En kt sonu ise, Vzen zellik vektr ile alnan

    %17,1dir. Klliyat-II ile yaplan deneylerde bu yntemin en iyi performans Vgista ile alnan

    %74,9 sonucudur. En kt performans ise, Vzen zellik vektr ile alnan %17,5tir.

    Klliyat-IIIte alnan en yksek baar %76,2 olup, Vgta zellik vektrnden elde edilmitir.

    En kt sonu yine Visl zellik vektrnden elde edilen %31,1dir.

    zellik vektrlerine gre ortalama alndnda K-Enyakn Komuluk ynteminin en baarl

    olduu zellik vektr %71 baar ile Vgcadr. Snflandrma iin en elverisiz zellik

    vektr ise %22,5 ile Vzendir.

    Her klliyat iin baar ortalamalar hesaplandnda %56,6lk baar oranyla Klliyat-III,

    K-Enyakn Komulukun en baarl olduu klliyattr.

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    45/56

    36

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    Vist

    Vzen

    Vdilt

    Vdilc Vi

    sl Vgt

    Vgc

    Vgist

    Vdilta

    Vdilc

    aVi

    sla Vgta

    Vgca

    Vgist

    a

    zellik Vektr

    BaarOran

    %

    Klliyat-I

    Klliyat-II

    Klliyat-III

    ekil 5.5 K-Enyakn komuluk ile snflandrma yaplarak her klliyattan elde edilen baaroranlar

    Genel olarak klliyat iin K-Enyakn Komuluk ynteminin ortalama baars % 50,6dr.

    5.2.6 z Dzenleyici zellik Haritasz Dzenleyici zellik Haritas yntemi ile her klliyattan elde edilen baar oranlarekil

    5.6deki grafikte gsterilmitir.

    z Dzenleyici zellik Haritas ynteminin Klliyat-I zerindeki en yksek baars % 38,3

    olup, Vgist zellik vektrnden elde edilmitir. En kt sonu ise, Vzen zellik vektr ile

    alnan %15,2dir. Klliyat-II ile yaplan deneylerde bu yntemin en iyi performans Vgc ile

    alnan %53 sonucudur. En kt performans ise, Vzen zellik vektr ile alnan %18,4tr.

    Klliyat-IIIte alnan en yksek baar %51 olup Vgist zellik vektrnden elde edilmitir. Enkt sonu yine Vzen zellik vektrnden elde edilen %30,9dur.

    zellik vektrlerine gre ortalama alndnda z Dzenleyici zellik Haritasnn en baarl

    olduu zellik vektr %47,6 baar ile Vgisttir. Snflandrma iin en elverisiz zellik

    vektr ise %21,5 ile Vzendir.

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    46/56

    37

    0

    10

    20

    30

    40

    50

    60

    Vist

    Vzen

    Vdilt

    Vdilc Vi

    sl Vgt

    Vgc

    Vgist

    Vdilta

    Vdilc

    aVi

    sla Vgta

    Vgca

    Vgist

    a

    zellik Vektr

    BaarOran

    %

    Klliyat-I

    Klliyat-II

    Klliyat-III

    ekil 5.6 z dzenleyici zellik haritas yntemi ile her klliyattan elde edilen baaroranlar

    Her klliyat iin baar ortalamalar hesaplandnda Klliyat-IIIn, %44,2 baar oran ile

    z Dzenleyici zellik Haritasnn en baarl olduu klliyat olduu gzlemlenmitir.

    Genel olarak klliyat iin z Dzenleyici zellik Haritas ynteminin ortalama baars

    %38,6dr.

    5.3 Snflandrc Birletirmeye Gre Deneysel SonularSadece bir snflandrcya bal kalmamak, baary arttrmak dncesiyle klliyatlar

    zerinde yaplan deneyler sonucunda baarl performans gsteren snflandrc seilerek

    oylama mantyla birletirme yaplmtr. Bu yntemler Naive Bayes, Destek Vektr

    Makinesi ve Rastgele Ormandr. Birletirilmi snflandrclar daha nceki deneylerde en iyi

    sonular veren zellik vektrleri zerinde denenmitir. Bu zellik vektrleri Vist, Visl, Vgt,

    Vgta, Vgc, Vgca, Vgisttir.

    Klliyat-I zerinde birletirilmi snflandrc ile yaplan almada elde edilen sonular

    izelge 5.4 te verilmitir.

  • 8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro

    47/56

    38

    izelge 5.4 Klliyat-I iin snflandrc birletirme sonular

    Klliyat-Ide snflandrc birletirme ile alnan sonular genel olarak bireysel

    snflandrclarla elde edilenden daha iyidir. Ancak, sadece DVM kullanldnda en yksek

    baar %82,1 elde edilmiken, snflandrclarn birletirilmesinde seilen yntemlerden biri

    DVM olmasna ramen en yksek sonu olarak %76,5 alnmtr. Bunun sebebi DVM ile

    birletirilen dier snflandrclarn DVMden daha farkl tahmin deerleri vermesidir.

    Snflandrma ilemi, oylama mantna dayandndan bu da baarnn dmesine sebep

    olmutur.

    Birletiricilerle elde edilen en yksek baar Vgca vektr ile NB, DVM ve RO yntemlerinin

    birletirilmesinden elde edilen %76,5tir. En dk baar ise Vist vektrndeki zelliklerle

    NB ve DVM yntemleri birletirilerek yaplan snflandrmada alnan %55,7dir.

    Birletirilmi snflandrclarn ortalamalar alndnda en baarl kombinasyonun %69 ile

    NB, DVM ve RO olduu gzlemlenmitir. zellik vektrleri baznda ortalama

    hesaplandnda ise Klliyat-I iin bu birletirmelerle en iyi sonu veren zellik vektr %

    76lk baar oran ile Vgcadr.

    Klliyat-Iin snflandrc birletirmedeki genel baars %68,3tr.

    Klliyat-II zerinde birletirilmi snflandrc ile yaplan almada elde edilen sonular

    izelge 5.5te verilmitir.

    Snflandrclar

    zellikVektr NB-RO % NB-DVM % NB-DVM-RO %

    Vist 62,2 55,7 62,7

    Visl 63 62,9 63

    Vgt 68 67,7 68

    Vgta 74,8 74 74,8

    Vgc 66,5 66,5 66,5

    Vgca 76,5 75,2 76,5

    Vgist 71,1 68 71,1

    Ort. Baar 68,9 67,1