melez yaklasimlarla turkce dokumanlarda yazar tanima author attribution of turkish documents with...
TRANSCRIPT
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
1/56
YILDIZ TEKNK NVERSTES
FEN BLMLER ENSTTS
MELEZ YAKLAIMLARLA
TRKE DOKMANLARDA YAZAR TANIMA
Filiz TRKOLU
FBE Bilgisayar Mhendislii Anabilim Dal Bilgisayar Mhendislii Programnda
Hazrlanan
YKSEK LSANS TEZ
Tez Danman : Yrd. Do. Dr. Banu DR
STANBUL, 2006
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
2/56
ii
NDEKLER
Sayfa
KISALTMA LSTES ...............................................................................................................iv
EKL LSTES ......................................................................................................................... v
ZELGE LSTES ...................................................................................................................vi
NSZ.....................................................................................................................................vii
ZET.......................................................................................................................................viii
ABSTRACT .............................................................................................................................. ix
1. GR
.......................................................................................................................1
2. YAZAR TANIMA ALANINDA YAPILMI NCEK ALIMALAR .............3
3. YAZARLIK ZELLKLER ..................................................................................8
3.1 zellik Vektrleri .................................................................................................... 83.1.1 statistiksel zellikler ..............................................................................................83.1.2 Kelime Zenginliine Dayal zellikler ................................................................... 93.1.3 Dilbilgisi zellikleri .............................................................................................. 103.1.4 levsel Kelimeler .................................................................................................. 113.2 zellik Birletirme Yoluyla Oluturulan Vektrler ..............................................11
3.3 zellik Azaltma Yoluyla Oluturulan Vektrler...................................................123.4 Klliyat ..................................................................................................................133.4.1 Klliyat - I .............................................................................................................143.4.2 Klliyat - II ............................................................................................................143.4.3 Klliyat - III...........................................................................................................14
4. SINIFLANDIRMA YNTEMLER..................................................................... 15
4.1 Naive Bayes...........................................................................................................154.2 Destek Vektr Makinesi DVM (Support Vector Machine SVM)...................174.2.1 Bire Kar Hepsi (One-Against Rest) .................................................................... 194.2.2 Bire Kar Bir (Pairwise) .......................................................................................19
4.2.3 Ynlendirilmi evrimsiz izge (Directed Acyclic Graph) ................................. 194.3 K-En Yakn Komuluk K-EK (K-Nearest Neighbour- K-NN)..........................194.4 ok Katmanl Alglayc KA (Multiple Layer Perceptron MLP)................. 204.5 z Dzenleyici zellik Haritas DH (Self Organizing Map SOM).............214.6 Rastgele Orman RO (Random Forest - RF) .......................................................234.7 Korelasyon Tabanl zellik Seme ....................................................................... 244.8 Oylama (Vote) .......................................................................................................24
5. DENEYSEL SONULAR.................................................................................... 26
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
3/56
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
4/56
iv
KISALTMA LSTES
AADTT Automatic Author Detection for Turkish TextKA ok Katmanl AlglaycDVM Destek Vektr MakinesiK-EK K-Enyakn KomulukKTS Korelasyon Tabanl zellik Seme
NB Naive BayesDH z Dzenleyici zellik HaritasRO Rastgele OrmanTKV Trke Kelime Veritaban
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
5/56
v
EKL LSTES
Sayfa
ekil 4.1 DVM yntemi ile dorusal snflandrma.........................................................18ekil 5.1 Rastgele Orman yntemi ile her klliyattan elde edilen snflandrma baar
oranlar ..............................................................................................................31
ekil 5.2 Naive Bayes snflandrcs kullanlarak her klliyattan elde edilen baaroranlar. .............................................................................................................32
ekil 5.3 Destek Vektr Makinesi metodu ile her klliyattan elde edilen baaroranlar ..............................................................................................................33
ekil 5.4 ok katmanl alglayc yntemi ile deney yapldnda klliyatlardan eldeedilen baar oranlar......................................................................................... 35
ekil 5.5 K-Enyakn komuluk ile snflandrma yaplarak her klliyattan elde edilenbaar oranlar.................................................................................................... 36
ekil 5.6 z dzenleyici zellik haritas yntemi ile her klliyattan elde edilen baaroranlar ..............................................................................................................37
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
6/56
vi
ZELGE LSTES
Sayfa
izelge 2.1 Yazar tanma alannda yaplan almalarn karlatrmas ...............................6izelge 3.1 zellik saylar indirgenmi olan yeni zellik vektrleri..................................13izelge 3.2 Klliyat ierisinde yer alan yazarlar ................................................................. 13
izelge 5.1 Klliyat-I zerinde elde edilen snflandrma baarlar ................................... 27izelge 5.2 Klliyat-II zerinde elde edilen snflandrma baarlar .................................. 29izelge 5.3 Klliyat-III zerinde elde edilen snflandrma baarlar................................. 30izelge 5.4 Klliyat-I iin snflandrc birletirme sonular ............................................38izelge 5.5 Klliyat-II iin snflandrc birletirme sonular ...........................................39izelge 5.6 Klliyat-III iin snflandrc birletirme sonular..........................................40izelge 6.1 Yntemlerden alnan en baarl sonular ve bu sonular veren zellik
vektrleri........................................................................................................... 41izelge 6.2 Snflandrc birletirilerek elde edilen en iyi sonular, klliyat ve zellik
vektrleri ...........................................................................................................42
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
7/56
vii
NSZ
Yapay Zekann bir dal olan Doal Dil leme alannda yaplm olan bu almann amac,yazar belli olmayan dokmanlarn yazarn bulmaya almaktadr. alma, Trkedokmanlar zerinde farkl zellikler karlarak eitli snflandrma yntemleriyledokmann ait olduu snf bulmaya dayanmaktadr. Ayrca, bu zellik ve yntemlerin
birletirilmi halleri de snflandrma yaplrken analiz edilmitir. Bu alma, Trkedokmanlar iin yazar tanma alannda yaplm bu gne kadarki en kapsaml almadr.
almam boyunca hi eksik etmedii motivasyonu ve zaman ynetimi, ynlendirmesi,esirgemedii yardm iin ve zamann bana tm titizliiyle ayrd iin Yrd.Do.Dr.BanuDiriye teekkr ederim.
Desteini pratik zmlere dntrerek yol almamdaki yardmlar iin Ar.Gr.M.FatihAmasyalya teekkr ederim.
Bu uzun alma boyunca bana kar hep anlayl ve sevgi dolu olan aileme ve arkadalarmada sonsuz teekkr ederim.
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
8/56
viii
ZET
nternetin yaygnlamasyla elektronik ortamdaki dokman says olduka artmtr. Gittikeartan bu bilgiye daha kolay ve hzl erimek amacyla metin snflandrma nemkazanmaktadr. Son yllarda, metin snflandrma alannda yaplan almalarn bir ksm,yazar tanma ad verilen ve anonim bir metnin yazarn veya yazarpheli olan bir metninyazarn belirlemeyi amalayan almalar kapsamaktadr.
Bu almada, Trke dokmanlarn yazarlarnn belirlenmesinde farkl zelliklerin vesnflandrclarn performansa etkileri aratrlmtr. Dokmanlarn istatistiksel, dilbilgisel,kelime zenginliine dayal zellik vektrleri karlmtr. Ayrca Trke dokmanlar iin ilkdefa, ilevsel kelimelerin frekanslar karlarak ayr bir zellik vektr daha oluturulmutur.Sonraki aamada seilen baz vektrler birletirilerek yeni zellik vektrleri oluturulmutur.Sistemin renmesine etkisi olmayan veya ayrt edici zellii fazla bulunmayan zelliklerielemek amacyla, zelllik azaltma metodu uygulanarak yeni vektrler elde edilmitir.Sonuta, 14 farkl zellik vektr oluturulmu ve bunlar ile denemeler yaplmtr.
Kullanlan klliyat, salk, gndem, ekonomi gibi farkl konularda yazan 18 yazara ait, 35adet dokman alnarak 630 metinden olumaktadr. Farkl dokman gruplarnn, farklkonularda yazlan metinlerin ve yazar saysnn baarya olan etkisini gzlemlemek amacyla3 farkl klliyat grubu oluturulmutur. Tm deneylerde 10-kat apraz geerlilikuygulanmtr.
Yazar belirlemede hangi zellik veya zellik birleimlerinin daha baarl olduunu analizetmek amacyla alt farkl snflandrma metodu kullanlarak performanslar karlatrlmtr.Bu metodlar Naive Bayes, Destek Vektr Makinesi, Rastgele Orman, K-Enyakn Komuluk,ok Katmanl Alglayc ve z Dzenleyici zellik Haritas dr. Snflandrc birletirmeileminin performansn gzlemlemek amacyla, Naive Bayes, Destek Vektr Makinesi ve
Rastgele Orman yntemleri birletirilmitir.
Yaplan denemelere gre, en baarl sonular, yazar saysnn az olduu ve farkl konulardakiyazlardan oluan klliyattan elde edilmitir. Tm zelliklerin birletirilmesinden oluanzellik vektr, dierlerine gre daha iyi performans gstermi ve en yksek baar orannok Katmanl Alglayc yntemi vermitir. Birletirilmi snflandrclar ile bireyselsnflandrclara gre daha dk baar sonular alnmtr.
Anahtar kelimeler: Yazar tanma, metin snflandrma, zellik seme, snflandrcbirletirme, Naive Bayes, Destek Vektr Makinesi, Rastgele Orman, K-Enyakn Komuluk,ok Katmanl Alglayc ve z Dzenleyici zellik Haritas.
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
9/56
ix
ABSTRACT
There are numerous text documents available in electronic form. With the rapid growth ofonline information, text categorization has become one of the best automated techniques forhandling, organizing text data. During the last decades, many classification tasks that arecalled author attribution were studied for identifying the author of an anonymous text, or textwhose authorship is in doubt.
In this study the effect of different features and classifiers on performance of authorattribution of Turkish texts are explored. Different vectors of statistical, grammatical, richnessfeatures are generated. Also a set of function words were applied on Turkish documents forthe first time. All feature sets are combined and new vectors are obtained. In order to escapefrom features that are not relevant and beneficial for learning, feature selection method isapplied over features and new vectors are formed from these reduced features. In the end weobtained 14 different feature vectors.
Corpus used in this work is formed from singly-authored 630 documents obtained from 35
texts per 18 different authors that are writing on different subjects like medical, popularinterest and economics. To determine the capability of identifying authorship forheterogeneous documents, and different dataset sizes, this corpus is divided into 3 parts:Dataset I, Dataset II, Dataset III. Experiments are run 10-fold cross-validation on all datasets.
To analyse which features or feature combinations are successful for identifying the author ofa document, comparative performance of six different classification methods are used. Thesemethods are Naive Bayes, Support Vector Machine, Random Forest, Multilayer Perceptron,k-Nearest Neighbour and Self-organizing Feature Vector. We combined Random Forest,
Naive Bayes and Support Vector Machine in order to analyse success ratio in proportion tosingle classifiers.
According to experimental results, most successful results are obtained from corpus of whichauthor count is less and documents are written on different topics. Feature vector which iscombined from all features gives better performance than others. Highest score is obtainedfrom Multilayer Perceptron method. Combined classifiers gave poor results in proportion tosingle classifiers.
Keywords: Authorship attribution, text classification, feature selection, combining classifier, Naive Bayes, Support Vector Machine, Random Forest, Multilayer Perceptron, K-NearestNeighbour, Self-Organizing Feature Vector.
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
10/56
1
1. GRWebin yaygnlamas, bilgisayarlarn gelimesi ile elektronik metinlerin says her geen gn
artmaktadr. Bu elektronik verilere daha hzl, kolay ve doru bir ekilde eriebilmek iin
dokmanlarn otomatik olarak snflandrlmas nem kazanmaktadr.
Yapay Zeka teknolojisi gn getike daha fazla hayatmza girmekte ve daha ileri rnlerle
gelimeye devam etmektedir. Bu teknolojilerden yapay sinir alar, bilgisayarlara insann
zelliklerini kazandrmada ve bilgisayarn renmesini salamaktadr. Yapay Zekann bir
kolu olan Doal Dil leme ana ilevi doal bir dili zmleme, yorumlama, anlama ve
retme olan bilgisayar sistemlerinin tasarmn ve gerekletirilmesini konu alan bilim ve
mhendislik dal olarak tanmlanmaktadr.
Makine renmesi (Machine Learning) zaman iinde davranlarn iyiletirilmesi olarak
tanmlanmaktadr. ok saydaki rnein yorumlanmas byk boyutta insan emei ve zaman
gerektirir. Bu yorumlama maliyeti, Makine renmesi tekniklerini gerek hayattaki Doal
Dil leme uygulamalarna uyarlamadaki byk engellerden biridir.
Dokman snflandrma ilemi, dokmanlarn nceden tanmlanm kategorilerle
etiketlendirilmesidir. Doal Dil lemede dokman snflandrmann, e-posta filtreleme, yazar
tanma, web ierii organizasyonu gibi birok uygulama alan vardr.
Bir dokman nitelendirmedeki iki ana faktr, dokmann ierii ve stilidir. Stilistik zellikler
zerine literatrde yaplan almalar, dokmann ierii zerine yaplan almalarla
kyaslandnda olduka snrl sayda kalmaktadr. Bunun sebebi, stilin tam olarak
tanmlanamamas ve Doal Dil leme sistemlerine uyarlamann zor olmasdr. Stile dayal
ilemlerde istatistiksel metodlarn kullanm gereki bir yaklam olarak kantlanmtr
(Stamatatos, 2000).
Stil zelliklerine dayal snflandrma iki ekildedir:
Dokmann tr (genre detection): Dokmann trn belirlemeyle ilgilidir Yazar tanma (author attribution): Dokmann yazarn belirlemeyle ilgilidir
Stil zelliklerine dayal dokman snflandrma ileminin iki ana aamas vardr:
Stil zelliklerinin karlmas ve hesaplanmas Snflandrma
Yazar tanma, anonim veya yazarnn kim olduundan tam olarak emin olunamayan edebi
dokmanlarn yazarlarnn belirlenmesidir (Stamatatos, 2000). Ayn dokman zerinde,
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
11/56
2
yazarlk iddia eden iki kiiden hangisinin dokmann gerek yazar olduunun tespitinde veya
bir dokman yazdn kabul etmeyen kiinin tespitinde, yazar tanma uygulamalarndan
faydalanlr. Herhangi birinin almasn gizlice al p, kendi ismi altnda yaynlamak zor
deildir. Bu gibi durumlarda, yazar tanma metodlar dokmann gerek sahibini bulmakta
nemli bir rol oynamaktadr. Yazar belirleme alanndaki almalar bizim, dilleri ve insanzekasnn nasl altn anlamamz salar (Gerritsen, 2003).
renme sistemlerinde deiik renme stratejileri kullanlmaktadr. Bunlar eiticili ve
eiticisiz olmak zere ikiye ayrlr.
Eiticili renmede sistem, olay bir eitici yardmyla renir. Bu yntemde snflarn
nceden bilinmesi ve bu snflara ait belgelerden oluan bir eitim kmesi gerekmektedir.
Eitici sistemde hem rnek iin girdi, hem de o girdi sonucunda olumas beklenen kt
verilir. Sistemin yapmas gereken girdileri, eiticinin belirledii ktlara haritalamaktr.
Eiticisiz renmede ise, snflarn nceden bilinmesine ve herhangi bir aamada insan
yardmna ihtiya yoktur. Sisteme sadece girdi deerleri gnderilir ve sistemin kendi kendine
renmesi beklenir. Sistemin altrl p sonlandrlmasndan sonra ktlarn
yorumlanmasnn kullanc tarafndan yaplmas gerekmektedir.
Bu almada yazar tanma iin eiticili ve eiticisiz temel yntemler kullanlmaktadr.
Eiticili yntemlerden Destek Vektr Makineleri (Support Vector Machine), Naive Bayes, K-
Enyakn Komuluk (K-Nearest Neigbour K-NN), ok Katmanl Alglayc (MultilayerPerceptron) ve Rastgele Orman (Random Forest); eiticisiz yntemlerden de z Dzenleyici
zellik Haritas (Self Organizing Feature Map - SOFM) seilmitir. ncelikle yazara ait
zellikler kartlarak farkl zellik vektrleri elde edilmi, ayrca bu zellik vektrleri
birletirilerek yeni vektrler elde edilerek snflandrma baarlar gzlemlenmitir. Daha
sonra elde edilen zellik vektrleri kullanlarak zellik azaltc fonksiyonlar yardmyla
zellik says indirgenmi vektrler oluturulmu ve tm vektrlerin baar performanslar
birbirleri ile karlatrlmtr. almann sonucunda seilmi baz snflandrclar
birletirilerek melez bir sistem oluturulmu ve baar performanslar llmtr.
Tezin ikinci blmde, yazar tanma alannda daha nce yaplm olan almalara yer
verilmitir. nc blmde metinlerden elde edilen zellik vektrlerinin karlmas
anlatlm, drdnc blmde de bu almada kullanlm olan snflandrma yntemlerinden
ve bunlarn birletirilmesinden bahsedilmitir. Beinci blmde ise deneysel sonulara,
klliyata ve yorumlara yer verilmitir.
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
12/56
3
2. YAZAR TANIMA ALANINDA YAPILMI NCEK ALIMALARYazar tanma alannda yaplan almalarn says son yllarda hzla artmaktadr.
Stamatatos ve arkadalar (Stamatatos, 1999), szdizimsel stil zelliklerinin eitli
kombinasyonlar
n
kullanarak dokmanlar
n yazarlar
n
belirleme zerine bir al
mayapmlardr. Bu szdizimsel stil zellikleri, yaynn yapld 1999 tarihinde yazar tanma
iin en ayrdedici zellikler olarak ileri srlmtr. Yaplan almada Yunanca metinler
incelenip bunlardan tamlama ve kelime ayrtrclar elde edilmitir. Cmle says, kelime
says, noktalama iaretlerinin says, isim tamlamas says, isim tamlamasndaki kelime
says gibi zellikler karlarak kullanlmtr. Szdizim ayrtrmann yan sra dokmann
ayrtrlmayan ksmnn miktar da gz nne alnarak yazarn szdizimsel karmaklna
baklmtr. Tm bu zellikler kullanlarak 22 zellie sahip bir zellik vektr
oluturulmutur. Snflandrmada Dorusal oklu Regresyon metodu kullanlmtr. Bumetod, her yazar iin, bir dokmann o yazar tarafndan yazlma olasln reten bir model
oluturmas nedeniyle Markov modeline benzemektedir. Klliyat, bir Yunan gazetesinden
alnan 10 farkl yazarn makalelerinden olumutur. Her yazarn 20 adet yazs alnm,
bunlarn 10 tanesi eitim seti, 10 tanesi de test seti olarak kullanlmtr. Deneylerde % 69luk
doru snflandrma baars elde edilmitir. Bu almada, yazar tanma ve yazar dorulama
problemleri birbirinden ayrlarak incelenmitir. Yazar dorulamann amac, birisi tarafndan
yazar olduu iddia edilen bir metnin o kiiye ait olup olmadnn gvenilirlik seviyesinin
bulunmasdr. Yazar tanmann amac ise, bir dokmann nceden belirlenmi yazar
snflarndan hangisine ait olunduunun belirlenmesidir.
Peng ve arkadalar, (Peng, 2003) geen en sk kullanlan ladet n-gramlar karp, her yazar
n-gramlardan oluan bir vektrle modelleyerek yazar tanmay incelemilerdir. l ve nnin
eitli deerleri test edilmitir. Yazar belli olan her dokman iin zellik vektr
oluturulduktan sonra snflandrma ilemi en yakn komuluk algoritmasyla
gerekletirilmitir. 19. ve 20. yzyla ait sekiz kurgu bilim yazarnn dokmanlarndan
oluturulan bir klliyat zerinde, farkl
lve n deerleri denenerek, en s
k geen 20 unigram(n=1) kullanlarak, % 100 doruluk oran elde edilmitir. Ayn metodlar ile 20 Yunanl
yazarn dokmanlar kullanlarak yaplan yazar tanmada % 85lik baar elde edilmi iken,
ince bir klliyat zerinde bu baar % 89a ulamtr. Bu almada, farkl diller zerinde
yazar tanma yaplarak savunulan metodun dilden bamsz olduu vurgulanmtr.
Khmelev ve Tweedie (Khmelev ve Tweedie, 2001), Markov zincirlerini kullanarak bir metod
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
13/56
4
gelitirip yazar tanmay incelemilerdir. Metod, belirlenmi bir dokmann belirli bir yazar
tarafndan yazlma olasln elde etmek amacyla Markov modelini kullanr. Markov
modelinde en yksek olaslk deerini veren yazar, kazanan yazar olup, o metni onun yazd
kabul edilir. Karakter bi-gramlar (n=2) kullanlarak, her yazar iin Markov model elde edilir.
27x27lik bir matriste her 1-gramn varl saylarak her dokman iin modelleroluturulmutur. Bu matriste her satr, o satrn toplamna blnerek bir olaslk elde edilir.
almada dokmanlar n ilemlerden geirilerek, noktalama iaretleri, gereksiz boluklar ve
byk harfle balayan kelimeler alnmamtr. Kullanlan klliyat Gutenberg projesinden 45
yazarn 387 dokmanndan, Federalist yaynlarndan ve birok yazar olan Outside the Cave
of the Shadows yaynndan olumutur. Gutenberg projesindeki yazarlarn
snflandrlmasnda Markov modelleri, dokmanlarn % 74,4n doru snflandrmtr.
Outside the Cave of the Shadows klliyat alt para eklinde eitilmitir. Kayna belli
olan paralarda % 100 baar elde edilmi, Federalist yaynlarnn snflandrlmasnda ise %91 lik baar alnmtr.
Fung, (Fung, 2003) Federalist yaynlarnn yazarlk zelliklendirilmesi iin Destek Vektr
Makinesi snflandrcsn kullanlmtr. almada Federalist yaynlar as, of ve on
kelimelerinin boyutlu uzaynda bir dzlemle ayrlmlardr. Bir takm fonksiyonel
kelimeler kullanlarak Destek Vektr Makinesi uygulanm ve yaynlar birbirinden
ayrlmtr.
Diri ve Amasyal, (Diri ve Amasyal, 2003) Trke dokmanlarn yazarlarnn belirlenmesi
iin melez bir snflandrc kullanmlardr. Snflandrclardan biri dokmann ieriini,
dieri ise belirlenen 22 farkl stil zelliini kullanmaktadr. Dokman ieriine bal
snflandrmada Naive Bayes, stil zelliklerine gre snflandrma da ise kendi gelitirdikleri
Automatic Author Detection for Turkish Text (AADTT) metodunu kullanmlardr. Klliyat,
www.hurriyet.com.trden indirilen 18 yazara ait politika, gncel ve salk konulu
dokmanlardan oluup, denemeler iki farkl veri seti zerinde yaplmtr. Grup 1, 18 farkl
yazarn 20 yazs alnarak 360 dokmandan oluup, 20 yaznn 15 tanesi eitim, 5 tanesi de
test iin kullanlmtr. Grup IIde 18 farkl yazarn 35er yazs alnarak 630 dokman elde
edilmi, bunlardan 35 yaznn 28 tanesi eitim, 7 tanesi de test iin kullanlmtr. Elde
ettikleri sonulara gre stile dayal zelliklerin daha baarl olduunu vurgulamlardr. Naive
Bayes ve stile dayal zellikleri kullanan yntem birletirildiinde tanma baars
ykselmitir. Grup I zerinde Naive Bayesin baars % 43 iken, AADTT nin baars % 84
tr. Grup II iin Naive Bayesin baars % 53 iken, AADTTnin baars ise % 70tir. Her iki
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
14/56
5
yntem birletirildiinde Grup I iin % 89, Grup II iin % 82lik baar oran elde
edilmektedir. almalarnda stile dayal zelliklerin, ortak kelimelerin dokmanlarda geme
sklyla bir arada kullanldnda, tanma baarsn arttrdn sylemektedirler.
Koppel ve Schler (Koppel ve Schler, 2003), klliyatlarn bir e-posta tartma grubundaki
yazmalardan oluturarak eitli zellik vektrlerini ve bunlarn birleimini kullanarak yazar
zelliklendirme almas yapmtr. Yaptklar alma, De Vel (De Vel, 2001) tarafndan
yaplan e-posta metinleri zerindeki yazar tanma almasna paralellik gstermektedir.
Ancak Koppel ve Schler bu almadan farkl, bir e-posta dokmanndaki yapsal zellikleri
(attachment, HTML tag) kullanmamlar, dier zelliklere ek olarak kullanm ve imladan
kaynaklanan farkl sistematik hatalar da incelemilerdir. Klliyatlar, 11 yazar tarafndan
yazlan 480 e-postadan olumaktadr. E-postalarn herbiri yaklak 200 kelimeden
olumaktadr. Bu dokmanlar ileyerek farkl zellik snfna gre deerler bulmulardr.
Birinci snf, 480 tane fonksiyonel kelimenin metinlerdeki kullanm skln gstermektedir.
kinci snfta, ikili kelime gruplarnn kullanm sklna baklm ve metinde en az 3 kere
geen gruplar birer zellik olarak kullanlmtr. nc snfta ise metinde geen hatalara
baklmtr. Bu hatalar kelime tekrar, harf eksiklii, harf tekrar, fazladan harf yazlmas,
zaman kipinin yanll vb. dir. Tm denemeler 10-kat apraz salama (k-fold cross
validation) kullanlarak Destek Vektr Makinesi ve Karar Aalar yntemleriyle test
edilmitir. En yksek baar Karar Aalar iin % 72, Destek Vektr Makinesi ile de % 60
olarak elde edilmitir.
De Vel, (De Vel, 2001) yazar tanma almasn farkl konulardaki e-posta metinleri zerinde
yapm ve Destek Vektr Makinesi kullanarak bu metinleri snflandrmtr. E-posta
dokmanlar zerinde yazar tanma almalarnn yaplmas, yaynlar zerinde veya baka tr
kaynaklardan oluturulmu Klliyatlar zerinde yazar tanma almas yapmaktan daha
farkldr. ncelikle, e-posta metinlerinin boyutlar ksadr ve bilinen dil tabanl lm
yntemleri bunlar iin uygun deildir. kinci olarak, bir e-posta dokmann formle etmedeki
kompozisyon stili genelde, ayn yazar tarafndan yazlan normal metin dokmanlarndan
farkldr. almada, normal metin dokmanlarndan karlan yazar profilinin, e-posta
dokmanlarndan karlan yazar profilinden farkl olabildii zerinde durulmutur.
Kullanlan klliyat 3 farkl haber grubundan ve ana dili ngilizce olan 4 erkek yazardan
alnan, 1259 dokmandan oluturulmu ve konusu olmayan e-posta metinleri karlmtr.
Dokmanlarn gvde ksm, n ilemlerden geirilerek yantlama metinleri ve imzalar elde
edilmitir. 170 tane stil zellii ve 21 tane yapsal zellik oluturulmutur. Bunlar ksa
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
15/56
6
kelimelerin says (all, at, his, vs.), ortalama cmle uzunluu, kelime zenginlii,
ortalama kelime uzunluu, ilevsel kelimelerin says, fonksiyonel kelime frekans dalm,
kelimelerdeki karakterlerin says, noktalama iaretleri olarak alnmtr. Bu almalarn
sonucunda en yksek % 100, en dk %17,2 baar elde edilmitir. Deneylerde kullanlan
yazar says olduka azdr, ancak birok yazardan farkl konularda ok sayda e-postatoplamann kolay olmad belirtilmitir.
izelge 2.1de yazar tanma alannda son yllarda yaplm olan almalarn karlatrlmas
verilmitir. Bu tabloda kimler, hangi yntemleri kullanarak ka snf ierisinden dokmann
yazarn tandklarn, hangi doal dilde altklarn, eitim ve test setlerindeki dokman
saylar gsterilmitir.
izelge 2.1 Yazar tanma alannda yaplan almalarn karlatrmas
Eitim seti Test setiReferans Yntem(zellik) YazarSays
yazar bana metin says
Klliyatdili
Baaroran
Stamatatosvd., 1999
22 stil zellii 10 10 10 Yunanca 69%
22 stil zellii
Disk. Analiz72%
22 stil zellii
oklu Regresyon
YunancaVeri Seti A
66%
22 stil zellii
Disk. Analiz70%
Stamatatosvd., 2000
22 stil zellii
oklu Regresyon
10 10 10
Yunanca
Veri Seti B69%
En sk geen 50kelime
74%Stamatatosvd.,, 2001
22 stil zellii
10 20 10 Yunanca
81%
De Vel,2001
Yapsal ve dilselzellik
4 - ngilizce % 100
Khmelev,Tweedie2001
Markov Model
Karakter bigram45
-
GutenbergProjesi,ngilizce
% 74,4
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
16/56
7
2 -
Federalistyaynlar
ngilizce
% 91
2 -
Outsidethe Cave of
Shadowyayn,ngilizce
% 100
Koppel veSchler, 2003
Szcksel zellik,kelime gruplar,hatalar
1110-kat apraz Geerlilik
ngilizce % 100
Naive Bayes, tmkelimeler
43%
AADTT
11 stil zellii84%
NB+AADTT
18 15 5
TrkeGrup 1
89%
Naive Bayes,
tm kelimeler53%
AADTT
22 stil zellii70%
Diri veAmasyal,2003
NB+AADTT
18 28 7Trke
Grup 2
82%
6-gram model ngilizce 100%
5-gram model ince 89%Peng vd.,2003
3-gram model
8 - -
Yunanca % 97
2 roman 20 romanHalteren,2004
Dilsel zellik 89-kat apraz Geerlilik
Hollandaca 99,4%
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
17/56
8
3. YAZARLIK ZELLKLERHer yazarn kendisine zg bir yazm slubu vardr. Yazarlarn kendilerine zg olan bu
tarzna yazarlk zellii (authorship attribution) denir. Yazarlara ait dokmanlarn renme
teknikleri kullanlarak snflandrlmas iin, bu dokmanlardan belirli zelliklerin elde
edilerek, zel bir ekilde gsterilmesi gerekmektedir. Dokmanlarn birer zellik vektr
eklinde gsterimi en ok kullanlan metodlardan biridir (Salton, 1975). Her dokman, boyutu
dolan bir vektr ile ifade edilir. dboyutu, dokmann dadet farkl zellie sahip olduunu
gsterir. Bu almada dokmanlar iin drt farkl zellik vektr oluturulmutur.
3.1 zellik VektrleriBu almada daha nceki yazar tanma almalarnda ayr birer zellik olarak kullanlan
zellikler bir araya getirilerek drt farkl zellik vektr oluturulmutur. Bu drt farkl
zellik vektr istatistiksel, dilbilgisi, kelime zenginlii ve szcksel zelliklerden
olumaktadr.
3.1.1 statistiksel zelliklerlk sluba dayal almalar bir dokmandaki zellikleri sayma fikri eklinde ortaya kmtr.
Bu fikir, kelime uzunluklarn ve cmle uzunluklarn sayma eklinde hayata geirilmitir
(Diederich, 2000). Daha sonra kelime says, cmle says, bir kelimedeki harf says,
noktalama iaretleri says gibi zellikler de istatistiksel zellikler olarak yazar tanma
almalarnda olduka sk yer almaya balamtr. Graham ve arkadalar (Graham vd., 2004)
karakter ve hece cinsinden ortalama kelime uzunluunu ve her kelime uzunluunun frekansn
hesaplamtr. Kelih ve arkadalar (Kelih vd., 2005) yazar snflandrmada kelime
uzunluunun etkisini incelemilerdir. De Vel ve arkadalar (De Vel vd., 2001) e-posta
metinleri zerinde yaptklar almada ortalama cmle uzunluu, bo satrlarn tm satrlara
oran, ortalama kelime uzunluu, noktalama iaretleri says gibi istatistiksel zellikleri
kullanmlardr. Diri ve Amasyal (Diri ve Amasyal, 2003), kelime says, cmle says,
ortalama cmle uzunluu, bir kelimedeki karakter say
s
, noktalama iaretleri say
s
, kelimebana hece says vb. gibi 22 tane ayrt edici zellik belirlemi ve kullanmlardr.
Bu almada 10 farkl istatistiksel zellik kullanlmtr. Bunlar:
Dokmann uzunluu (dokmandaki toplam kelime says) Ortalama cmle uzunluu (bir cmledeki kelime says) Cmle says
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
18/56
9
Tm dokmandaki nokta says Tm dokmandaki nokta says Tm dokmandaki virgl says Tm dokmandaki noktal virgl says Tm dokmandaki iki nokta says Tm dokmandaki nlem says Tm dokmandaki soru iareti says
almada bu zellikler kullanlarak oluturulan vektrden Vistolarak bahsedilecektir.
3.1.2 Kelime Zenginliine Dayal zelliklerBir yazarn kelime daarcnn zenginliini bulmak amacyla farkl istatistiksel zellikler
kullanlmtr. Bu zellikler bir yazarn yaratcln gstermektedir. Yazar tanma
almalarndaki makalelerin bir ou kelimelere ve onlarn kullanm sklna dayanr
(Burrows 1992, Holmes 1994, Forsyth 1995). Bu durum, az sayda dokmann kelime
frekanslarnn istatiksel analizini yapmann n ilemesiyle gerekletirilir.
Bu almada yazarn kelime zenginliini lmek amacyla:
1. Farkl kelime saysnn toplam kelime saysna oran (type/token ratio)2. Dokmanda yalnzca bir kere geen kelimelerin says (hapax legomena)3. Dokmanda sadece iki defa geen kelimelerin says (hapax dislegomena)
karlm ve bu zellikler kullanlarak oluturulan vektre Vzen denilecektir.
Birinci zellik V/N olarak gsterilmektedir. V dokmandaki farkl szck says, N
dokmandaki toplam szck saysdr. Tm bu zellikler, kelime daarc asndan yazarn
daha nce kullanmad bir yazm eklini retebilme olasn hesaplar. En fazla sklkla
kullanlan kelimelerin dokmanlarda gemesi muhtemel olarak beklendiinden, nadiren
kullanlan kelimelerin bir yazar ayrdetmek iin daha nemli bir bilgi olduu dnlr.
De Vel ve arkadalar (Del Vel vd., 2001, 2002) e-posta metinlerinin yazarlarn bulmak iin
yaptklar almalarnda; Graham ve arkadalar (Graham vd., 2003) stilistik zeliklerden
faydalanarak dokmanlar snflandrma almalarnda; Stamatatos ve arkadalar
(Stamatatos vd., 2000) dokman snflandrmay hem tr hem de dokmann yazar asndan
incelediklerinde; Koppel ve Schler (Koppel ve Schler, 2004), dokmann yazarn dorulama
iin yaptklar almalarnda bu zellii de kullanmlardr.
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
19/56
10
3.1.3 Dilbilgisi zellikleriBir metindeki isim, sfat, fiil, zarf, zamir, bala, nlem, orta saylar da ayrt edici
zelliklerdir. Diri ve Amasyalnn (Diri ve Amasyal, 2003), Trke dokmanlar zerinde
inceledikleri yazar tanmada oluturduklar 22 zelliin 8 tanesi bu kelime tiplerinin saysnn
cmle saysna oranndan olumaktadr.
Bu almada dilbilgisi zellikleri Vdiltve Vdilc zellik vektrleri altnda incelenmitir. Vdilt
ad verilen bu vektr, dokmanda geen toplam kelime tr saylarn tutmaktadr. Yani ilgili
dokmanda ka tane sfat, isim, vb. olduuyla ilgilenir. Vdilc ise, cmle bana den kelime
tipi orann tutar. Her tip iin, tipin dokmandaki toplam saysnn dokmandaki toplam
cmle saysna oran olarak alnr.
Bu zellikler karlrken Trk Dil Kurumunun [9] 35000 kelimelik szlnden
yararlanlarak oluturulan Trke Kelime Veritaban (TKV) kullanlmtr. Trkede birkelimenin tipi isim, sfat, fiil, zarf, zamir, bala, nlem, orta tiplerinden biridir. Bununla
birlikte, Trkede ayn kelimenin birden fazla tipi de olabilir, yani ayn kelime hem sfat hem
de isim olarak kullanlabilinir. rnein, Melike ye yeil elbise ok yakm. cmlesindeki
yeil sfattr. Melike yeili sever. cmlesinde ise yeil isim olarak kullanlmtr.
TKVnda bir kelime iin en az bir, en fazla farkl kelime tipi tutulmutur. TKVnda
kelimenin sadece bir tipi varsa o tip seilmektedir. Birden fazla tipe sahip olan bir kelimenin
tipini bulmak iin aadaki kurallar (Diri ve Amasyal, 2003) srayla uygulanmtr:
1. Bir kelimenin olas tiplerinden biri sfatsa ve kelime ek almamsa ve bir sonrakikelime isim veya zamirse bu kelime sfattr.
2. Bir kelimenin olas tiplerinden biri sfat ise ve kelime ek almamsa, kelimenin olastiplerinden sfat karlr ve tip says azaltlr. Eer tip says 1e dyorsa kelimenin
tipi olarak alnr.
3. Bir kelimenin olas tiplerinden biri sfatsa ve kelime ek almamsa 7. madde uygulanr.4. Bir kelimenin olas tipleri arasnda sfat yoksa, fakat zarf varsa ve bir sonraki kelime
fiilse veya bir sonraki kelime cmlenin sonunda ise bu kelime zarf olarak alnr.
5. Bir kelimenin olas tipleri arasnda sfat yoksa, fakat zarf varsa ve bir sonraki kelimeisimse, kelimenin olas tiplerinden zarf karlr ve tip says azaltlr. Eer tip says
1e dmse kelimenin tipi olarak alnr.
6. Bir kelimenin olas tipleri arasnda sfat yoksa, fakat zarf varsa ve kelime cmleninsonundaysa bu kelime fiil olarak alnr.
Yukardaki kurallarla tipi belirlenemeyen kelime iin olas tipler arasnda kelimenin en fazla
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
20/56
11
sklkla kullanlan tipi tercih edilir.
3.1.4 levsel Kelimelerlevsel kelimeler (function word), herhangi bir szcksel anlam olmayan veya belirsiz
anlam olan, fakat bir cmledeki kelimeler arasnda dilbilgisel ilikiler kurmaya yarayankelimelerdir. levsel kelime olarak adlandrlmayan kelimeler ierik kelimeleri (content
word) veya szcksel (lexical) kelimeler adn alr. Bunlar isim, fiil, sfat ve ou zarflardr.
Baz zarflar ilevsel kelimedir, rnein neden. Szlkler, ierik kelimelerini aka
tanmlar, fakat ilevsel kelimelerin genel kullanmlarn tanmlamazlar. Dilbilgisinde ise
ilevsel kelimelerin kullanm detaylca anlatlr. levsel kelimeler edat, zamir, yardmc fiil
veya bala olabilir. levsel kelimeler ek alm veya almam da olabilir.
Yazar tanma almalarnda, ilevsel kelimelerle yaplan ilk alma Burrows tarafndan
yaplmtr (Burrows, 1987). Baayen ve arkadalar (Baayen, 2002) 42 ilevsel kelime ve 8
adet noktalama iaretini kullanarak yazarlar zelliklendirmiler ve % 81,5 baar elde
etmilerdir. Kullandklar klliyat farkl konu zerine yazlan 72 renci makalesinden
olumaktadr. Ayn klliyat kullanarak Juola ve Baayen (Juola ve Baayen, 2003 ) %87 baar
elde ederken, kullandklar zellikler arasnda 164 ilevsel kelime yer almaktadr. Binongo
(Binongo, 2003) ele ald bir kitabn yazarnn kim olduunu incelemek amacyla, yazar
zelliklendirmede en ok kullanlan 50 ilevsel kelimeyi kullanmtr. Holmes ve arkadalar
(Holmes, 2001), iki yazarn dokmann birbirinden ayrmak amacyla 50 ilevsel kelimekullanmtr. Zhao ve Zobel (Zhao ve Zobel, 2005), ilevsel kelimelerin yazar tanmada ne
kadar baarl olduunu analiz etmitir. Argamon ve Levitan (Argamon ve Levitan, 2005),
yazar zelliklendirmede ilevsel kelimelerin kullanlln lmlerdir.
Trke iin daha nce ilevsel kelimelerin listesi karlmadndan, bu alma iin TKV
kullanlarak bir ilevsel kelimeler listesi oluturulmutur. TKVndan yaplan bir sorgulamayla
tipi edat, zamir, yardmc fiil, bala olan kelimeler karlm ve daha sonra tm klliyat
zerinde bu kelimelerin kullanm skl hesaplanmtr. Klliyatta bir kez bile kullanlmayan
kelimeler karlm ve geriye klliyatta yer alan 620 adet ilevsel kelime braklmtr.
Bunlarla adna Visldenilen zellik vektr oluturulmutur.
3.2 zellik Birletirme Yoluyla Oluturulan Vektrlerzellik vektrlerini ayr ayr analiz etmenin yansra birlikte de deerlendirmek amacyla
zellik vektrlerinin birletirilmesi yoluna gidilmitir. Elde edilen yeni zellik vektrleri
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
21/56
12
aadaki gibidir:
VgtVist + Vzen + Vdilt + Visl
Vgc Vist + Vzen + Vdilc + Visl
Vgist Vist + Vzen + Vdilt
Vgt, drt ana zellik vektrnn birletirilmesiyle elde edilmitir. Dilbilgisi zellik
vektrlerinden Vdilt, yani dokman bazndaki tip says kullanlm ve zellik says 641e
ykselmitir. Vgc de, Vgt gibi drt farkl zellik vektrnn birletirilmesinden meydana
gelmitir. Tek fark Vdilt yerine cmle bazl olan Vdilc kullanlmtr ve zellik says
641dir. Vgist istatistiksel, dilbilgisel ve zenginlie dayal zelliklerin birletirilmesinden
oluturulmutur. Oluturulan bu vektr 21 zellie sahiptir.
3.3 zellik Azaltma Yoluyla Oluturulan VektrlerDokmanlar tanmlamak amacyla kartlm olan zelliklerin bazlar dokmanlar iin ayrt
edici veya gerekli olmayabilir. Bu durum hedef modelin renme kalitesini de drebilir.
zelliklerin bir alt kmesiyle benzer baar sonular alnrken, fazla sayda zellik
kullanmamz sistemi yavalatabilir. Yksek boyutlu zellik setinin baarya etkisini lmek,
gereksiz zellikler varsa bunlar elemek ve tanma sistemini buna gre analiz etmek amacyla
zellik azaltma metodu uygulanmtr. Bu blmde bahsedilen zellik azaltc olarak WEKA
[1] paketi ierisinde yer alan CfsSubsetEval fonksiyonu kullanlmtr.
Bu almada dilbilgisi zellikleri Vdilt ve Vdilc zellik vektrleri altnda incelenmitir.
Vdilt, dokmanda geen toplam kelime tr saylarn tutmakta yani o dokmanda ka tane
sfat, isim, vb. olduuyla ilgilenmektedir. Vdilc ise cmle bana den kelime tipi orann
tutmaktadr. Her tip iin, tipin dokmandaki toplam saysnn, dokmandaki toplam cmle
saysna orandr.
Dilbilgisi zelliklerinin metinde geme sklklarn tutan Vdilt vektrndeki zellik says,
CfsSubsetEval fonksiyonu kullanlarak azaltlmtr. zellik says azaldnda snflandrma
ileminin sreside ksalmtr. Oluan yeni zellik vektr Vdilta olarak adlandrlmtr.
Bir dier dilbilgisi zelliklerinden oluan Vdilc vektrne de CfsSubsetEval fonksiyonu
uygulandnda Vdilca elde edilmitir.
levsel 620 kelimeden oluan Visl zellik vektr, CfsSubsetEval fonksiyonu kullanlarak
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
22/56
13
zellikleri azaltldnda Visla ad verilen yeni bir zellik vektr elde edilmitir.
Tm zelliklerin birletirilmesiyle oluturulan Vgt ve Vgc vektrlerine CfsSubsetEval
fonksiyonu uygulandnda srasyla Vgta ve Vgca vektrleri elde edilmitir.
statistiksel, dilbilgisel ve zenginlie dayal
zellik vektrlerini birletirerek oluturduumuzVgist zellik vektrnden de, zellik azaltc CfsSubsetEval fonksiyonu kullanlarak, Vgista
zellik vektr elde edilmitir.
Yeni zellik vektrlerinin, farkl dokman gruplarna gre elde edilen zellik saylar izelge
3.1de gsterilmitir.
izelge 3.1 zellik saylar indirgenmi olan yeni zellik vektrleri
zellik
Vektr
Ana zellik
Vektr-zellik Says
Klliyat-I zellik
Says
Klliyat-II
zellik Says
Klliyat-III
zellik Says
Vdilta Vdilt 8 5 3 7
Vdilca Vdilc 8 7 4 7
Visla Visl - 620 24 27 43
Vgta Vgt - 641 27 16 31
Vgca Vgc- 641 24 17 40
Vgista Vgist - 21 15 12 12
3.4 KlliyatBu almada, nceki almalarla kyaslama yapabilmek ve gvenirlii arttrmak amacyla
Diri ve Amasyal (Diri ve Amasyal, 2003) tarafndan oluturulan ve kendi yazar tanma
almalarnda kullanlan geniletilmi klliyat tercih edilmitir. Bu klliyat iin, gnlk
gazetelerimizden olan Hrriyet [2], Vatan [3] ve Sabahtan [4] ekonomi, gncel, salk ve
magazin gibi konularda yazlar indirilmitir. Mevcut klliyat 18 farkl yazarn her birine ait 35
farkl yazsndan oluan 630 adet dokmandan meydana gelmektedir. Bu yazarlar cizelge
3.2de verilmektedir.
Yaplan deneysel sonular, tek bir klliyata bal kalmadan yorumlayabilmek iin, farkl
dokman gruplarnn farkl konularda yazlan metinlerin ve yazar saysnn baarya olan
etkisini gzlemlemek amacyla 3 farkl klliyat grubu oluturulmutur.
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
23/56
14
izelge 3.2 Klliyat ierisinde yer alan yazarlar
Kod Yazar Konu KByte Kod Yazar Konu KByte
1 Aye Arman Popler 203 10 Fatih Altayl Gndem 148
2 Bekir Cokun Gndem 65,7 11 Gndz Tezmen Salk 128
3 Cneyt lsever Gndem 100 12 Hadi Uluengin Dnya 133
4 Doan Hzlan Popler 100 13 Muharrem Sarkaya Gndem 111
5 Erkan elebi Popler 143 14 Oktay Eki Gndem 97,1
6 Emin laan Gndem 139 15 Pakize Suda Popler 119
7 Ercan Kumcu Ekonomi 115 16 Serdar Turgut Popler 132
8 Erturul zkk Gndem 130 17 Tufan Tren Gndem 110
9 Erdal Salam Ekonomi 148 18 Yaln Bayer Gndem 235
3.4.1 Klliyat - IFarkl konularda yazan 18 yazarn her birine ait 35 farkl yazsndan, 630 dokmandan,
oluturulmutur. Bu konular popler hayat, gncel, ekonomi, dnya ve salk zerinedir. Bu
gruptaki yazarlarn kodu 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18dir.
3.4.2 Klliyat - IISadece gncel konularda yazan 9 yazar
n 35 adet yaz
al
narak, 315 adet dokmandanoluturulmutur. Bu grupta bulunan yazarlarn kodu 2, 3, 6, 8, 10, 13, 14, 17, 18dir.
3.4.3 Klliyat - IIIFarkl konularda yazan 9 yazarn 35 adet yazs alnarak, 315 adet dokmandan
oluturulmutur. Bu gruptaki yazlar popler hayat, gncel, dnya, salk ve ekonomi
zerinedir. Yazarlarn kodu ise 1, 5, 7, 8, 9, 10, 11, 12, 14 tr.
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
24/56
15
4. SINIFLANDIRMA YNTEMLERBu almada, WEKA ierisinde yer alan snflandrma yntemlerinden bei seilerek
kullanlmtr. Bunlar Naive Bayes, Destek Vektr Makinesi, Rastgele Orman, K-Enyakn
Komuluk ve ok Katmanl Alglayc olup tm denemelerde ntanml (default) parametre
deerleri kullanlmtr. Ayrca, Matlabin ktphanesindeki z Dzenleyici zellik Haritas
fonksiyonu 10lu apraz geerlilik uygun hale getirilerek kullanlmtr.
4.1 Naive Bayes Naive Bayes snflandrcs, dokman snflandrmada baars kantlanm, popler bir
makine renmesi tekniidir (Domingos ve Pazzani, 1997). Naive Bayes snflandrcs, ok
iyi bilinen, pratik, olasla dayanan, birok uygulamada kullanlan bir snflaycdr.
Chakrabarti vearkadalar bir klliyattaki metinlerin hiyerarik olarak organize edilmesi iin
Naive Bayesi kullanmlardr (Chakrabarti vd., 1997). Frietag ve McCallum, dokmanlardan
bilgi karabilmek iin, an her dmndeki kelime dalmn hesaplamak amacyla Naive
Bayes benzeri bir model kullanmtr (Frietag ve McCallum, 1999). Dumais ve arkadalar
dokman snflama ilemini otomatize etmek amacyla Naive Bayes ve dier metin
snflayclar kullanmlardr (Dumais vd., 1998). Naive Bayes in olduka sk
kullanlmasnn bir baka nedeni kolay anlalabilir bir yntem olmasdr. Baz alanlarda
Naive Bayes, performans olarak yapay sinir alar ve karar aac renmelerine kar tercih
edilebilir. Peng ve arkadalar, Bayes teoremini kullanarak dokmanlardan elde ettikleri
karakter bazl n-gramlarla yazar tanma uygulamas gerekletirmilerdir (Peng vd., 2002).
Domingos ve Pazzani, Naive Bayes in hangi durumlarda s nflandrma iin en uygun
olduunu ve hangi durumlarda olaslk tayinlerinin (assessment) yanl olduunu
aratrmlardr (Domingos ve Pazzani, 1996). Domingos ve Pazzani bu noktay netletirip,
Naive Bayesin snflandrma iin en uygun olduu basit durumlar gstermilerdir.
Naive Bayes hedefe ulamak iin en uygun imkanlar semeye ynelik bir model oluturur.
Yeni rnekler zerindeki s
n
fland
rma, Bayes kural
kullan
larak, rnee en ok benzeyensnf seilerek yaplr. Naive Bayes snflandrcs rneklerin tm zelliklerinin, snfn
artlarn veren zellikler asndan birbirinden bamsz olduunu kabul eder. Buna Naive
Bayes Bamszlk Varsaym denir. Bu varsaym birok gerek problemde geersiz olsa da,
Naive Bayes ou zaman ok iyi snflandrma performans gsterir ve bu sebeple dier Bayes
snflandrclardan hesaplama zaman olarak ok daha hzl alr (Friedman, 1997;
Domingos ve Pazzani, 1997). Bamszlk varsaym ve her zellik iin, parametreler ayr
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
25/56
16
olarak renilir ve bu durum genelde zellik says ok olduunda renmeyi byk lde
kolaylatrr (McCallum vd., 1998)(Kim vd., 2003).
Naive Bayes snflandrcs, herx rneinin bir zellik vektryle ifade edildii ve hedef
fonksiyon f(x)in V snrl deer kmesinden herhangi bir deer alabildii renme ilerine
uygulanr. Hedef fonksiyon iin bir eitim seti hazrlanr. eklindeki zellik
vektryle ifade edilen, yeni bir rnek alnr ve eiticiden bu rnein hedef deerini yani ait
olduu snf tahmin etmesi istenir.
Yeni gelen rnein snfnn belirlenmesi, Bayes yaklamna gre, rnei anlatan
zellik deerlerine gre en uygun hedef deerinin, vMAP (maximum a posteriori
hypothesis), atanmasdr.
)...,|(maxarg 21 njVjv
MAP aaavPv
= (4.1)
Bayes teoremi kullanlarak (4.1)deki denklem yle yazlabilir:
)()|...,(maxarg
)...,(
)()|...,(maxarg
21
21
21
jjnVjv
MAP
n
jjn
VjvMAP
vPvaaaPv
aaaP
vPvaaaPv
=
=
(4.2)
Eitim verisine dayanarak (4.1)deki iki terim hesaplanr. HerP(vj) deeri, eitim verisinde
geen, her hedef deervjnin frekans saylarak kolaylkla hesaplanabilmektedir. Bu terimlerin
saysnn olas rnekler arp olas hedef deerleri saysna eit olmas probleme neden
olabilir. Bu nedenle, gereki hesaplar elde etmek iin her rnein, rnek uzaynda defalarca
grlmesi gerekmektedir.
Naive Bayes snflandrcs, zellik deerlerinin, hedef deerden bamsz olmas kabulne
dayanr. Bir baka deyile, (a1,a2an) balamnn olasl, herbir zelliin olaslklarnn
rndr:
)|()|...,( 21 ji ijn vaPvaaaP = (4.3)
Bu denklemi (4.2)de yerine koyarsak Naive Bayes snflandrma yaklamn elde etmi
oluruz:
)|()(maxarg ji
ijVv
NB vaPvPvj
= (4.4)
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
26/56
17
vNB, Naive Bayes snflandrcsnn ktsn, yani snf gsterir. Bir Naive Bayes
snflandrcsnda, eitim verisinden hesaplanmas gereken farklP(ai|vj) terimlerinin says,
farkl zellik deerleri arp farkl hedef deerleri says kadardr.
Ksaca, Naive Bayes renme metodu, eitli P(vj) ve P(ai|vj) terimlerinin eitim verisi
zerindeki frekanslarna dayanarak hesapland bir renme aamasdr. Bu hesaplanma
btn, renme hipoteziyle ilikilidir. Bu hipotez, daha sonra (4.4)teki denklem
uygulanarak her yeni rnein snflandrlmas iin kullanlr.
Naive Bayes renmesi ve dier renme metodlar arasndaki ilgin bir fark, olas
hipotezlerin alan zerinde aka arama yaplmamasdr (bu durumda, olas hipotezin alan,
eitli P(vj) ve P(ai|vj) terimlerine atanan olas deerlerin alandr). Bunun yerine, hipotez
arama yapmadan, basite eitim rnekleri arasndaki eitli veri kombinasyonlarnn
frekanslar saylarak oluturulur (Mitchell, 1997).
Naive Bayes, olaslkl bir snflandrcdr ve verilen bir dokman snflandrmak iin
kelimelerin ve snflarn olaslklarn kullanr (Nther, 2005). Bu almada zellikler kelime
frekanslar deildir, ve zelliklerin devam eden bir dalmlar vardr. Bu nedenle, yaplan
deneylerde Naive Bayes in WEKA [1] uygulamas kullanlmtr. Bu uygulama John ve
Langleyin (John, Langley 1995) almalarna dayanmaktadr.
John ve Langley, yaptklar almada, parametrik olmayan younluk hesab iin, normallik
varsaymndan vazgeerek bunun yerine istatistiksel metodlar kullanmlardr. Bir NaiveBayes snflandrcs iin, eitli doal ve yapay alanlarda, younluk hesabnn iki metodunu
karlatrarak, deneysel sonular elde etmilerdir. Bu metodlardan biri, normallii varsaymak
ve koullara bal her durumu bir Gaussian ile modellemektir. Dieri ise, parametrik olmayan
kernel younluk hesabn kullanmaktr. Birok doal ve yapay verilerle yaptklar bu deneyler
sonucunda, hatann ok byk oranda azaldn gzlemlemiler ve Bayes modelleri ile
renmede kernel hesabnn faydal bir ara olduunu yorumlamlardr.
4.2 Destek Vektr Makinesi DVM (Support Vector Machine SVM)Destek Vektr Makinesi (DVM) yntemi, Vapnik ve arkadalar tarafndan gelitirilmi etkili
bir renme yntemidir. DVM teorisi Vapnikin almasnda geni birekilde ele alnmtr
(Vapnik, 1995). Bu teori, yapsal risk minimizasyonu prensibine dayanr. Joachims
(Joachims, 1998), dokmanlar farkl konulara gre snflandrmak iin DVM kullanmtr.
statistiksel zellik olarak dokmanda en az defa geen kelimeleri kullanmlar ve 10.000
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
27/56
18
zellik elde etmilerdir.
Platt ve arkadalar (Platt vd., 1998), dokman snflandrmada, doru ve hzl olduu iin
dorusal DVM kullandlar. Dorusal DVM, test edilen snflandrclardan hz kendisine en
yakn olandan dahi 35 kat daha hzldr. Platt ve arkadalar DVM snflandrcsn, Reuter-
21578 topluluu, e-posta metinleri ve web sayfalarna uyguladlar.
Diederich ve arkadalar (Diederich, 2000), yazar tanma almalarnda DVM kullamlardr.
Alman gazetesinden alnan dokmanlarla eitli denemeler yaplm ve % 6080 orannda
baar elde etmilerdir.
DVM, 2 snfa ait elemanlarn oluturduu eitim kmelerini, en uygun dzlem ile
birbirlerinden ayrmaya alan bir yntemdir. En uygun dzlemi belirlerken mmkn
olabildiince az sayda destek vektr kullanlr. DVM ile dorusal snflandrma yntemi
ekil 4.1de gsterildii gibidir.
ekil 4.1 DVM yntemi ile dorusal snflandrma
DVM yaklam, yksek boyutlu verilerin olduu durumlarda dahi, gl bir genelleme
zelliine sahip, tahmine dayal bir model gelitirebilir. DVM her zaman, bir optimizasyon
zm aradndan fazla sayda zelliin analizine olanak tanyabilmektedir [5].
Pozitif ve negatif rnekleri birbirinden ayran bir dzlem bulunmaktadr ve bu dzlem
zerindeki noktalarwx+b=0 eitliini salamaldr. Burada w, dzleme olan normal ve |b| /
||w|| dzlemden orijine dik uzaklktr. Dzleme en yakn olan pozitif ve negatif rnekler
arasndaki mesafe dzlemin tolerans olarak adlandrlrsa, DVM toleransn en byk olduudzlemi bulmaya almaktadr (Kepeneki, 2004).
DVM ynteminin, dier snflandrma yntemlerinden en temel fark, sadece iki snf
birbirinden ayrabilmesidir. Bu ayrm yaplrken dikkat edilmesi gereken en kritik nokta, iki
snfa ait rnekleri birbirinden ayracak olan dzlemin en uygun konumdan geirilmesidir.
Dzlemin uygun bir konumdan geirilememesi durumunda, snflandrmada yanl sonular
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
28/56
19
retilebilir.
DVM, yalnzca iki snf karlatrmak zere gelitirilmi bir yntemdir. Dolaysyla,
sistemde ikiden fazla snf olduunda, DVM yntemi ile alabilmek iin gerekli
dzenlemelerin yaplmas gerekmektedir. Bu amala, ikiden fazla snfn olduu bir sistemde,
DVM yntemini kullanabilmek iin eitli algoritmalar gelitirilmitir. Bu algoritmalar
unlardr:
4.2.1 Bire Kar Hepsi (One-Against Rest)Adndan da anlald gibi karlatrma srasnda snflardan biri (+) kabul edilirken, kalan
dier tm snflar (-) olarak kabul edilir ve buna gre ilem yaplr. Burada, karlatrma
srasnda + ve - snflardaki rnek saylar farkl olabilmekte, ayn zamanda daha fazla
karlatrma ve ilem gerektirdiinden, fazla kullanlan bir yntem deildir.
4.2.2 Bire Kar Bir (Pairwise)Snflar ikili gruplar halinde alnr ve bu ikililer zerinden karlatrma yaplarak ilerlenir.
Burada, aa zerinde, en alttaki dmden yukarya doru ilerlenir, en son admda, kk
dm ile karlatrma yaplp sonu bulunur. "Bire Kar Hepsi" yntemine kyasla daha iyi
bir zm olduu sylenebilir.
4.2.3 Ynlendirilmi evrimsiz izge (Directed Acyclic Graph)Temel olarak, "Bire Kar Bir" yntemiyle benzerlik gstermektedir. Bu yntemde, test verisi,
aa zerinde, kk dmdeki ikiliden balanarak karlatrlr ve aacn en alt seviyesine
kadar iteratif olarak ilerlenir. N seviyeli bir aa iin nce (1,2) snf ikilisi kyaslanr, bu
ikiliden galip kacak snfkazanan ise; bir sonraki aamada (kazanan,3) ikilisi kyaslanr ve
bu ekilde ilerlenerek, en sonunda (kazanan, N) ikilisi karlatrlp, test verisinin hangi snfa
daha yakn olduu bulunur (Pal vd., 2004).
Bu almada WEKA uygulamas iinde yer alan DVM snflandrcs kullanlmtr. Bu
s
n
fland
r
c
Platt (Platt, 1998) taraf
ndan bahsedilen ard
k en kk optimizasyonkullanlarak eitilen Destek Vektr Makinesidir.
4.3 K-En Yakn Komuluk K-EK (K-Nearest Neighbour- K-NN)K-Enyakn Komuluk (K-EK), dokman snflandrmada kullanlan en popler yntemlerden
biridir (Manning ve Schutze, 1999). Farkl klliyatlar zerinde yaplan birok aratrmada K-
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
29/56
20
Enyakn Komuluk algoritmasnn ok iyi performans gsterdii gzlemlenmitir (Yang ve
Liu, 1999) (Joachism, 1998) (Baoli vd., 2002). Diederichin (Diederich, 2000) yazar tanma
alannda yapt almasnda kulland snflandrma yntemlerinden biri de K-Enyakn
Komuluktur. Zhao ve Zobel (Zhao ve Zobel, 2005), ilevsel kelimelerin yazarlk
zelliklendirmede ne kadar baarl olduunu analiz etmek amacyla almalarnda K-Enyakn Komuluk metodunu da kullanmlar ve %77 baar elde etmilerdir. Wolters ve
Kirsten (Wolters ve Kirsten, 1999), dile bal zellikleri analiz etmek amacyla K-Enyakn
Komuluk yntemi ile snflandrma yapmlardr.
K-Enyakn Komuluk ynteminde en yakn k adet rnek bulunur ve bu rnekler en ok hangi
snftan iseler, test rnei de o snfa aittir denir. Bu metodda, test rneinin, eitim
kmesindeki btn rneklere olan yaknl hesaplanr. Hesaplama ilemi iin klid bants
(4.5) kullanlr. Hesaplanan uzaklk deerleri, kkten bye doru sralanr. En yakn k
adet rnek iinde en ok bulunan snf, test rneinin ait olduu snf gsterir [6].
P ve Q noktalar iin,
( )xP p= ve ( )xQ q= ise klid bantsyledir:
2( )x x x xq p q = (4.5)
Bu almada WEKA uygulamas iinde yer alan K-Enyakn Komuluk snflandrcs
kullanlmtr. Bu snflandrc Aha ve Kibler (Aha ve Kibler, 1991) tarafndan bahsedilen K-Enyakn Komuluk yntemi esas alnarak gelitirilmitir.
4.4 ok Katmanl Alglayc KA (Multiple Layer Perceptron MLP)Bir yapay sinir ann, renmesi istenen olaylarn girdi ve ktlar arasndaki ilikiler
dorusal olmayan ilikiler olduunda, bu tr olaylar gelimi bir model olan ok Katmanl
Alglayc (KA) modeli ile renilebilir. Rumelhart ve arkadalarnn (Rumelhart vd., 1986)
gelitirdii bu modele hata yayma modeli veya geriye yaym modeli (backpropogation
network) de denir. zellikle snflandrma, tanma ve genelleme yapmay gerektriren
problemler iin ok nemli bir zm aracdr.
KA alar ileriye doru balantldr ve katmandan oluur. Girdi katman, d dnyadan
gelen girdileri alarak ara katmana gnderir. Gelen her bilgi ilenmeden bir sonraki katmana
gider. Ara katman, girdi katmanndan gelen bilgileri ileyerek bir sonraki katmana gnderir.
Bir KA anda birden fazla ara katman olabilir. kt katman, ara katmandan gelen bilgileri
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
30/56
21
ileyerek, aa girdi katmanndan verilen girdilere karlk an rettii ktlar belirleyerek
d dnyaya gnderir.
KA alar, eiticili renme stratejisine gre alr. Alara eitim srasnda hem girdiler
hem de o girdilere karlk retilmesi beklenen ktlar verilir. An grevi her girdi iin o
girdiye karlk gelen kty retmektir. KA alarnn almasyledir:
An zmesi istenen olay iin daha nce gereklenmi rnekler bulunur An topolojik yaps belirlenir. Ka tane girdi nitesi, ka ara katman ve ka kt
eleman olmas gerektii belirlenir
An renme katsays, ileme giren elemanlarn toplama ve aktivasyonfonksiyonlar, momentum katsays gibi parametreler belirlenir
Elemanlar birbirine balayan arlk deerlerine balang deerleri atanr An renmeye balamas ve uygun olan arlklar deitirmesi iin rnekler belirli
bir dzenee gre aa verilir
Sunulan girdi iin an kt deeri hesaplanr An rettii hata deerleri hesaplanr Geri hesaplama yntemi uygulanarak retilen hatann azaltlmas iin arlklarn
deitirilmesi gerekletirilir
Yukardaki admlar KA ann renmesi tamamlanncaya kadar, yani gerekleen kt ile beklenen ktlar arasndaki hatalar kabul edilir dzeye ininceye kadar devam eder.
(ztemel,2003)
De Vel (de Vel 1999), dokmanlarn snflandrma performansn lmek amacyla Naive
Bayes, K-Enyakn Komuluk ve Destek Vektr Makinesi nin yan sra KA yntemini de
kullanmtr. Diederichin (Diederich, 2000) yazar tanma alannda yapt almasnda KA
yntemi ile de snflandrma yaplm ve %93,3 lk bir baar elde edilmitir.
Bu almadaki deneyler, WEKAda KA ynteminin ntanml parametreleri kullanlarakyaplmtr.
4.5 z Dzenleyici zellik Haritas DH (Self Organizing Map SOM)z Dzenleyici zellik Haritas (DH) Kohonen tarafndan gelitirilmitir. Kohonen ve
arkadalar (Kohonen vd., 2000), ok byk sayda dokman topluluunu metinsel
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
31/56
22
benzerliklerini gz nne alarak organize etmek amacyla bir sistem gelitirmilerdir. Bu
sistem DH yntemi esas alnarak oluturulmutur. zellik vektr olarak dokmanlarda
geen kelimelerin istatistiksel gsterimleri kullanlmtr. almalarnn temel amac, DH
yntemini yksek boyutlu verilerle lmlemektir. Deneylerinde 6.840.568 tane dokman,
1.002.240 dml bir DH sistemine yerletirmilerdir. zellik vektr olarakarlklandrlm kelime histogramndan oluturulan 500 boyutlu vektr kullanlmtr.
DH alarnn girdi vektrlerini snflandrma ve girdi vektrlerinin dalmn renebilme
yetenekleri ok yksektir. Alarn en temel zellii, olaylar renmek iin bir retmen veya
an retmesi gereken ktlarn aa bildirilme zorunluluunun olmamasdr. zellikle
beklenen ktlarn belirlenemedii problemler iin kullanlr.
A, girdi ve kt katmanndan olumaktadr. DH alar yarmay kazanan elemanlarn 1,
dierlerinin 0 deerini almas ilkesine dayanr. Bir girdi verildiinde, kt katmanndakielemanlar birbirleri ile yarrlar ve yarmay kazanan eleman girdinin snfn gsterir.
Kazanan her elemann komularn gsteren komuluk alan oluturulur. Komuluk alan
iindeki btn elemanlar kazanan eleman ile birlikte dnlr ve komularn eitim srasnda
arlklar deiir.
An eitilmesi esnasnda, herhangi bir t zamannda rnek setinden bir rnek, aa verilir.
Girdi vektr X ile arlk vektr A normalize edilmi olmaldr. kt elemanlarndan
kazanan eleman bulunur. Bunun iin iki yoldan birisi kullanlmaktadr:
1. Her elemann kts (), arlklarla girdilerin arpmnn toplam ile bulunur. Yani,
0i i i
i
A X= (4.6)
Bu kt deerlerinden en yksek deere sahip olan ilem eleman yarmay kazanmaktadr.
Bu elemann k. eleman olmas durumunda,
1k = (4.7)
0i = 1,2...i = ve i k (4.8)
2. klid mesafesi (d) kullanlarak girdi vektrne en yakn arlk vektrne sahipeleman kazanan elemandr. ki vektr arasndaki mesafe:
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
32/56
23
j jd X A= (4.9)
(4.9)daki gibidir. Her kt eleman iin bu mesafeler hesaplanr ve en kk mesafesi olan
eleman kazanan eleman olarak kabul edilir.
Kazanan eleman belirlendikten sonra bu eleman ve komularnn arlklar (4.10)daki
formle gre deitirilir:
A(t+1)=A(t)+ g(i,k)(X(t)-A(t)) (4.10)
Burada renme katsaysdr. renme annda zamanla kltlr (ztemel, 2003).g(i,k) ise
komuluk fonksiyonudur, i ve kelemanlarnn komuluklarn belirler. i = kdurumundag(i,k)
= 1 olur. Bu fonksiyon zaman ierisinde azalan bir fonksiyondur. Genel olarakg(i,k),
2 2
g(k)=exp(- /2 )i kd d (4.11)
(4.11)deki gibi ifade edilir. Formlde di ve dk, i. ve k. elemanlarn pozisyonunu gsteren
vektrlerdir. ise komuluk alannn geniliini gstermektedir. Bu parametre de zaman
ierisinde azaltlr (ztemel, 2003).
Bu almadaki DH deneyleri, MATLAB SOM ktphanesindeki fonksiyon kullanlarak
altrlmtr.
4.6 Rastgele Orman RO (Random Forest - RF)Rastgele Orman, birok karar aacndan oluan ve bireysel aalar tarafndan oylanarak
kazanan snf veren bir yntemdir. Bu yntem Leo Breiman ve Adele Cutler tarafndan
gelitirilmitir. Rastgele Orman ynteminde birok snflandrma aac oluturulur. Girdi
vektrndeki bir objeyi snflandrmak iin, aa kmesinde (forest) yer alan her aaca giri
vektrleri verilir. Her aa bir snflandrma sonucu retir. RO, tm aalar arasnda en ok
oyu alan snf seer. Her aa, eitim setindeki rneklerin rastlantsal birekilde, yenisiyle
deitirme (replacement) mantyla oluturulur.
Mevcut bir aa eitim seti yenileme mantyla oluturulurken, verinin te biri aacn
dnda kalr. Kalan ksm, aalarn aa kmesine eklenirken snflandrma hatasn
hesaplamak amacyla kullanlr.
Aalarn her biri oluturulduktan sonra, tm veri aa zerinde altrlr ve her veri ifti
iin yaknlk hesab yaplr. Eer iftin her biri ayn son dm zerine yerleirse yaknlk
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
33/56
24
deerleri 1 arttrlr. altrma bittikten sonra yaknlk deerleri aa saysna blnerek
normalizasyon yaplr [7].
Breiman (Breiman, 2001), Rastgele Orman zerine yapt almada bu yntemin aa
tahminlerinin bir birleimi olduunu belirtmitir. Her aa, aa kmesindeki her aaca ayn
ekilde datlan ve birbirinden bamsz olarak rneklendirilen rastlantsal bir vektrn
deerlerine dayanr. Breimana gre, aa snflandrclarndan oluan bir aa kmesinin
genelleme hatas, aalarn her birinin kmedeki bireysel glerine ve aralarndaki
korelasyona baldr.
Bu almada, WEKAda Breimann (Breiman, 2001) almas esas alnarak oluturulan
fonksiyonlar varsaylan parametreler ile kullanlmtr.
4.7 Korelasyon Tabanl zellik SemeYakn zamandaki almalar, zellik alt kmesi semenin makine renmesi yntemlerinin
performansna olumlu bir etkisi olduunu gstermitir. Baz algoritmalar, ok fazla veri
yznden yavalarken ya da performanslar kt etkilenirken bazlarnn renme ilemiyle
ilikileri olmayabilir. Bu nedenle, zellik alt kme seimi, renme yntemlerinin
performansn arttran bir yntemdir (Hall ve Smith, 1997).
Korelasyon Tabanl zellik Seme (KTS), korelasyona dayanan bir zellik alt kme seme
metodudur. KTS, hesaplama yapar ve zellik vektrlerinin kendilerindense zellik alt
kmelerini derecelendirir. Bu yntemin temelinde, zellik alt kmelerinin deerini hesaplama
vardr. Bu hesaplamada, tek bana snf etiketini tahmin eden zelliklerin saysna baklrken,
korelasyonun derecesi de gz nne alnr (Hall, 1998).
KTS yntemi olduka esnektir, eitli aratrma ve deerlendirme metodlarnn
birletirilmelerine imkan salar.
Bu almadaki zellik alt kmeleri, WEKAnn [1] KTS uygulamas ile oluturulmutur.
4.8 Oylama (Vote)Baz durumlarda, sadece bir snflandrcdan alnan sonu verimli olmayabilir, ya da tek bir
snflandrcya bal kalmak istenmeyebilir. Farkl veri gruplar zerinde snflandrclarn
baars farkllk gsterebilir. Bir veri grubunda baarl olan bir yntem, ikinci bir veri
grubunda ayn baary gstermeyebilir. Bu durumda snflandrclarn birletirilmesi gerekir.
Baar orann ve doruluunu arttrmak amacyla eitli snflandrclar birletirilebilir.
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
34/56
25
Oylama yntemi de bunlardan biridir.
Oylama, saysal tahminleri veya olaslk deerlerini kullanarak snflandrclar birletirme
yntemidir. Her snf iin olaslk deerleri veya saysal tahminler toplanr. En yksek
toplama sahip olan snf kazanan snftr.
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
35/56
26
5. DENEYSEL SONULARDeneysel sonular alnrken farkl alanlarda yazan 18 yazarn, 35 farkl yazsndan oluan
farkl klliyat kullanlmtr. Her bir yazya ait 14 adet deiik zellik vektr
oluturulmutur. zellik vektrlerinin yazar belirmedeki baarlarn test ederken 10lu apraz
geerlilik (10-fold cross validation) kullanlmtr.
apraz geerlilik, eitim seti ile renilen modelin baka yeni setler zerinde nasl
performans gstereceini hesaplayan yaklamlardam biridir. xli apraz geerlilikte, veri x
adet eit alt kmeye blnr. Her defasnda eitim setinden farkl bir alt kme karlarak
sistemx defaeitilir [8].
Weka paketi ierisinde yer alan snflandrma yntemlerini kullanrken (Naive Bayes, DVM,
KA, K-Enyakn Komuluk ve RO) varsaylan parametreler tercih edilmitir. K-Enyakn
Komuluk yntemi ile snflandrma yaplrken eitli k deerleri denenmi, bunlar arasnda
en baarl olan k = 7 deeri seilmitir.
5.1 Klliyata Gre Deneysel SonularBu blmde farkl klliyat zerinde yaplan deneysel sonular srasyla verilmitir.
5.1.1 Klliyat-I iin Deneysel Sonularlk nce, popler hayat, gncel, ekonomi, dnya ve salk gibi farkl konularda yazan 18
yazara ait 35 dokman alnarak oluturulan Klliyat-I zerinde, 14 farkl zellik vektr
kullanlarak 6 farkl snflandrcyla deneyler yaplmtr. izelge 5.1de 18 farkl yazarn
snflandrlmasndan alnan baar sonular verilmitir.
Klliyat-Ideki en iyi performans %82,1 olup istatistiksel, kelime zenginlii, dilbilgisel ve
ilevsel kelime frekans zelliklerinden oluturulan Vgt zellik vektr ile DVM snflandrma
ynteminden alnmtr. DVM ynteminin, bu veri seti zerinde zellik vektrnn boyutu
arttka daha iyi sonular verdii gzlemlenmitir. En kt sonu ise Visl ile KA
snflandrcs kullanldnda alnmtr. Baar oran % 9,2 olmutur.
Tm snflandrclarn 14 zellik vektrnde verdikleri baarlarn ortalamalar alndnda
Naive Bayesin %55,5 ile en baarl, DHnn % 28,5 ile bu klliyatta en baarsz yntem
olduu gzlenmitir (izelge 5.1).
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
36/56
27
izelge 5.1 Klliyat-I zerinde elde edilen snflandrma baarlar
zellik Vektr RO% NB% DVM% KA% K-EK%Vist 60,3 55,5 41,9 59,6 56,3
Vzen 14,9 19,2 14,1 18,7 17,1
Vdilt 46 45,4 27,1 45,7 45,4
Vdilc 43,8 40,7 36,5 46,3 41,1
Visl 30,4 62,8 76,2 9,2 19,2
Vgt 49,6 67,7 82,1 10,6 25,5
Vgc 48 66,5 80 8,5 23,6
Vgist 71,4 68 65,9 71,4 68,6
Ort Baar %45,6 53,2 53 33,8 37,1
Vdilta 40,8 40,4 18,2 45,8 45,8
Vdilca 42,5 40,1 35,1 44,9 42,8
Visla 40 53 48,6 45 42,7
Vgta 70 74,1 72,9 72,7 64,7
Vgca 69,5 75,4 70,3 72,2 66,6
Vgista 67,9 67,5 60,5 71,7 65,4 Ort Baar %
55,1 58,4 50,9 58,7 54,7
Genel Ort Baar %49,7 55,5 52,1 44,4 44,6
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
37/56
28
zellik vektrlerinin her bir snflandrc iin verdikleri doruluk oranlar toplanarak
ortalamas alndnda en baarl vektr Vgta iken, performans en dk vektr Vzen
olmutur (izelge 5.1).
Genel olarak Klliyat -Iin baars ortalama olarak %45,8dir.
5.1.2 Klliyat-II iin Deneysel SonularSadece gncel konularda yazan 9 yazara ait 35 dokman alnarak oluturulan Klliyat-II
zerinde, 6 farkl snflandrc kullanlarak 14 farkl zellik vektr ile deneyler yaplmtr.
izelge 5.2de bu deneyler sonucunda elde edilen baar sonular verilmitir.
Klliyat-IIde %85 olan en yksek baar oran, istatistiksel, kelime zenginlii, dokman bazl
dilbilgisel ve ilevsel kelime frekans zelliklerinden oluturulan Vgc zellik vektrnn,
KA yntemiyle snflandrmas sonucunda elde edilmitir. KA yntemi, bu veri setizerinde Klliyat-Ie gre daha iyi sonular vermitir. En kt sonu ise Vzen ile DVM
snflandrcs kullanldnda alnmtr. Baar oran % 14,9 olmutur.
Tm snflandrclarn 14 zellik vektrnde verdikleri baarlarn ortalamalar alndnda
KA yntemi %64,6 ile en iyi performans, DH yntemi ise % 43,1 ile en kt performans
veren yntem olmutur (izelge 5.2).
zellik vektrlerinin ortalamas alndnda en baarl vektr Vgca iken, performans en
dk vektr Vzendir (izelge 5.2).
Genel olarak Klliyat-IInin baars ortalama olarak % 56,7dir.
5.1.3 Klliyat-III iin Deneysel SonularPopler hayat, gncel, dnya, salk veya ekonomi konularnda yazan 9 yazarn 35 dokman
alnarak oluturulan Klliyat-III zerinde, 14 farkl zellik vektr kullanlarak 6 farkl
snflandrcyla deneyler yaplmtr. izelge 5.3te 9 farkl yazarn snflandrlmasndan
alnan baar sonular verilmitir.
Klliyat-IIIdeki en iyi performans %89,2 olup, istatistiksel, kelime zenginlii, dokman bazl
dilbilgisel ve ilevsel kelime frekans zelliklerinden oluturulan Vgc zellik vektr ile KA
snflandrma ynteminden alnmtr. En kt sonu ise Vzen ile DVM snflandrcs
kullanldnda %28,2 olarak alnmtr.
Tm snflandrclarn 14 zellik vektrnde verdikleri baarlarn ortalamalar alndnda
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
38/56
29
izelge 5.2 Klliyat-II zerinde elde edilen snflandrma baarlar
zellik Vektr RO% NB% DVM% KA% K-EK%Vist 68,9 72,7 66,3 72,4 68,9
Vzen 15,5 19,3 14,9 15,5 17,5
Vdilt 63,5 64,8 54,6 61,2 57,1
Vdilc 40,3 41 42,5 42 39,4
Visl 41 58,7 77,1 77,7 25,4
Vgt 51,1 65,4 82,2 83,5 33,7
Vgc 56,2 65,7 83,8 85 34,2
Vgist 76,5 76,8 77,7 76,5 69,8 Ort Baar % 51,6 58,1 62,4 64,2 43,3
Vdilta 55,9 58,4 42,2 59,4 57,5
Vdilca 35,5 41,6 36,2 36,5 36,5
Visla 60,0 67,3 69,5 63,2 52,0
Vgta 75,5 80,0 78,4 75,9 68,0
Vgca 78,4 84,1 79,7 81,0 73,3
Vgista 74,3 78,7 72,4 74,3 74,9 Ort Baar % 63,3 68,4 63,1 65,1 60,4
Genel Ort Baar % 56,6 62,5 62,7 64,6 50,6
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
39/56
30
izelge 5.3 Klliyat-III zerinde elde edilen snflandrma baarlar
zellik Vektr RO% NB% DVM% KA% K-EK%Vist 75 72 52,7 68 67,3
Vzen 33 29,8 28,2 34,6 33
Vdilt 64,1 53,7 30,8 60 58,4
Vdilc 54,9 60,3 55,5 60,6 55
Visl 53,3 76,2 82,5 87,9 31,1
Vgt 64,1 79 87,6 88,9 41
Vgc 65 78,4 87 89,2 35,2
Vgist 81 76,2 71,4 79,4 72,7Ort Baar % 61,3 65,7 62,0 71,1 49,2
Vdilta 58,4 54,3 30,5 60,7 58,4
Vdilca 57,1 59,0 56,2 60,0 59,4
Visla 65,0 74,0 75,9 75,0 59,0
Vgta 80,3 85,0 85,0 84,0 76,2
Vgca 79,4 85,0 86,0 84,1 73,0
Vgista 80,3 75,5 66,3 75,5 72,4Ort Baar % 70,1 72,1 66,7 73,2 66,4
Genel Ort Baar % 65,1 68,5 64,0 72,0 56,6
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
40/56
31
KA ynteminin %72 ile en baarl, DH ynteminin %44,2 ile en baarsz olduu
gzlenmitir (izelge 5.3).
zellik vektrlerinin ortalamas alndnda en baarl vektr Vgta iken, performans en
dk vektr Vzen olarak tespit edilmitir (izelge 5.3).
Genel olarak Klliyat-IIIn baars ortalama %61,7dir.
5.2 Yntemlere Gre Deneysel SonularBu blmde kullandmz alt yntemin yazar tanmadaki baarlar ayr ayr verilmektedir.
5.2.1 Rastgele OrmanRastgele Orman yntemi ile her klliyattan elde edilen snflandrma baar oranlarekil
5.1deki grafikte gsterilmitir.
0
10
20
30
40
50
60
70
80
90
Vist
Vzen
Vdilt
Vdilc Vi
sl Vgt
Vgc
Vgist
Vdilta
Vdilc
aVi
sla Vgta
Vgca
Vgist
a
zellik Vektr
Baar
Oran
%
Klliyat-I
Klliyat-II
Klliyat-III
ekil 5.1 Rastgele Orman yntemi ile her klliyattan elde edilen snflandrma baaroranlar
Rastgele Orman ynteminin Klliyat-I zerindeki en yksek baars %71,4 olup Vgist zellik
vektrnden elde edilmitir. En kt sonu ise Vzen zellik vektr ile al nan %14,9dur.
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
41/56
32
Klliyat-II ile yaplan deneylerde bu yntemin en iyi performans Vgca ile alnan %78,4
sonucudur. En kt performans ise Vzen zellik vektr ile alnan %15,5dir. Klliyat-IIIte
elde edilen en yksek baar %81 olup, Vgist zellik vektrnden elde edilmitir. En kt
sonu yine Vzen zellik vektrnden elde edilen % 33tr.
zellik vektrlerine gre ortalama alndnda Rastgele Ormann en baarl olduu zellik
vektr %76,3 baar ile Vgisttr. Snflandrma iin en elverisiz zellik vektr ise %21,1
ile Vzen dir.
Her klliyat iin baar ortalamalar hesaplandnda, RO snflandrma ynteminin Klliyat-
IIIte, %65 ile en baarl sonu verdii gzlemlenmitir.
Genel olarak klliyat iin Rastgele Orman ynteminin ortalama baars % 57,1dir.
5.2.2 Naive BayesNaive Bayes snflandrcs kullanlarak her klliyattan elde edilen baar sonularekil
5.2deki grafikte gsterilmitir.
0
10
20
30
40
50
60
70
80
90
Vist
Vzen Vd
ilt
Vdilc Vi
slVg
tVg
cVg
ist
Vdilta
Vdilc
aVi
slaVg
taVg
ca
Vgist
a
zellik Vek tr
BaarOran
%
Klliyat-I
Klliyat-II
Klliyat-III
ekil 5.2 Naive Bayes snflandrcs kullanlarak her klliyattan elde edilen baar oranlar
Naive Bayes ynteminin Klliyat-I zerindeki en yksek baars %75,4 olup, Vgca zellik
vektrnden elde edilmitir. En kt sonu ise Vzen zellik vektr ile alnan %19,2dir.
Klliyat-II ile yaplan deneylerde bu yntemin en iyi performans Vgca ile alnan %84,1lik
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
42/56
33
sonutur. En kt performans ise Vzen zellik vektr ile alnan %19,3tr. Klliyat-IIIte
alnan en yksek baar %85 olup, hem Vgta hem de Vgca zellik vektrnden elde
edilmitir. En kt sonu yine Vzen zellik vektrnden elde edilen %29,8dir.
zellik vektrlerine gre ortalama alndnda Naive Bayesin en baarl olduu zellik
vektr %81 baar ile Vgcadr. Snflandrma iin en elverisiz zellik vektr ise % 22,7 ile
Vzendir.
Her klliyat iin baar ortalamalar hesaplandnda % 68,5lik baar oranyla Klliyat-III,
Naive Bayesin en baarl sonu verdii klliyattr.
Genel olarak klliyat iin Naive Bayes ynteminin ortalama baars % 62,1dir.
5.2.3 Destek Vektr MakinesiDestek Vektr Makinesi metodu ile her klliyattan elde edilen baar oranlar ekil
5.3deki grafikte gsterilmitir.
0
10
20
30
40
50
60
70
80
90
100
Vist
V
zen
Vdilt
V
dilc
Visl Vg
tVg
c
V
gist
V
dilta
Vdilca
V
isla
Vgta
V
gca
Vgista
zellik Vektr
BaarOran
%
Klliyat-I
Klliyat-II
Klliyat-III
ekil 5.3 Destek Vektr Makinesi metodu ile her klliyattan elde edilen baar oranlar
Destek Vektr Makinesi yntemi ile Klliyat-I zerinde yaplan snflandrmada en yksek
baar %82,1 olup, Vgt zellik vektrnden elde edilmitir. En kt baar sonucu ise Vzen
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
43/56
34
zellik vektr ile alnan %14,1dir. Klliyat-II ile yaplan deneylerde bu yntemin en iyi
performans Vgc ile alnan %83,8 sonucudur. En kt performans ise Vzen zellik vektr ile
alnan %14,9dur. Klliyat-IIIte alnan en yksek baar %87,6 olup, Vgt zellik vektrnden
elde edilmitir. En kt sonu yine Vzen zellik vektrnden elde edilen %28,2dir.
zellik vektrlerine gre ortalama alndnda DVMnin en baarl olduu zellik vektr
%84 baar ile Vgtdir. Snflandrma iin en elverisiz zellik vektr ise % 19luk baar ile
Vzendir.
Her klliyat iin baar ortalamalar hesaplandnda Klliyat-IIIn, %64 baar oran ile
Destek Vektr Makinesinin en baarl olduu klliyat olduu gzlemlenmitir.
Genel olarak klliyat iin Destek Vektr Makinesi ynteminin ortalama baars %
59,6dr.
5.2.4 ok Katmanl AlglaycSnflandrma yapmak amacyla ok Katmanl Alglayc yntemi ile deney yapldnda
klliyatlardan elde edilen baar oranlarekil 5.4deki grafikte gsterilmitir.
ok Katmanl Alglayc ynteminin, Klliyat-I zerindeki en yksek baars %72,7 olup,
Vgta zellik vektrnden elde edilmitir. En kt sonu ise, Vgc zellik vektr ile alnan
%8,5tir. Klliyat-II ile yaplan deneylerde bu yntemin en iyi performans Vgc ile alnan
%85tir. En kt performans ise, Vzen zellik vektr ile al
nan % 15,5tir. Klliyat-IIItealnan en yksek baar %89,2 olup, Vgc zellik vektrnden elde edilmitir. En kt sonu
Vzen zellik vektrnden elde edilen %34,6dr. KA yntemi Klliyat-Ide dier
klliyatlara nazaran daha kt bir performans gstermitir. Klliyat-I iin Visl, Vgt ve Vgc ile
alnan sonular dier klliyatlara gre olduka dktr.
zellik vektrlerine gre ortalama alndnda bu yntemin en baarl olduu zellik vektr
%77,5 baar ile Vgtadr. Snflandrma iin en elverisiz zellik vektr ise %23 ile
Vzendir.
Her klliyat iin baar ortalamalar hesaplandnda Klliyat-IIIn, %72 baar oran ile ok
Katmanl Alglaycnn en baarl olduu klliyat olduu gzlemlenmitir.
Genel olarak klliyat iin ok Katmanl Alglayc ynteminin ortalama baars
%60,3tr.
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
44/56
35
0
10
20
30
40
50
60
70
80
90
100
Vist
Vzen
Vdilt
Vdilc Vi
sl Vgt
Vgc
Vgist
Vdilta
Vdilc
aVi
sla Vgta
Vgca
Vgist
a
zellik Vektrleri
BaarOran
%
Klliyat-I
Klliyat-II
Klliyat-III
ekil 5.4 ok katmanl alglayc yntemi ile deney yapldnda klliyatlardan elde edilenbaar oranlar
5.2.5 K-Enyakn KomulukK-Enyakn Komuluk ile snflandrma yaplarak her klliyattan elde edilen baar oranlarekil 5.5deki grafikte gsterilmitir.
K-Enyakn Komuluk ynteminin Klliyat-I zerindeki en yksek baars %68,6 olup, Vgist
zellik vektrnden elde edilmitir. En kt sonu ise, Vzen zellik vektr ile alnan
%17,1dir. Klliyat-II ile yaplan deneylerde bu yntemin en iyi performans Vgista ile alnan
%74,9 sonucudur. En kt performans ise, Vzen zellik vektr ile alnan %17,5tir.
Klliyat-IIIte alnan en yksek baar %76,2 olup, Vgta zellik vektrnden elde edilmitir.
En kt sonu yine Visl zellik vektrnden elde edilen %31,1dir.
zellik vektrlerine gre ortalama alndnda K-Enyakn Komuluk ynteminin en baarl
olduu zellik vektr %71 baar ile Vgcadr. Snflandrma iin en elverisiz zellik
vektr ise %22,5 ile Vzendir.
Her klliyat iin baar ortalamalar hesaplandnda %56,6lk baar oranyla Klliyat-III,
K-Enyakn Komulukun en baarl olduu klliyattr.
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
45/56
36
0
10
20
30
40
50
60
70
80
90
Vist
Vzen
Vdilt
Vdilc Vi
sl Vgt
Vgc
Vgist
Vdilta
Vdilc
aVi
sla Vgta
Vgca
Vgist
a
zellik Vektr
BaarOran
%
Klliyat-I
Klliyat-II
Klliyat-III
ekil 5.5 K-Enyakn komuluk ile snflandrma yaplarak her klliyattan elde edilen baaroranlar
Genel olarak klliyat iin K-Enyakn Komuluk ynteminin ortalama baars % 50,6dr.
5.2.6 z Dzenleyici zellik Haritasz Dzenleyici zellik Haritas yntemi ile her klliyattan elde edilen baar oranlarekil
5.6deki grafikte gsterilmitir.
z Dzenleyici zellik Haritas ynteminin Klliyat-I zerindeki en yksek baars % 38,3
olup, Vgist zellik vektrnden elde edilmitir. En kt sonu ise, Vzen zellik vektr ile
alnan %15,2dir. Klliyat-II ile yaplan deneylerde bu yntemin en iyi performans Vgc ile
alnan %53 sonucudur. En kt performans ise, Vzen zellik vektr ile alnan %18,4tr.
Klliyat-IIIte alnan en yksek baar %51 olup Vgist zellik vektrnden elde edilmitir. Enkt sonu yine Vzen zellik vektrnden elde edilen %30,9dur.
zellik vektrlerine gre ortalama alndnda z Dzenleyici zellik Haritasnn en baarl
olduu zellik vektr %47,6 baar ile Vgisttir. Snflandrma iin en elverisiz zellik
vektr ise %21,5 ile Vzendir.
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
46/56
37
0
10
20
30
40
50
60
Vist
Vzen
Vdilt
Vdilc Vi
sl Vgt
Vgc
Vgist
Vdilta
Vdilc
aVi
sla Vgta
Vgca
Vgist
a
zellik Vektr
BaarOran
%
Klliyat-I
Klliyat-II
Klliyat-III
ekil 5.6 z dzenleyici zellik haritas yntemi ile her klliyattan elde edilen baaroranlar
Her klliyat iin baar ortalamalar hesaplandnda Klliyat-IIIn, %44,2 baar oran ile
z Dzenleyici zellik Haritasnn en baarl olduu klliyat olduu gzlemlenmitir.
Genel olarak klliyat iin z Dzenleyici zellik Haritas ynteminin ortalama baars
%38,6dr.
5.3 Snflandrc Birletirmeye Gre Deneysel SonularSadece bir snflandrcya bal kalmamak, baary arttrmak dncesiyle klliyatlar
zerinde yaplan deneyler sonucunda baarl performans gsteren snflandrc seilerek
oylama mantyla birletirme yaplmtr. Bu yntemler Naive Bayes, Destek Vektr
Makinesi ve Rastgele Ormandr. Birletirilmi snflandrclar daha nceki deneylerde en iyi
sonular veren zellik vektrleri zerinde denenmitir. Bu zellik vektrleri Vist, Visl, Vgt,
Vgta, Vgc, Vgca, Vgisttir.
Klliyat-I zerinde birletirilmi snflandrc ile yaplan almada elde edilen sonular
izelge 5.4 te verilmitir.
-
8/3/2019 Melez Yaklasimlarla Turkce Dokumanlarda Yazar Tanima Author Attribution of Turkish Documents With Hybrid Appro
47/56
38
izelge 5.4 Klliyat-I iin snflandrc birletirme sonular
Klliyat-Ide snflandrc birletirme ile alnan sonular genel olarak bireysel
snflandrclarla elde edilenden daha iyidir. Ancak, sadece DVM kullanldnda en yksek
baar %82,1 elde edilmiken, snflandrclarn birletirilmesinde seilen yntemlerden biri
DVM olmasna ramen en yksek sonu olarak %76,5 alnmtr. Bunun sebebi DVM ile
birletirilen dier snflandrclarn DVMden daha farkl tahmin deerleri vermesidir.
Snflandrma ilemi, oylama mantna dayandndan bu da baarnn dmesine sebep
olmutur.
Birletiricilerle elde edilen en yksek baar Vgca vektr ile NB, DVM ve RO yntemlerinin
birletirilmesinden elde edilen %76,5tir. En dk baar ise Vist vektrndeki zelliklerle
NB ve DVM yntemleri birletirilerek yaplan snflandrmada alnan %55,7dir.
Birletirilmi snflandrclarn ortalamalar alndnda en baarl kombinasyonun %69 ile
NB, DVM ve RO olduu gzlemlenmitir. zellik vektrleri baznda ortalama
hesaplandnda ise Klliyat-I iin bu birletirmelerle en iyi sonu veren zellik vektr %
76lk baar oran ile Vgcadr.
Klliyat-Iin snflandrc birletirmedeki genel baars %68,3tr.
Klliyat-II zerinde birletirilmi snflandrc ile yaplan almada elde edilen sonular
izelge 5.5te verilmitir.
Snflandrclar
zellikVektr NB-RO % NB-DVM % NB-DVM-RO %
Vist 62,2 55,7 62,7
Visl 63 62,9 63
Vgt 68 67,7 68
Vgta 74,8 74 74,8
Vgc 66,5 66,5 66,5
Vgca 76,5 75,2 76,5
Vgist 71,1 68 71,1
Ort. Baar 68,9 67,1