multispektral görüntülerde ˙ince taneli nesne tanıma ve ... · multispektral görüntülerde...

4
Multispektral Görüntülerde ˙ Ince Taneli Nesne Tanıma ve Örneksiz Ö˘ grenme Fine-Grained Object Recognition and Zero-Shot Learning in Multispectral Imagery Gencer Sümbül ve Selim Aksoy Bilgisayar Mühendisli˘ gi Bölümü Bilkent Üniversitesi, Ankara, Türkiye [email protected], [email protected] Ramazan Gökberk Cinbi¸ s Bilgisayar Mühendisli˘ gi Bölümü Orta Do˘ gu Teknik Üniversitesi, Ankara, Türkiye [email protected] Özetçe —Multispektral görüntülerde bir nesne sınıfı için çok sayıda alt kategori içinde o nesnenin türünün tanımlanmasını hedefleyen ince taneli nesne tanıma problemi ve örneksiz ö˘ grenme senaryosu için bir yöntem sunulmaktadır. Örne˘ gi bulunan sınıflar ile yeni ve görülmemi¸ s sınıflar arasında bir ili¸ ski kurabilmek için evri¸ simsel sinir a˘ gından çıkarılan görüntü öznitelikleri ile sınıfların yardımcı bilgileri arasında bir uyumluluk fonksiyonu ö˘ grenilmektedir. Örne˘ gi bulunmayan sınıflar için bilgi aktarımı, bu fonksiyonun en büyüklenmesi ile gerçekle¸ stirilmektedir. Yar- dımcı bilgi olarak elle etiketlenmi¸ s nitelikler, do˘ gal bir dil modeli ve bilimsel taksonomi ile de˘ gerlendirilen modelin performansı (%15.2) 16 test sınıfı için di˘ ger yöntemlerden daha iyidir. Anahtar KelimelerÖrneksiz ö˘ grenme, ince taneli sınıflan- dırma, nesne tanıma Abstract—We present a method for fine-grained object recog- nition problem, that aims to recognize the type of an object among a large number of sub-categories, and zero-shot learning scenario on multispectral images. In order to establish a relation between seen classes and new unseen classes, a compatibility function between image features extracted from a convolutional neural network and auxiliary information of classes is learnt. Knowledge transfer for unseen classes is carried out by maximizing this function. Performance of the model (15.2%) evaluated with manually annotated attributes, a natural language model, and a scientific taxonomy as auxiliary information is promisingly better than the other methods for 16 test classes. KeywordsZero-shot learning, fine-grained classification, ob- ject recognition I. G ˙ IR ˙ S Uzaktan algılanmı¸ s görüntülerin uzamsal ve spektral çö- zünürlü˘ günün artması ile birlikte havadan ve uydudan çe- kilmi¸ s görüntülerde yeni ayrıntılar ortaya çıkmı¸ s, bu sayede yeni nesne sınıflarının algılanması ve tanınması kolayla¸ smı¸ s- tır. Böylece, uzaktan algılanmı¸ s görüntü analizinde en po- püler problemlerden biri otomatik nesne tanıma olmu¸ stur. Hem geleneksel öznitelikleri kullanan sınıflandırıcılar, hem de sınıflandırma kurallarıyla birlikte öznitelikleri de ö˘ grenmeyi amaçlayan derin sinir a˘ gları, farklı kaynaklardan gelen veri kümelerinde dikkat çekici bir performans sergilemi¸ stir. Bu tür verilerin ortak özelli˘ gi, güdümlü bir ö˘ grenme hedefine yetecek kadar verinin genellikle bulundu˘ gu, kentsel, kırsal ve tarımsal alanlara ait görece ayrık sınıfları içermeleridir. Bu tür veri kümeleri, farklı yakla¸ sımların nesnel olarak kar¸ sıla¸ stırılmasını sa˘ glayarak ba¸ sarı seviyelerini ilerletmede faydalı olmu¸ stur. Ancak, uzaktan algılanmı¸ s görüntülerin çe¸ sitlili˘ gi halen birçok ara¸ stırma problemine yol açmaktadır. Bir nesne sınıfı için çok sayıda alt kategori içinde o nesne- nin türünün tanımlanmasıyla ilgilenen ince taneli nesne tanıma problemi uzaktan algılama literatüründe çok az ilgi görmü¸ s konulardan bir tanesidir. Bu tip problemlerde alt kategori- lerin ayrı¸ stırılması çok zor olabilmektedir. Bununla birlikte, varolan sınıflandırma modellerinin bu tür bir tanıma görevine nasıl yakla¸ saca˘ gı belirsizli˘ gini korumaktadır. ˙ Ince taneli nesne tanıma görevi, di˘ ger sınıflandırma ve tanıma görevlerinden iki önemli açıdan farklıdır: küçük örneklem büyüklü˘ gü ve sınıf dengesizli˘ gi. Uzaktan algılama geleneksel olarak bol miktarda veriden yararlanmasına ra˘ gmen, etiket bilgisini elde etmek sınıflandırma çalı¸ smalarında daima önemli bir tıkanıklık yaratmı¸ stır. Sınırlı e˘ gitim verisinin etkilerini azaltmaya yönelik genel giri¸ simler, parametre kestiriminde ve öznitelik bulmada düzgele¸ stirmeyi [1], sınıflandırıcı topluluklarını kullanmayı ve uzamsal ve ba˘ glamsal bilgilerden faydalanmayı [2] içermek- tedir. Ancak, ince taneli tanıma görevlerindeki dü¸ sük sınıflar arası de˘ gi¸ sinti ve yüksek sınıf içi de˘ gi¸ sinti istatistiksel çözüm- lerin kullanımını sınırlamaktadır. Etiketli örnek yetersizli˘ ginin üstesinden gelmek için bir di˘ ger yakla¸ sım, etkile¸ simli yeni örnekler toplamak için aktif ö˘ grenmeyi kullanmaktır [3]. Bu- nunla birlikte, ince taneli nesne tanımada, verileri görsel olarak inceleyerek çok sayıda ve çok benzer nesne kategorileri için örnek toplama alan uzmanları için bile çok zor olabilmektedir. Dahası, uzamsal olarak da˘ gıtık verileri edinme maliyetleri, saha ziyaretleri yoluyla örnek toplama i¸ slemini pratik olarak olanaksız kılabilmektedir. Ayrıca, e˘ gitim verilerindeki sınıf dengesizli˘ gi de güdümlü ö˘ grenme sırasında sorunlara neden olabilmektedir. Bu sorunların yanı sıra, daha da zor bir senaryo olarak sınıfların bazıları için hiçbir e˘ gitim örne˘ gi bulunmayan örnek- siz ö˘ grenme (zero-shot learning, ZSL) problemi ele alınabilir. Örneksiz ö˘ grenme, daha önce ö˘ grendi˘ gi kategorilerle, e˘ gitim 978-1-5386-1501-0/18/$31.00 c 2018 IEEE

Upload: others

Post on 04-Sep-2019

28 views

Category:

Documents


0 download

TRANSCRIPT

Multispektral Görüntülerde Ince Taneli NesneTanıma ve Örneksiz Ögrenme

Fine-Grained Object Recognition and Zero-ShotLearning in Multispectral Imagery

Gencer Sümbül ve Selim AksoyBilgisayar Mühendisligi Bölümü

Bilkent Üniversitesi, Ankara, Tü[email protected], [email protected]

Ramazan Gökberk CinbisBilgisayar Mühendisligi Bölümü

Orta Dogu Teknik Üniversitesi, Ankara, Tü[email protected]

Özetçe —Multispektral görüntülerde bir nesne sınıfı için çoksayıda alt kategori içinde o nesnenin türünün tanımlanmasınıhedefleyen ince taneli nesne tanıma problemi ve örneksiz ögrenmesenaryosu için bir yöntem sunulmaktadır. Örnegi bulunan sınıflarile yeni ve görülmemis sınıflar arasında bir iliski kurabilmekiçin evrisimsel sinir agından çıkarılan görüntü öznitelikleri ilesınıfların yardımcı bilgileri arasında bir uyumluluk fonksiyonuögrenilmektedir. Örnegi bulunmayan sınıflar için bilgi aktarımı,bu fonksiyonun en büyüklenmesi ile gerçeklestirilmektedir. Yar-dımcı bilgi olarak elle etiketlenmis nitelikler, dogal bir dil modelive bilimsel taksonomi ile degerlendirilen modelin performansı(%15.2) 16 test sınıfı için diger yöntemlerden daha iyidir.

Anahtar Kelimeler—Örneksiz ögrenme, ince taneli sınıflan-dırma, nesne tanıma

Abstract—We present a method for fine-grained object recog-nition problem, that aims to recognize the type of an object amonga large number of sub-categories, and zero-shot learning scenarioon multispectral images. In order to establish a relation betweenseen classes and new unseen classes, a compatibility functionbetween image features extracted from a convolutional neuralnetwork and auxiliary information of classes is learnt. Knowledgetransfer for unseen classes is carried out by maximizing thisfunction. Performance of the model (15.2%) evaluated withmanually annotated attributes, a natural language model, and ascientific taxonomy as auxiliary information is promisingly betterthan the other methods for 16 test classes.

Keywords—Zero-shot learning, fine-grained classification, ob-ject recognition

I. G IRIS

Uzaktan algılanmıs görüntülerin uzamsal ve spektral çö-zünürlügünün artması ile birlikte havadan ve uydudan çe-kilmis görüntülerde yeni ayrıntılar ortaya çıkmıs, bu sayedeyeni nesne sınıflarının algılanması ve tanınması kolaylasmıs-tır. Böylece, uzaktan algılanmıs görüntü analizinde en po-püler problemlerden biri otomatik nesne tanıma olmustur.Hem geleneksel öznitelikleri kullanan sınıflandırıcılar, hem desınıflandırma kurallarıyla birlikte öznitelikleri de ögrenmeyiamaçlayan derin sinir agları, farklı kaynaklardan gelen veri

kümelerinde dikkat çekici bir performans sergilemistir. Bu türverilerin ortak özelligi, güdümlü bir ögrenme hedefine yetecekkadar verinin genellikle bulundugu, kentsel, kırsal ve tarımsalalanlara ait görece ayrık sınıfları içermeleridir. Bu tür verikümeleri, farklı yaklasımların nesnel olarak karsılastırılmasınısaglayarak basarı seviyelerini ilerletmede faydalı olmustur.Ancak, uzaktan algılanmıs görüntülerin çesitliligi halen birçokarastırma problemine yol açmaktadır.

Bir nesne sınıfı için çok sayıda alt kategori içinde o nesne-nin türünün tanımlanmasıyla ilgilenen ince taneli nesne tanımaproblemi uzaktan algılama literatüründe çok az ilgi görmüskonulardan bir tanesidir. Bu tip problemlerde alt kategori-lerin ayrıstırılması çok zor olabilmektedir. Bununla birlikte,varolan sınıflandırma modellerinin bu tür bir tanıma görevinenasıl yaklasacagı belirsizligini korumaktadır. Ince taneli nesnetanıma görevi, diger sınıflandırma ve tanıma görevlerindeniki önemli açıdan farklıdır: küçük örneklem büyüklügü vesınıf dengesizligi. Uzaktan algılama geleneksel olarak bolmiktarda veriden yararlanmasına ragmen, etiket bilgisini eldeetmek sınıflandırma çalısmalarında daima önemli bir tıkanıklıkyaratmıstır. Sınırlı egitim verisinin etkilerini azaltmaya yönelikgenel girisimler, parametre kestiriminde ve öznitelik bulmadadüzgelestirmeyi [1], sınıflandırıcı topluluklarını kullanmayı veuzamsal ve baglamsal bilgilerden faydalanmayı [2] içermek-tedir. Ancak, ince taneli tanıma görevlerindeki düsük sınıflararası degisinti ve yüksek sınıf içi degisinti istatistiksel çözüm-lerin kullanımını sınırlamaktadır. Etiketli örnek yetersizligininüstesinden gelmek için bir diger yaklasım, etkilesimli yeniörnekler toplamak için aktif ögrenmeyi kullanmaktır [3]. Bu-nunla birlikte, ince taneli nesne tanımada, verileri görsel olarakinceleyerek çok sayıda ve çok benzer nesne kategorileri içinörnek toplama alan uzmanları için bile çok zor olabilmektedir.Dahası, uzamsal olarak dagıtık verileri edinme maliyetleri,saha ziyaretleri yoluyla örnek toplama islemini pratik olarakolanaksız kılabilmektedir. Ayrıca, egitim verilerindeki sınıfdengesizligi de güdümlü ögrenme sırasında sorunlara nedenolabilmektedir.

Bu sorunların yanı sıra, daha da zor bir senaryo olaraksınıfların bazıları için hiçbir egitim örnegi bulunmayan örnek-siz ögrenme (zero-shot learning, ZSL) problemi ele alınabilir.Örneksiz ögrenme, daha önce ögrendigi kategorilerle, egitim978-1-5386-1501-0/18/$31.00 c© 2018 IEEE

örnekleri olmayan yeni kategorileri iliskilendirerek bir tanımamodeli olusturmayı amaçlamaktadır [4]. Örneksiz ögrenmedetest kategorileri için herhangi bir egitim örnegi mevcut ol-madıgından, tek basına görüntü verileri egitimde görülmeyenve egitimde görülen sınıflar arasındaki iliskiyi olusturmakiçin yeterli degildir. Bu nedenle, bu iliskiyi kurmak için arakatman olarak islev görebilecek yeni yardımcı bilgi kaynaklarıkullanılmalıdır.

Uzaktan algılama literatüründe, ince taneli nesne tanımaiçin örneksiz ögrenme problemi [5]’te RGB görüntüleri üze-rinde incelenmistir. Bu bildiride, örneksiz ögrenme ile incetaneli nesne tanıma problemi uzaktan algılanmıs multispektralgörüntülerde incelenmektedir. Önerilen yaklasım, girdi görüntüverilerinde gözlemlenen görsel özellikler ile sınıfların anlamsalözelliklerini tanımlayan yardımcı bilgiler arasındaki uyumlu-lugu modelleyen çift dogrusal bir fonksiyon kullanmaktadır.Görüntü içerigi, egitim verisinde görülen sınıflardan ögrenilenbir evrisimsel sinir agı kullanılarak çıkarılmıs özniteliklertarafından modellenmistir. Kullanılan yardımcı bilgi üç tamam-layıcı alandan toplanmıstır. Bunlar, alan uzmanlıgını yansıtanelle etiketlenmis nitelikler, büyük metin derlemesi üzerindeegitilmis dogal bir dil modeli ve bilimsel taksonominin hiye-rarsik gösterimidir. Ögrenme asamasında en büyük olabilirlikilkesini kullanarak egitimde görülen sınıflardan uyumlulukfonksiyonunun nasıl kestirelecegi ve bu fonksiyonun en bü-yüklenmesi ile bilgi aktarımının nasıl gerçeklestirilecegi gös-terilmektedir. Ardından, önerilen yöntem farklı agaç türleriniiçeren bir veri kümesinde denenmistir.

Önerilen yöntemin ayrıntıları Bölüm II’de açıklanmıstır.Deneysel çalısmalar Bölüm III’te verilmistir. Bölüm IV’te isesonuçlar sunulmustur.

II. YÖNTEM

A. Örneksiz Ögrenme Modeli

Amacımız verilen bir görüntüyü, x ∈ X , hedef sınıflardanbirine, y ∈ Y , esleyen ayırıcı bir fonksiyon ögrenmektir.Burada X tüm görüntülerin uzayı ve Y tüm nesne sınıfla-rının kümesidir. Örneksiz ögrenmenin tanımına göre, egitimörnekleri sadece egitimde görülen sınıflardan alınabilir. Busınıflar, bütün sınıfların bir alt kümesidir (Ytr ⊂ Y). Bunedenle, hiçbir egitim örnegi olmayan görülmeyen sınıfları(Yte ⊂ Y ve Ytr∩Yte = ∅) tanıyabilen bir model olusturmamızgeleneksel güdümlü yöntemlerle dogrudan mümkün degildir.Bu zorlugun üstesinden gelmek için öncelikle sınıf gösterimiolarak adlandırılan bir vektör uzayı temsilinin her sınıf içinmevcut oldugu varsayılmaktadır. Her bir sınıf gösterimi vek-törünün sınıfın (görsel) özelliklerini betimlemesi beklenir veböylece sınıflandırma bilgisi, görülen sınıflardan görülmeyensınıflara aktarılabilir. Bu bilgi aktarımını gerçeklestirmek içinbir F : X × Y → R uyumluluk fonksiyonu kullanılmaktadır.Bu fonksiyon, verilen görüntü-sınıf ikilisini (x,y) sayıl birdegere eslemektedir. Bu deger, x görüntüsünün y sınıfınaatanmasına olan güveni temsil eder. Egitimde görülmemissınıfların örneklerini tanımak için kullanılacak olan uyumlulukfonksiyonunu ögrenirken sadece görülen sınıfların örneklerinikullanabildigimiz için, F (x, y) fonksiyonu sınıf-agnostik birmodel kullanmalıdır. [6] çalısmasını takiben uyumluluk fonk-siyonu çift dogrusal yapıda asagıdaki gibidir:

F (x, y) = φ(x)>Wψ(y). (1)

YumurtaYaprak

DikensizKabuk

DüzenliTaç

Word2Vec

Taksonomi Hiyerarşisi

......

Oleaceae

Fraxinus L.

Fraxinuspennsylvanica

Fraxinusangustifolia’F lame’

Sekil 1: Önerdigimiz yöntem, φ(x) görüntü ve ψ(y) sınıfgösterimi arasındaki uyumluluk fonksiyonunu, F (x, y), ögren-mektedir. F (x, y), egitimde görülmeyen sınıfların örneklerinitanımada kullanılmaktadır.

Bu denklemde φ(x), görüntü gösterimi olarak adlandırılan dboyutlu bir görüntü temsilini, ψ(y), m boyutlu bir sınıf göste-rimini, ve W , d×m boyutlu bir matrisi ifade etmektedir. Buuyumluluk fonksiyonu, görüntü ve sınıf gösterimleri arasındakiçapraz-alan iliskisinin sınıf-agnostik bir modeli olarak düsünü-lebilir. Yöntemin görsellestirmesi için Sekil 1’e bakılabilir.

Uyumluluk fonksiyonunu ögrenmek için, çok sınıflı lojistikregresyon sınıflandırıcısının uyarlamasına dayanan bir yöntemgelistirilmistir. Sınıfa ait sonsal olasılık dagılımı, uyumlulukdegerlerinin softmax sonucu olarak tanımlanmaktadır:

p(y|x) = exp (F (x, y))∑y′∈Ytr

exp (F (x, y′)). (2)

Bu denklemde Ytr ⊂ Y , egitemde görülen sınıfların kümesiniifade etmektedir. Ardından, verilen Ntr egitim örnegi için,F (x, y) uyumluluk fonksiyonunun en büyük olabilirlik ilkesiile ögrenilmesi amaçlanmaktadır. Veri kümesinin bagımsızözdesçe dagılmıs örneklerden olustugunu varsayarsak, etiketolabilirligi su sekilde bulunabilir:

enbuyutmeW∈Rd×m

Ntr∏i=1

p(yi|xi). (3)

En iyileme problemi, egitim örneklerinin öngörülen gerçek sı-nıf olasılıklarını en büyükleyen W matrisinin bulunması olarakyorumlanabilir. Esdeger olarak, negatif logaritmik olabilirligien küçülterek parametreler bulunabilir:

enku˙cultme

W∈Rd×m

Ntr∑i=1

− log p(yi|xi). (4)

Yerel bir en iyi çözüm bulmak için, stokastik gradyan inisi(SGI) tabanlı en iyileme kullanılmaktadır. Bu yöntemin anafikri, bir dizi egitim örnegini yinelemeli örneklemek, yıgınüzerinde yaklasık gradyanı hesaplamak ve yaklasık gradyanıkullanarak model parametrelerini güncellemektir. Bizim duru-mumuzda, SGI’nin t yinelemesinde, egitim örneklerinin bir Bt

yıgını üzerindeki Gt gradyan matrisi asagıdaki gibi hesapla-nabilir:

Gt = −∑i∈Bt

∇W log p(yi|xi).

Bu denklemde, i örnegi için logaritmik olabilirlik teriminingradyanı söyledir:

∇W log p(yi|xi) = φ(xi)ψ(yi)> −

∑y∈Ytr

p(y|xi)φ(xi)ψ(y)>.

Verilen yaklasık gradyan için sade SGI algoritması, Gt’yeorantılı bir matrisi model parametrelerinden çıkararak çalıs-maktadır:

Wt ←Wt−1 − αGt. (5)

Bu denklemde Wt, güncellenmis model parametrelerini ve α(ögrenme hızı), SGI yinelemeleri boyunca güncelleme oranınıbelirtmektedir.

B. Görüntü gösterimi

Uzaktan algılanmıs multispektral görüntülerde görsel içeriktemsillerini ögrenmek ve çıkarmak için derin bir evrisimsel si-nir agı (convolutional neural network, CNN) kullanılmaktadır.CNN kullanılmasının nedeni piksel tabanlı spektral bilgileri veuzamsal doku içerigini modelleyebilmektir. Kullanılan mima-ride sırasıyla 5× 5, 5× 5 ve 3× 3 boyutlu filtreler içeren üçevrisimsel katman ve tümü birbirine baglı sinirlerden olusan2 katman bulunmaktadır. Uzamsal çözünürlügü kaybetmemekadına CNN modellerinde yaygın olarak kullanılan biriktirme(pooling) katmanı bu çalısmada tercih edilmemistir. Bir dizibenzer derin ve genis mimari incelenmis, sunulan mimariyeek olarak 3 × 3, 3 × 3 ve 3 × 3 boyutlu filtrelerin bulunduguevrisimsel katmanlara sahip mimarinin sonuçları da paylasıl-mıstır. CNN modeli, egitimde görülen sınıflar üzerinde velogaritmik etiket olabilirligini en büyütecek sekilde egitilmistir.Sinir agı egitildikten sonra, örneksiz ögrenme modelindekigörüntü gösterimi, φ(x), için ilk tam baglantılı katmanın çıktısıolan 128 boyutlu vektör kullanılmıstır.

C. Sınıf gösterimi

Sınıf gösterimi, sınıflandırma bilgisinin aktarılması içinbilgi kaynagı oldugundan sınıfların görsel özelliklerini ifadeetmelidir. Bu amaçla üç farklı sınıf gösterimi yöntemininbirlesimi kullanılmaktadır: (i) hedef tema alanından topladı-gımız elle etiketlenmis nitelikler, (ii) güdümsüz dil modellerikullanılarak olusturulmus metin gösterimleri ve (iii) bilimselbir taksonomiye dayalı hiyerarsik gösterim. Görsel nitelikler,nesnelerin parça, doku ve sekil gibi görsel olarak ayırıcı özel-liklerini belirleyerek elde edilmektedir. Bu çalısmada niteliklerikullanmak için, Florida Agaçları bilgi metnine [7] dayanarak,agaç türleri için 25 nitelik (yükseklik, taç yogunlugu, yapraksekli, çiçek rengi gibi) toplanmıstır. Nitelikleri tamamlayanikinci yöntem olarak, kelimeler ve onların baglamları arasın-daki iliskiyi modelleyen güdümsüz Word2Vec yaklasımı [8]kullanılmaktadır. Word2Vec tarafından kodlanan anlamsal ilis-kileri kullanmak için, Wikipedia makaleleri üzerinde egitilmis1000 boyutlu bir gösterim modeli kullanılmakta ve agaç tür-lerinin yaygın adlarının kelime gösterimleri çıkarılmaktadır.Birden fazla kelimeye sahip kategorilerde, her kelime içinçıkartılan gösterim vektörlerinin ortalaması alınmaktadır. Kul-lanılan üçüncü ve son sınıf gösterimi türü, agaç türleri ara-sındaki benzerlikleri bilimsel sınıflandırmaya dayanarak ifadeetmeyi amaçlamaktadır. Taksonomi agacındaki agaç türlerininkonumunu ve atalarını ifade etmek için, [9]’de açıklanan agaç-vektör dönüsüm seması uygulanmaktadır. Verilen bir agaç

türüne karsılık gelen gösterim vektörü, her bir dügüm içinikili bir deger tanımlayarak ve yalnızca kökten ilgili yaprakdügümüne giden yolda görünen dügümlere karsılık gelen de-gerleri 1 yaparak elde edilmektedir. Bu üç gösterim yöntemiyleüretilen vektörler art arda eklenerek son gösterim vektörüolusturulmaktadır. Sınıf gösterim yöntemlerinin detayları [5]’teverilmistir.

III. DENEYLER

A. Deney düzenegi

Veri kümesi olusturulurken, [5]’te kullanılan, 40 sınıfaait sokak agaçlarının konum bilgisi ve isimlerinin bulunduguGIS verisi kullanılmıstır. Görüntü verisi için aynı çalısmadakullanılan RGB görüntüsü yerine, aynı uzamsal alanı içerenWorldView-2 uydusundan çekilmis 8 bantlı ve 1.84 metreuzamsal çözünürlüge sahip multispektral görüntü kullanılmıs-tır. Dolayısıyla her agaç, 25×25 boyutlu pencereler yerine aynıalana denk gelecek sekilde 4 × 4 boyutlu pencerelerle temsiledilmistir.

Deney düzenegi güdümlü ve örneksiz ögrenmeyi birlikteiçermektedir. Dolayısıyla, önyargısız dergerlendirme sonuçlarıelde etmek için veri kümemizdeki 40 sınıf, ortak sınıf olma-yacak sekilde ayrık üç kümeye bölünmüstür. Güdümlü kümeye18 sınıf, ZSL saglama kümesine 6 sınıf ve geri kalan ZSL testkümesine 16 sınıf ayrılmıstır. Bölmeler kabaca her sınıftakiörnek sayısına göre ayarlanmıstır. ZSL dogruluk degerlendir-mesinde güvenilir bir performans elde edebilmek için, çogun-lukla en büyük sınıflar güdümlü kümeye, en küçük sınıflarZSL saglama kümesine, geri kalanlar ise ZSL test kümesineayrılmıstır. Güdümlü küme iki amaç için kullanılmaktadır: (i)CNN modelini güdümlü sınıflandırmada degerlendirmek ve (ii)güdümlü kümeye ait sınıfları kullanarak ZSL modelini egit-mek. Güdümlü sınıflandırma deneyleri için sadece güdümlüküme sınıfları kullanılmaktadır. Bu sınıflara ait görüntüler,güdümlü egitim (60%), güdümlü saglama (20%) ve güdümlütest (20%) olarak alt kümelere bölünmektedir. Bu üç alt küme,18 güdümlü küme sınıfına ait görüntüleri içermektedir ve ZSLsaglama kümesinden veya ZSL test kümesinden bir sınıfa aitherhangi bir görüntü içermemektedir. Güdümlü sınıflandırıcı-ların parametreleri seçilirken, güdümlü saglama kümesindekiperformans en iyilestirilmeye çalısılmıstır. ZSL deneylerinde,güdümlü kümedeki tüm görüntüler kullanılarak ZSL modeliegitilmistir. ZSL modelinin parametrelerini ayarlamak içinZSL saglama kümesinde örneksiz tanıma dogrulugu kullanıl-mıstır. Model performansı son olarak egitimde görülmeyensınıfları içeren ZSL test kümesinde degerlendirilmistir. Deney-ler boyunca performans ölçütü olarak, her sınıfın dogrulukoranının ortalaması alınarak bulunan düzgelenmis dogrulukkullanılmıstır. Bu sekilde, çok sayıda örnege sahip sınıflarayönelik önyargılardan kaçınmak hedeflenmistir.

B. Güdümlü ince taneli sınıflandırma

ZSL sonuçlarını sunmadan önce, CNN modeli rastgeleorman sınıflandırıcısı ile güdümlü bir sekilde Tablo I’de kar-sılastırılmıstır. Adil bir karsılastırma için, her iki yöntem degüdümlü egitim kümesi üzerinde egitilmis ve parametrelerigüdümlü saglama kümesinde ayarlanmıstır. Ayrıca her biregitim örnegi görüntüsü, yükseklik ve genislik %0 − %20aralıgında rastgele kaydırılarak degistirilmistir. Sonuçlardan,

TABLO I: NESNETANIMA SONUÇLARI (%)

Güdümlü Sınıflandırma

Rastgele Tahmin 5.6

Rastgele Orman (RGB) [5] 15.8

Rastgele Orman (Multispektral) 21.3

CNN (RGB) [5] 34.6

CNN (Multispektral)Filtre: (5×5),(5×5),(3×3)

36.7

CNN (Multispektral)Filtre: (3×3),(3×3),(3×3)

39.0

Örneksiz Ögrenme (ZSL)

Rastgele Tahmin 6.3

ZSL (RGB) [5] 14.3

ZSL (Multispektral)Filtre: (5×5),(5×5),(3×3)

14.7

ZSL (Multispektral)Filtre: (3×3),(3×3),(3×3)

15.2

TABLO II: FARKLISINIF GÖSTERIMLERI

IÇIN ÖRNEKSIZÖGRENME

SONUÇLARI (%)

Nitelik

Hiyerar

siW

ord2

Vec

3 7 7 13.3

7 3 7 13.0

7 7 3 13.3

3 3 7 13.5

3 7 3 13.4

7 3 3 14.6

3 3 3 15.2

sınıflandırma yöntemlerinin rastgele tahmin temelinden (%5.6)daha iyi performans gösterdigi görülmektedir. Ayrıca, RGB(%34.6) ve multispektral (%36.7 ve %39.0) görüntüye uygu-lanmıs CNN modelleri, rastgele ormandan (RGB için %15.8,multispektral için %21.3) daha iyi çalısmaktadır. Hem rastgeleorman sınıflandırıcısı hem de farklı filtre boyutlarında CNNiçin, multispektral görüntünün RGB görüntüsünden daha iyisonuç verdigi gözlemlenmektedir. Bu sonuçlar, CNN yak-lasımıyla ögrenilmis derin görüntü temsilinin avantajını veuzamsal çözünürlügü RGB görüntüye göre düsük olmasınaragmen multispektral verideki spektral çözünürlügün öneminigöstermektedir. Buna ek olarak, binaları agaçlardan ya dayolları çimden vb. ayırmaya çalısan geleneksel sınıflandırmasenaryolarından oldukça farklı olan ince taneli sınıflandırmanınne kadar zor bir problem oldugu gözlemlenebilmektedir.

C. Ince taneli örneksiz ögrenme

ZSL modeli, güdümlü küme üzerinde egitilmis ve tümmodel parametreleri ZSL saglama kümesindeki düzgelenmisdogruluga göre ayarlanmıstır. Ayrıca egitim sınıflarındaki ör-nek sayısı dengesizliginin ZSL modelini olumsuz etkiledigigözlemlenmistir. Bu sorunu hafifletmek için, her sınıfın egi-tim kümesi büyüklügü en büyük sınıfın büyüklügüne esitolacak sekilde rastgele ek örnekleme uygulanmıstır. 16 ZSLtest sınıfı üzerindeki ZSL sonuçları Tablo I’de sunulmustur.ZSL modelinin rastgele tahmin temelinden (%6.3) daha iyiperformans gösterdigi görülmektedir. Dolayısıyla, olasılıksalZSL formüllestirmesinin geçerliligi dogrulanmaktadır.

Görüntü gösteriminin, ZSL performansı üzerinde derinbir etkisi vardır. RGB görüntüsü için kullanılan mimariyleelde edilen multispektral görüntü gösteriminin ZSL sonucu(%14.7) ile yaklasık 6 kat daha düsük uzamsal çözünürlügeragmen aynı basarı yakalanmıstır. Bu, spektral bilginin görüntügösterimi için önemini belirtmektedir. Multispektral görüntüyedaha uygun filtre boyutu (3×3) tercih edildigi zaman, basarınınarttıgı (%15.2) gözlemlenmistir. Bu sonuç, veriye ve alanaözgü CNN mimarisi seçmenin ZSL basarısı için öneminiortaya koymaktadır.

Sınıf gösterimi üç farklı gösterim yönteminin birlesimiolarak kullanılmıstır. Her birinin katkısını anlamak için,Tablo II’de sınıf gösterimi yöntemlerinin farklı birlesimininZSL performansı sunulmustur. Burada (3 × 3) CNN filtresikullanılmıstır. Tablonun ilk üç satırında, gösterim yöntemleritek tek kullanıldıgında nitelik (%13.3), hiyerarsi (%13.0) veWord2Vec (%13.3) performanslarının benzer oldugu görül-mektedir. Ardından gelen üç sıra, hiyerarsi-Word2Vec (%14.6)gösterim çiftinin, tek tek gösterimlerle birlikte nitelik-hiyerarsi(%13.5) veya nitelik-Word2Vec (%13.4) çiftlerine kıyasla dahaiyi sonuç verdigini göstermektedir. Tüm gösterimlerin birlesi-mine dayanan ve en yüksek dogrulugu veren sonuç (%15.2) sı-nıf gösterimlerinin birbirlerini tamamlayıcı nitelikte oldugunugöstermektedir.

IV. SONUÇ

Bu çalısmada, multispektral görüntülerde ince taneli nesnetanıma için örneksiz ögrenme problemi üzerinde çalısılmıstır.Egitim örnekleri bulunmuyor olsa bile çok benzer sınıflarıtanıma problemi ile basa çıkabilmek için yardımcı bilgi kay-naklarından yararlanılmıstır. Önerilen yaklasım ile görülensınıflardan çift dogrusal bir fonksiyon ögrenilmistir. Böylece,girdi görüntü verilerinde gözlemlenen görsel özellikler ilesınıfların anlamsal özelliklerini tanımlayan yardımcı bilgilerarasındaki uyumluluk modellenmistir. Ardından uyumlulukfonksiyonunun bilgi aktarımını gerçeklestirmek için nasıl kul-lanılabilecegi gösterilmistir. Gözlemlenen deney sonuçları ile,6 kat daha düsük uzamsal çözünürlüge sahip multispektralverinin, uygun bir CNN mimarisi ile RGB verisinden dahaiyi örneksiz ögrenme basarısı saglayabilecegi gösterilmistir.

TESEKKÜR

Bu çalısma TÜBITAK 116E445 numaralı proje ve BilimAkademisi BAGEP Ödülü ile desteklenmistir.

KAYNAKLAR

[1] B.-C. Kuo and K.-Y. Chang, “Feature extractions for small sample sizeclassification problem,” IEEE Trans. Geosci. Remote Sens., vol. 45, no. 3,pp. 756–764, March 2007.

[2] F. Li, L. Xu, P. Siva, A. Wong, and D. A. Clausi, “Hyperspectralimage classification with limited labeled training samples using enhancedensemble learning and conditional random fields,” IEEE J. Sel. Top. Appl.Earth Obs. Remote Sens., vol. 8, no. 6, pp. 2427–2438, 2015.

[3] B. Demir, C. Persello, and L. Bruzzone, “Batch-mode active-learningmethods for the interactive classification of remote sensing images,”IEEE Trans. Geosci. Remote Sens., vol. 49, no. 3, pp. 1014–1031, March2011.

[4] B. Romera-Paredes and P. H. S. Torr, “An embarrassingly simpleapproach to zero-shot learning,” in Intl. Conf. Mach. Learn., vol. 37,2015, pp. 2152–2161.

[5] G. Sumbul, R. G. Cinbis, and S. Aksoy, “Fine-grained object recognitionand zero-shot learning in remote sensing imagery,” IEEE Trans. Geosci.Remote Sens., vol. 56, no. 2, pp. 770–779, February 2018.

[6] Y. Xian, B. Schiele, and Z. Akata, “Zero-shot learning — the good, thebad and the ugly,” in IEEE Conf. Comput. Vis. Pattern Recog., 2017.

[7] University of Florida. (2016, October) 680 tree factsheets: Trees by common name. [Online]. Available:http://hort.ifas.ufl.edu/database/trees/trees_common.shtml

[8] T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, “Distributedrepresentations of words and phrases and their compositionality,” in Adv.Neural Inf. Process. Syst., 2013, pp. 3111–3119.

[9] R. Mittelman, M. Sun, B. Kuipers, and S. Savarese, “A Bayesian gene-rative model for learning semantic hierarchies,” Frontiers in Psychology,vol. 5, p. 417, May 2014.