ankara Ünİversİtesİ fen bİlİmlerİ enstİtÜsÜ...
TRANSCRIPT
![Page 1: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/1.jpg)
ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ
YÜKSEK LİSANS TEZİ
YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA
Gülin DEDE
ELEKTRONİK MÜHENDİSLİĞİ ANABİLİM DALI
ANKARA 2008
Her hakkı saklıdır
![Page 2: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/2.jpg)
i
ÖZET
Yüksek Lisans Tezi
YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA
Gülin DEDE
Ankara Üniversitesi
Fen Bilimleri Enstitüsü
Elektronik Mühendisliği Anabilim Dalı
Danışman: Yrd. Doç. Dr. Murat Hüsnü SAZLI
Bu çalışmada Yapay Sinir Ağları konusu incelenmiş ve bir Konuşma Tanıma
uygulaması gerçekleştirilmiştir. Yapay sinir ağlarının gelişimindeki kilometre taşlarına
değinilmiş ve bu süreçte uygulama alanında öne çıkan eğitim yöntemleri ve ağ yapıları
incelenmiştir. Uygulamada kullanılan ağ yapıları olan geri yayılımlı Çok Katmanlı
Algılayıcı, Elman Ağı ve Olasılıksal Sinir Ağı yapıları incelenmiş ve ele alınan
konuşma tanıma uygulaması her bir ağ modeli ile sınanarak söz konusu yapılar
birbirleri ile mukayese edilmiştir. Konuşma tanıma problemine çözüm aranan bu süreçte
sinir ağlarının yanı sıra Sayısal Sinyal İşleme konusu da uygulamanın gerektirdiği
ölçüde araştırılmış ve kelimelerin özniteliklerinin çıkarılması aşamasında kullanılmıştır.
Söz konusu uygulamanın çerçevesi konuşmacıya bağımlı, kelime tabanlı ve izole
kelime tanıma özellikleri temel alınarak belirlenmiştir. Elde edilen sonuçlar literatürdeki
benzer çalışmalarla kıyaslanmış olup, bu tezde önerilen metotların anılan çalışmalara
denk ve hatta daha başarılı sonuçlar verdiği görülmüştür.
2008, 76 sayfa
Anahtar Kelimeler: Yapay sinir ağları, sayısal sinyal işleme, izole kelime tanıma
![Page 3: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/3.jpg)
ii
ABSTRACT
B.S. Thesis
SPEECH RECOGNITION WITH ARTIFICIAL NEURAL NETWORKS
Gülin DEDE
Ankara University
Graduate School of Natural and Applied Sciences
Department of Electronics Engineering
Supervisor: Assist. Prof. Dr. Murat Hüsnü SAZLI
In this thesis, Artificial Neural Networks were reviewed and then some Speech
Recognition applications were carried out. Milestones in the evolution of neural
networks were mentioned. Throughout the study, some prominent training algorithms
and network topologies were examined. Widely applied network topologies, i.e. the
Multilayer Perceptron trained with back propagation algorithm, Elman Network and
Probabilistic Neural Network were scrutinized. Then, speech recognition applications
of these networks were compared. In the process of seeking solutions to the speech
recognition problem, besides the neural networks, the area of Digital Signal Processing
(DSP) were examined within the scope of the thesis. DSP techniques were used for
feature extraction from the words. Framework of the application was determined based
upon the following specifications: speaker’s voice characteristics, word related aspects,
and discrete word recognition properties. Results were compared with similar work
found in the literature. It was noticed that methods proposed in this thesis yield
comparable or even superior results.
2008, 76 pages
Key Words: Artificial neural networks, digital signal processing, discrete word
recognition
![Page 4: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/4.jpg)
iii
TEŞEKKÜR
Çalışmalarımı yönlendiren, araştırmalarımın her aşamasında bilgi, öneri ve yardımlarını
esirgemeyen danışman hocam sayın Yrd. Doç. Dr. Murat Hüsnü SAZLI’ya,
çalışmalarımı önerileriyle zenginleştiren değerli bölüm başkanımız sayın Doç. Dr.
Hakkı Gökhan İLK’e, çalışmalarım süresince desteğini daima hissettiğim sevgili eşime
ve beni bu günlere getiren aileme en derin duygularla teşekkür ederim.
Gülin DEDE
Ankara, Temmuz 2008
![Page 5: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/5.jpg)
iv
İÇİNDEKİLER
ÖZET.................................................................................................................................i
ABSTRACT.....................................................................................................................ii
TEŞEKKÜR....................................................................................................................iii
SİMGELER DİZİNİ......................................................................................................vi
ŞEKİLLER DİZİNİ......................................................................................................vii
ÇİZELGELER DİZİNİ...............................................................................................viii
1. GİRİŞ............................................................................................................................1
2. YAPAY SİNİR AĞLARI............................................................................................3
2.1 YSA’nın Tanımı.........................................................................................................3
2.2 YSA’nın Tarihsel Gelişimi........................................................................................4
2.3 YSA’nın Bileşenleri ve Yapısı...................................................................................6
2.3.1 Biyolojik nöron........................................................................................................6
2.3.2 Yapay nöron............................................................................................................8
2.3.3 YSA’nın yapısı.......................................................................................................11
2.4 YSA’nın Sınıflandırılması.......................................................................................12
2.4.1 Yapılarına göre YSA çeşitleri..............................................................................12
2.4.2 Öğrenme algoritmalarına göre YSA çeşitleri.....................................................14
2.4.3 Kullanılan veri türüne göre YSA çeşitleri..........................................................16
2.5 YSA’nın Eğitilmesi ve Testi....................................................................................17
2.5.1 YSA’nın eğitimi.....................................................................................................18
2.5.2 YSA’nın testi..........................................................................................................20
2.6 YSA Modelleri..........................................................................................................22
2.6.1 Çok katmanlı algılayıcı.........................................................................................22
2.6.2 Elman ağları..........................................................................................................23
2.6.3 Olasılıksal sinir ağları...........................................................................................25
2.7 YSA Özellikleri.........................................................................................................26
3. SAYISAL SİNYAL İŞLEME....................................................................................28
3.1 Temel Bilgiler...........................................................................................................28
3.2 Öznitelik Çıkarımı...................................................................................................30
3.2.1 Kayan pencereleme...............................................................................................31
![Page 6: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/6.jpg)
v
3.2.2 Pencereleme...........................................................................................................32
3.2.3 FFT.........................................................................................................................32
3.2.4 Mel-frekans dönüşümü.........................................................................................33
3.2.5 Kepstrum...............................................................................................................33
4. YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA UYGULAMASI..............34
4.1 Neden Konuşma Tanıma?.......................................................................................34
4.2 Konuşma Tanıma Uygulamalarının Sınıflandırılması.........................................35
4.2.1 Konuşmacı bağımlılığına göre sınıflandırma.....................................................36
4.2.2 Temel alınan ses birimine göre sınıflandırma....................................................36
4.2.3 Sesin sürekliliğine göre sınıflandırma.................................................................37
4.2.4 Metne göre sınıflandırma.....................................................................................37
4.3 Uygulama Çerçevesi................................................................................................38
4.4 Yazılım Geliştirme...................................................................................................39
4.5 Yazılım Kullanımı....................................................................................................48
4.5.1 Ağ seçimi................................................................................................................49
4.5.2 Eğitim.....................................................................................................................50
4.5.3 Test verisi ve test sinyali.......................................................................................53
4.5.4 Test sonucu............................................................................................................54
5. SONUÇ.......................................................................................................................56
5.1 Performans ve Sonuçlar..........................................................................................56
5.2 Literatürdeki Benzer Çalışmalar ..........................................................................66
5.3 Değerlendirme..........................................................................................................69
KAYNAKLAR...............................................................................................................72
ÖZGEÇMİŞ...................................................................................................................76
![Page 7: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/7.jpg)
vi
SİMGELER DİZİNİ
AWGN Additive White Gausien Noise
ÇKA Çok Katmanlı Algılayıcı
FFT Fast Fourier Transform
GUI Graphic User Interface
LPC Linear Predictive Coding
MFC Mel-Frequency Cepstrum
NNT Neural Network Toolbox
OSA Olasılıksal Sinir Ağı
PCM Pulse Code Modulation
SSİ Sayısal Sinyal İşleme
YSA Yapay Sinir Ağları
![Page 8: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/8.jpg)
vii
ŞEKİLLER DİZİNİ
Şekil 2.1 İnsan beyninin yapısı..........................................................................................6
Şekil 2.2 Biyolojik nöronun yapısı....................................................................................7
Şekil 2.3 Yapay nöronun yapısı.........................................................................................8
Şekil 2.4 Çeşitli aktivasyon fonksiyonları (a) Tek kutuplu basamak fonksiyonu,
(b) Çift kutuplu basamak fonksiyonu, (c) Doğrusal fonksiyon,
(d) Simetrik parçalı doğrusal fonksiyon, (e) Sigmoid fonksiyonu,
(f) Tanjant sigmoid fonksiyonu.......................................................................10
Şekil 2.5 İleri beslemeli ağ yapısı....................................................................................13
Şekil 2.6 Geri beslemeli ağ yapısı...................................................................................14
Şekil 2.7 Danışmanlı öğrenme.........................................................................................15
Şekil 2.8 Danışmansız öğrenme......................................................................................16
Şekil 2.9 Çok katmanlı algılayıcı yapısı..........................................................................23
Şekil 2.10 Elman sinir ağları yapısı.................................................................................24
Şekil 2.11 Olasılıksal sinir ağları yapısı..........................................................................25
Şekil 3.1 MFC blok diyagramı........................................................................................31
Şekil 4.1 Giriş matrisinin oluşturulması..........................................................................46
Şekil 4.2 Çıkış matrisinin oluşturulması..........................................................................47
Şekil 4.3 Konuşma tanıma sistemi uygulama penceresi..................................................49
Şekil 4.4 Eğitim ekranı....................................................................................................50
Şekil 4.5 Geri yayılımlı ÇKA eğitim penceresi...............................................................51
Şekil 4.6 Elman ağı eğitim penceresi..............................................................................52
Şekil 4.7 Test verisi ekranı..............................................................................................53
Şekil 4.8 Sonuç ekranı.....................................................................................................54
Şekil 5.1 Ortalama ağ başarımları...................................................................................61
Şekil 5.2 OSA yapısında kullanılan nöron sayısının, eğitim verisindeki örnek
sayısı ile değişimi............................................................................................64
![Page 9: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/9.jpg)
viii
ÇİZELGELER DİZİNİ
Çizelge 4.1 Konuşma tanıma sistemlerinin sınıflandırılması..........................................35
Çizelge 4.2 MFC hesabında kullanılan parametreler......................................................42
Çizelge 5.1 Geri yayılımlı ÇKA için doğruluk çizelgesi.................................................57
Çizelge 5.2 Elman ağı için doğruluk çizelgesi................................................................58
Çizelge 5.3 OSA için doğruluk çizelgesi........................................................................59
Çizelge 5.4 Ağ başarımları..............................................................................................60
Çizelge 5.5 Ortalama ağ başarımları...............................................................................61
Çizelge 5.6 OSA için geniş veri seti ile doğruluk çizelgesi...........................................63
Çizelge 5.7 OSA için gürültü ilaveli doğruluk çizelgesi.................................................65
Çizelge 5.8 Ağ yapıları arasındaki farklar.......................................................................67
![Page 10: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/10.jpg)
1
1. GİRİŞ
Yapay Zeka, insan beyninin çalışma sistemini anlamak ve bu sistemi taklit etmek üzerine
kurulmuş olan ve temelleri orta çağ düşünürlerine kadar uzanan eski bir paradigmadır.
Yapay Sinir Ağları ise bu köklü paradigmanın önemli araştırma ve uygulama alanlarından
biridir.
Yapay Sinir Ağları teknolojisi, 40’lı yıllara dayanan ilk uygulamalarından itibaren sürekli
bir gelişim içinde olmuştur. Yapay Sinir Ağlarına atfedilen pek çok çalışmaya ilham veren
ve gelişimindeki sürekliliği sağlayan temel husus ise insanoğlunun, günlük hayatında
büyük yer tutan bilgisayarlara, kendi yeteneklerini aktarma isteğidir. Bu sebepten ötürüdür
ki Yapay Sinir Ağları, üzerinde sıklıkla durulan ve geniş uygulama alanına sahip temel bir
disiplin olarak literatürde yerini almıştır.
Bu çalışmada, Yapay Sinir Ağları disiplini ile ilgili bilgilerin derlenmesi ve bu bilgiler
ışığında bir konuşma tanıma uygulaması yapılması hedeflenmiştir. Tezde ele alınan konular
sırasıyla Giriş, Yapay Sinir Ağları, Sayısal Sinyal İşleme, Yapay Sinir Ağları ile Konuşma
Tanıma Uygulaması ve Sonuç olmak üzere beş genel başlık altında araştırılmıştır.
İkinci bölümde Yapay Sinir Ağları (YSA) ile ilgili genel bilgilere yer verilmiştir. Bu
kapsamda YSA’nın tanımı, tarihsel gelişimi ile yapısı ve elemanları açıklanmıştır. Daha
sonra YSA’nın yapılarına, öğrenme algoritmalarına ve kullanılan veri türüne göre
sınıflandırılmasından bahsedilmiştir. Bölüm, YSA’nın eğitilmesi, test edilmesi,
uygulamada kullanılan YSA modelleri ve özelliklerinin açıklanması ile sonlandırılmıştır.
Üçüncü bölümde Sayısal Sinyal İşleme (SSİ) konusu ele alınmıştır. Bu bölümde SSİ ile
ilgili temel bilgilere yer verilmiştir. Uygulamada kullanılacak olan ses sinyalleri ile ilgili
açıklamalar yapılmış ve ses sinyallerinin özniteliklerinin hangi aşamalarla çıkarılabileceği
üzerinde durulmuştur.
![Page 11: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/11.jpg)
2
Dördüncü bölümde YSA ile bir konuşma tanıma uygulaması yapılması amaçlanmıştır. Bu
bölümde öncelikle, uygulama alanı olarak neden konuşma tanıma probleminin seçildiği,
literatürdeki konuşma tanıma uygulamalarının sınıflandırılması ve uygulamanın çerçevesi
gibi konulara açıklık getirilmiştir. Uygulamada kullanılan YSA modelleri olan Çok
Katmanlı Algılayıcı (ÇKA), Elman Ağları ve Olasılıksal Sinir Ağları (OSA) yapıları
Matlab programı ile gerçekleştirilmiştir. Ayrıca Matlab GUI (Graphic User Interface) ile
bir kullanıcı arayüzü yazılmıştır. Söz konusu yazılımın tasarım ve kullanımı etraflıca
anlatılmıştır.
Beşinci ve son bölümde ise farklı ağ yapıları ile elde edilen ağ performanslarına ve
sonuçlara yer verilmiştir. Bu sonuçlar üzerinde çeşitli değerlendirmeler yapılmıştır. Yanı
sıra ilerideki çalışmalar için önerilerde bulunulmuştur.
![Page 12: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/12.jpg)
3
2. YAPAY SİNİR AĞLARI
Bu bölümde, Yapay Sinir Ağları (YSA) teknolojisinin gelişimindeki kilometre taşları,
YSA’nın temel unsurları, çeşitli ağ yapıları ve bahse konu yapıların ne tür sistemlerde
kullanıldıkları ile YSA’nın özellikleri üzerinde durulmuştur. Yanı sıra, tasarım aşamaları
ileriki kısımlarda etraflıca anlatılacak olan konuşma tanıma sistemi benzetiminin çerçevesi
oluşturulmuş ve bu uygulamada kullanılacak olan YSA yapıları ön plana çıkarılmıştır.
2.1 YSA’nın Tanımı
YSA, evrensel bir tanımı olmamakla beraber çoğu bilim adamının “bir çok küçük bilgi
işleme biriminin bir araya gelmesiyle oluşturulan ağlar” olduğu üzerinde uzlaştıkları
yapılardır. Yanı sıra YSA, neredeyse her yayında farklı bir özelliği ya da uygulaması öne
çıkarılarak yeniden tanımlanmaktadır. Bu çalışmada, YSA’nın genel kabul gören ve
literatürde sıklıkla rastlanan üç farklı tanımına yer verilmiştir.
Teuvo Kohonen
“Bir YSA, paralel olarak bağlantılı ve çok sayıdaki basit elemanın gerçek dünyanın
nesneleriyle biyolojik sinir sistemine benzer yolla etkileşim kuran hiyerarşik bir
organizasyondur (Kohonen 1987).”
DARPA Neural Network Study
“Bir YSA, paralel olarak çalışan bir çok basit işlem elemanından oluşan ve fonksiyonu, ağ
yapısı, bağlantı ağırlıkları ve hesaplama elemanları ya da düğümlerde gerçekleştirilen
işlemler tarafından belirlenen bir sistemdir (Widrow 1988).”
![Page 13: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/13.jpg)
4
Simon Haykin
“Bir YSA, basit işlem birimlerinden oluşan, deneyimsel bilgi biriktirmeye yönelik doğal bir
eğilimi olan ve bunların kullanımına imkan veren, yoğunlukla paralel dağıtılmış bir
işlemcidir.
Bu işlemci iki şekilde beyne benzer.
1. Bilgi, ağ tarafından bir öğrenme süreciyle çevreden kazanılır.
2. Bilgi biriktirmek için sinaptik ağırlıklar olarak da bilinen nöronlar arası bağlantı
güçleri kullanılır (Haykin 1999).”
Özetle YSA, insan beynini model alan, nöron olarak adlandırılan basit işlem
elemanlarından meydana gelen, doğrusal olmayan ve yüksek karmaşıklığa sahip bir bilgi
işleme sistemidir.
2.2 YSA’nın Tarihsel Gelişimi
YSA’nın temelleri, McCulloch ve Pitts’in 1943 yılında yayınladıkları makale ile atılmıştır.
YSA’nın dayandığı ilk hesaplama modelinin ortaya koyulduğu bu makaleyi takip eden
önemli bir diğer yayın, 1954 yılında Farley ve Clark’ın uyarılara adaptif ve tepkisel
yaklaşım sergileyen bir ağ modelini konu alan çalışmalarıdır (Farley and Clark 1954).
Benzer bir diğer çalışma da 1956 yılında Rochester, Holland, Haibit ve Duda tarafından
gerçekleştirilmiştir (Rochester et al. 1956).
1958 yılında Rosenblatt’ın algılayıcıyı tasarlamasını takiben YSA benzetimlerinde önemli
ilerlemeler sağlanmıştır (Rosenblatt 1958). Ancak Minsky ve Papert’in, algılayıcının
doğrusal olmayan problemlerin çözümünde yetersiz olduğunu ispatlayan çalışmaları bu
ilerlemenin önünü nisbeten kapatmıştır (Minsky and Papert 1969).
![Page 14: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/14.jpg)
5
Buna rağmen YSA araştırmaları az sayıda bilim adamı tarafından sürdürülmüş ve kısmi
ilerlemeler kaydedilmiştir. Örneğin bu durgunluk döneminde Widrow tarafından 1960
yılında algılayıcıya getirilen farklı bir yaklaşımın ürünü olan Adaline (Adaptive Linear
Element) ise YSA teknolojisini analog bir elektronik cihaz kadar somutlaştırmıştır
(Widrow 1960).
60 ve 70’li yıllar boyunca yeni ağ yapıları ve öğrenme yöntemleri bulunup geliştirilmesi
üzerine sürdürülen teorik çalışmalar, 1975’te Fukushima’nın Cognitron’u tasarlamasından
sonra YSA tabanlı uygulamaların gerçekleştirilmesi üzerine yoğunlaşmıştır (Fukushima
1975).
Takip eden yıllarda bir kısım bilim adamının birbirlerinden habersiz olarak çok katmanlı
algılayıcıyı geliştirmeleri ve 1986 yılında Rumelhart ve arkadaşlarının geri yayılım
algoritmasını geliştirmesi ile doğrusal olmayan problemlere de yanıt vermeye ve
dolayısıyla daha fazla akademisyenin ilgisini çekmeye başlamıştır (Rumelhart et al. 1986).
1985’ten günümüze kadar yapılan çalışmalar ise YSA uygulamalarındaki çeşitliliği
arttırmış ve literatüre pek çok kaynak kazandırmıştır.
Günümüzde YSA ile gerçekleştirilen uygulamalar arasında tahmin, sistem modelleme ve
model sınıflandırma, iyileştirme, otomasyon ve kontrol, adaptif filtreleme, veri
ilişkilendirme, veri sıkıştırma, örüntü tanıma ve eşleştirme gibi pek çok karmaşık problem
yer almaktadır.
![Page 15: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/15.jpg)
6
2.3 YSA’nın Bileşenleri ve Yapısı
YSA teknolojisinin özü, insan biyolojik sinir sistemini taklit etme çabasıdır. Dolayısıyla
YSA’ları anlamak, söz konusu sinir sisteminin en temel unsuru olan insan beyninin yapısı
ve işleyişini bilmeyi gerektirir. Oysa insan beyni, hala sayısız bilinmeyeni olan hayli
karmaşık bir sistemdir ve çözülmesi günümüz teknolojisi ile dahi ulaşılması çok zor bir
hedeftir. Bu sebepten, burada sadece genel hatlarıyla insan beyninin yapısına ve bu yapının
temel taşları olan sinir hücrelerine değinilecektir.
Şekil 2.1 İnsan beyninin yapısı (Haykin 1999)
2.3.1 Biyolojik nöron
İnsanın biyolojik sinir sisteminin temel iletim elemanları sinir hücreleri, diğer adıyla
biyolojik nöronlardır.
![Page 16: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/16.jpg)
7
Şekil 2.2 Biyolojik nöronun yapısı (Nabiyev 2003)
Şekilde yapısı görülen bir biyolojik nöron, hücre gövdesi (soma), bu gövdeyi çevreleyen
dendritler ve gövdeye bağlı aksondan oluşmaktadır.
Biyolojik nöronlar, dendritleri vasıtasıyla diğer biyolojik nöronlardan gelen uyarıları alırlar.
Bu uyarılar, hücre içindeki elektrokimyasal bağlantıları sağlayan sinapslarla
ölçeklendirildikleri şekilde gövdeye iletilirler.
Bu iletim sırasında çok çeşitli ve biyokimyasal süreçler gelişir. Örneğin, sinyalin hızı gövde
boyunca çeşitli şekillerde arttırılır ve sinyal periyodik olarak tekrarlanır. Yanı sıra, hala tam
olarak açıklanamayan bazı biyokimyasal süreçler de iletimde rol oynamaktadır.
Sonuç olarak hücre boyunca iletilen sinyaller aksona ulaştığında belirli bir eşik değerinin
üzerindeyse nöron aktif, altındaysa nöron pasif olur.
![Page 17: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/17.jpg)
8
2.3.2 Yapay nöron1
Daha önce de bahsedildiği gibi biyolojik sinir sistemine ait en küçük bilgi işleme birimleri
biyolojik nöronlardır. Benzer şekilde, bu biyolojik nöronlardan esinlenilerek modellenen
yapay nöronlar da YSA’nın en küçük bilgi işleme birimleridir.
Tasarlanan yapay nöron modellerinde çeşitli farklılıklar olabilmektedir. Ancak, genel
itibariyle bir nöronun yapısı ve bileşenleri Şekil 2.3’de gösterildiği gibidir.
Şekil 2.3 Yapay nöronun yapısı
Girdiler: Girdiler, dış çevreden ya da sistemdeki diğer nöronlardan ulaşan bilgilerdir. Bu
bilgiler, ağın öğrenmesi istenen örnekler ile belirlenir.
1 Çalışmanın ilerleyen kısımlarında yapay nöron, kısaca nöron olarak adlandırılacaktır.
![Page 18: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/18.jpg)
9
Ağırlıklar: Ağırlıklar, bir nörona etki eden girdilerin matematiksel katsayılarıdır ve
bağlantılı oldukları girdilerin nöronu ne ağırlıkta etkileyeceğini belirler. Farklı bağlantı
noktaları için farklı ağırlık değerleri atanabilmektedir. Böylece ağırlıklar tüm nöronların
girdilerini etkilemiş olur.
Birleştirme fonksiyonu: Birleştirme fonksiyonu, toplama fonksiyonu olarak da
adlandırılmaktadır. Çünkü birleştirme fonksiyonları genellikle nörona gelen girdiler ile bu
girdilere ait ağırlıkların çarpımlar toplamını ifade eder. Bu fonksiyon, çarpımlar toplamının
yanı sıra maksimum, minimum, normalizasyon benzeri hesaplamaları içerebileceği gibi ağ
tasarımcısının kendi tanımladığı her hangi bir fonksiyon da olabilmektedir.
Aktivasyon fonksiyonu: Bu fonksiyon, birleştirme fonksiyonu ile elde edilen sonucu
seçilen bir aktivasyon işleminden geçirerek nöronun çıktısını belirler.
Aktivasyon fonksiyonları yapı itibariyle doğrusal olabildiği gibi, günlük hayatta
karşılaşılan karmaşık ve doğrusal olmayan problemlere çözüm getirilebilmesi için sıklıkla
doğrusal olmayan yapıda da olabilirler.
Çeşitli aktivasyon fonksiyonları mevcuttur. Şekilde görülen tek ve çift kutuplu basamak
fonksiyonları, doğrusal ve simetrik parçalı doğrusal fonksiyonlar, sigmoid fonksiyonu ile
tanjant sigmoid fonksiyonu yaygın olarak kullanılan aktivasyon fonksiyonlarıdır (Türksoy
2005).
![Page 19: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/19.jpg)
10
Şekil 2.4 Çeşitli aktivasyon fonksiyonları (a) Tek kutuplu basamak fonksiyonu, (b) Çift
kutuplu basamak fonksiyonu, (c) Doğrusal fonksiyon, (d) Simetrik parçalı doğrusal fonksiyon, (e) Sigmoid fonksiyonu, (f) Tanjant sigmoid fonksiyonu
![Page 20: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/20.jpg)
11
Tasarlanan yapıya en uygun aktivasyon fonksiyonu deneme-yanılma yoluyla en uygun
sonucu verecek şekilde seçilmelidir. Çünkü bu fonksiyonlar, birleştirme fonksiyonu
sonuçlarını seçilen aktivasyon fonksiyonuna uyarlayarak katmanların çıkışlarını belirli
değerlere sınırlandırır ve atandıkları katmandaki tüm nöronlara aynı şekilde etkirler.
Çıktılar: Aktivasyon fonksiyonu uygulanmasıyla elde edilen değer, nöronun çıktısıdır.
Çıktılar, diğer nöronlara girdi olabileceği gibi dış ortama çıktı olarak da gönderilebilirler.
Ancak burada dikkat edilmesi gereken nokta, bir nöronun birden fazla girdisi olabilmesine
rağmen sadece bir çıktısının olmasıdır.
2.3.3 YSA’nın yapısı
YSA yapıları, katmanlar halinde birleşen nöronlardan oluşmaktadır. Çeşitli ağırlık ve
fonksiyonlarla bir araya gelen nöronların oluşturduğu bu katmanlar da farklı yapılardadır.
Genel olarak bir YSA’da üç tip katman bulunur. Bunlar giriş katmanı, saklı katman(lar) ve
çıkış katmanıdır.
Giriş katmanı
Giriş katmanı, dış dünyadan gelen bilgilerin alındığı ve ağa sevk edildiği katmandır. Bu
katmanda bilgi işleme yapılmamaktadır.
Saklı katman(lar)
Bu katman(lar), girdi katmanı ile çıktı katmanı arasında yer alır. Giriş katmanından gelen
bilgiler, saklı katmanlar boyunca çeşitli algoritmalarla işlenerek çıkış katmanına gönderilir.
Bir YSA’da, gerçekleştirilmek istenen uygulamanın niteliğine göre bir veya daha fazla saklı
katman bulunabilir. Saklı katmanlar çeşitli kaynaklarda gizli katman veya ara katman
olarak da adlandırılmaktadır.
![Page 21: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/21.jpg)
12
Çıkış katmanı
Çıkış katmanı, saklı katman(lar)dan gelen bilgileri işleyerek YSA’nın çıkışını oluşturan
katmandır. Bir YSA’da tek çıkış katmanı bulunur.
Özetle YSA yukarıda yapıları açıklanan katmanların farklı uygulamalar için farklı
şekillerde tasarlanması ile çeşitlilik kazanırlar.
2.4 YSA’nın Sınıflandırılması
Ağ mimarisi, kullanılan öğrenme yöntemi, nöronların bağlantı stratejileri vb. farklılıklara
sahip çok sayıda YSA yapısı vardır. Genel olarak YSA üç ana kritere göre
sınıflandırılmaktadır. Bunlar ağın yapısı, öğrenme algoritması ve kullandığı veri türüdür.
2.4.1 Yapılarına göre YSA çeşitleri
YSA yapılarına göre ileri beslemeli ağlar ve geri beslemeli ağlar olarak sınıflandırılırlar.
İleri beslemeli ağlar
İleri beslemeli ağlar, adından da anlaşılacağı gibi nöronların ileri yönde işlemlerle sevk
edildiği, yani bir katmandaki nöronların gerideki katmanlarda değil, ilerideki katmanlarda
bağlantılarının bulunduğu ağ türleridir. İleri beslemeli ağlarda statik bir ağ yapısı söz
konusudur. Bu yapılarda döngülere yer verilmez ve sayesinde YSA çıktısı hızla
sonuçlandırılabilir.
Bu tür YSA’da nöronlar katmanlar halinde düzenlenir ve bir katmandaki nöronların
çıktıları belirli oranlarda ağırlıklandırılarak bir sonraki katmana iletilir. Bu şekilde saklı
katmanlar boyunca iletilen bilgiler çıkış katmanında işlenerek ağın çıktıları oluşturulur.
![Page 22: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/22.jpg)
13
İleri beslemeli ağların genel yapısı aşağıdaki şekilde görülmektedir.
Şekil 2.5 İleri beslemeli ağ yapısı
Geri beslemeli ağlar
Geri beslemeli ağlar, nöronların ileri yöndeki işlemlerin yanı sıra geri yönde işlemlere de
sevk edildikleri ağ türleridir. Yani bir katmandaki nöronların, yalnız ilerideki katmanlarla
değil kendi katmanları ve gerilerindeki katmanlarla da bağlantıları bulunur. Böylece
girdiler hem ileri hem de geri yönde iletilmiş olur.
Geri beslemeli ağlarda dinamik bir ağ yapısı söz konusudur. Bu tür ağ yapılarının önemli
bir özelliği bölgesel dağıtılmış hafızaya sahip olmalarıdır. Şöyle ki, ağın belirli bir andaki
çıktısı hem o andaki hem de daha önceki anlardaki girdilere ilişkin veriyi içermektedir.
![Page 23: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/23.jpg)
14
Şekil 2.6 Geri beslemeli ağ yapısı
Şekil 2.6’da geri beslemeli ağların genel yapısı görülmektedir. Bu ağlarda iletim hızı ileri
beslemeli ağlara kıyasla daha düşüktür. Bunun sebebi, geri besleme döngülerinin ağın
genelini belirli bir gecikmeye uğratmasıdır.
2.4.2 Öğrenme algoritmalarına göre YSA çeşitleri
YSA’da öğrenme, ağda yer alan nöronlar arasındaki ağırlıkların, ağın işlevini yerine
getirmek üzere ayarlanmasıdır. Bu ağırlıkların ne şekilde değiştirileceği öğrenme kuralları
ile belirlenir. Öğrenme algoritmaları genel olarak iki başlıkta toplanabilir. Bunlar,
danışmanlı ve danışmansız öğrenmedir.
![Page 24: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/24.jpg)
15
Danışmanlı öğrenen ağlar
Danışmanlı öğrenme, YSA’nın gerçek çıktısı ile beklenen çıktısı arasındaki farkın,
belirlenen bir hata değerine ulaşılana değin azaltılarak ağın nihai çıktısının bulunmasına
odaklı bir öğrenme algoritmasıdır. Burada öğrenme algoritmasına ismini veren danışman
esas itibariyle ağın beklenen çıktısıdır.
Bu algoritmaya göre ilk ağırlık değerleri genelde rassal olarak belirlenir ve hedeflenen
farka ulaşılana kadar döngüler halinde değiştirilir.
Danışmanlı öğrenen ağlara örnek olarak geri yayılım algoritması ile eğitilen çok katmanlı
algılayıcı verilebilir. Şekilde danışmanlı öğrenme gösterilmiştir.
Şekil 2.7 Danışmanlı öğrenme
![Page 25: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/25.jpg)
16
Danışmansız öğrenen ağlar
Danışmansız öğrenme, adından da anlaşılabileceği gibi danışman gereksinimi olmadan,
yani ağın gerçekleştirilmesi istenen davranışı kendi kendine öğrenebildiği bir algoritmadır.
Danışmansız öğrenen ağlarda girdiler, ağ tarafından daha detaylı yorumlanır ve aralarındaki
benzerlikler ortaya çıkarılır. Bu tür ağlar, söz konusu özelliklerinden dolayı genellikle
sınıflandırma problemlerinin çözümünde tercih edilir.
Danışmansız öğrenme algoritmasında, sadece YSA’nın girdileri üzerinde işlem yapıldığı
için danışmansız öğrenen ağların hızı, danışmanlı öğrenen ağlara göre daha yüksek
olmaktadır. Şekilde yapısı görülen bu ağlara örnek olarak öz örgütlemeli haritalar ve ART
(Adaptive Resonance Theory) ağları verilebilir.
Şekil 2.8 Danışmansız öğrenme
2.4.3 Kullanılan veri türüne göre YSA çeşitleri
Bir diğer sınıflandırma da YSA’da girdi olarak kullanılan verinin türüne göre
yapılmaktadır. Buna göre YSA, niteliksel veri kullanan ağlar ve niceliksel veri kullanan
ağlar olarak iki grupta toplanırlar.
![Page 26: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/26.jpg)
17
Niteliksel veri kullanan ağlar
Niteliksel veri kullanan ağlar, YSA girdilerinde kalitatif veri olarak da adlandırılan
niteliksel verinin kullanıldığı ağ türüdür. Bu ağ türü, desen oluşturma ve sınıflandırma
problemlerinde kullanılmaktadır.
Niceliksel veri kullanan ağlar
Niceliksel veri kullanan ağlar, YSA girdilerinde kantitatif veri olarak da adlandırılan
niceliksel verinin kullanıldığı ağ türüdür. Bu ağ türü, genelleme ve tahmin problemlerinde
kullanılmaktadır.
2.5 YSA’nın Eğitilmesi ve Testi
Bir YSA’nın eğitilmesi ve test edilmesi, tasarlanan ağ yapısının performansının
değerlendirilmesi açısından önemlidir.
YSA’da eğitim işlemi, ağda bulunan nöronlar arasındaki bağlantılara ait ağırlık değerlerinin
YSA’nın girişindeki veriler doğrultusunda ve ağın çıkışının bulunmasına yönelik olarak
ayarlanması şeklinde özetlenebilir. Burada amaç, ağ girdileri için hedeflenen doğru çıktıları
verecek ağırlık değerlerinin hesaplanmasıdır.
YSA’da test işlemi ise, ağ parametrelerinde bir değişiklik yapılmaksızın ağın istenilen
davranışı gerçekleştirip gerçekleştiremediğinin sınanması işlemidir.
YSA’da eğitim ve test işlemlerine ilişkin esaslar ilerleyen başlıklarda açıklanmaktadır.
![Page 27: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/27.jpg)
18
2.5.1 YSA’nın eğitimi
YSA’nın istenilen davranışı göstermesi için öncelikle bir veri seti ile eğitilmesi
gerektiğinden bahsedilmişti. Ağın girişine uygulanan bu veri seti, eğitim seti olarak
adlandırılmaktadır.
Eğitim setinin YSA’ya öğretildiği bu süreçte önemli rol oynayan bazı eğitim parametreleri
ile öğrenme kuralları mevcuttur.
Eğitim parametreleri
Bir YSA tasarlanırken, ağı tanımlamak üzere çeşitli eğitim parametreleri kullanılır ve bu
parametrelere uygun değerler deneme-yanılma yöntemi ile belirlenir. En temel eğitim
parametreleri ve açıklamaları aşağıda sunulmuştur.
Yineleme sayısı (Epoch) : Yineleme sayısı, YSA’nın eğitilebilmesi için giriş verisinin
ağdaki çevrim sayısıdır.
Hedef (Goal) : YSA’nın çıkışında, hedeflenen sonuca ne hata oranı ile yaklaşılacağını
belirleyen parametredir. Ağın eğitilmesi işlemi, belirlenen hata oranına ulaşılana kadar
sürer.
Öğrenme oranı (Lr - Learning rate) : Bu parametre, YSA eğitiminin bir nevi
yoğunluğunu ifade eder. YSA’da kullanılan öğrenme kuralı ile ilgili olarak belirlenir.
Öğrenme kuralları ile ilgili genel bilgiler takip eden başlıkta verilecektir.
![Page 28: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/28.jpg)
19
Bir YSA’nın eğitiminde iki aşama vardır. İlk aşama, ağın mevcut girişe göre üreteceği
çıktının belirlenmesidir. İkinci aşama ise bu çıktının hedeflenen hata değerinden uzaklığına
göre ağırlıkların yeniden belirlenmesidir. YSA’da eğitim sürecindeki bu belirleyici rolü
üstlenen bir takım algoritmalar vardır. Bu algoritmalar öğrenme kuralları olarak
adlandırılır.
Öğrenme kuralları
Nöronlar arasındaki ağırlıkların değiştirilme yöntemi, öğrenme kurallarından hangisinin
uygulandığına göre farklılıklar gösterir. Temel öğrenme kuralları Hebb kuralı, Hopfield
kuralı, Delta kuralı ve Kohonen kuralıdır. (Öztemel 2006)
Hebb kuralı : Hebb tarafından geliştirilen bu öğrenme kuralı biyolojik sinir ağlarının
işleyişinden esinlenmektedir (Hebb 1949). Daha sonra geliştirilen çeşitli öğrenme
kurallarına esin kaynağı olan bu öğrenme kuralında, bir yapay sinir hücresinin diğer bir
yapay sinir hücresinden girdi alması ve her iki hücrenin polaritelerinin aynı olması
durumunda söz konusu hücreler arasındaki bağlantı ağırlığı arttırılır.
Delta kuralı : Widrow ve Hoff, Hebb kuralını biraz daha geliştirerek Delta kuralını
bulmuşlardır (Widrow and Hoff 1960). Yaygın kullanıma sahip bu öğrenme kuralı en
küçük kareler (LMS - Least Mean Square) kuralı olarak da adlandırılmaktadır. Buna göre,
YSA’nın beklenen çıktısı ile mevcut çıktısı arasındaki farkın karesi, bağlantı ağırlıkları
değiştirilerek minimize edilmeye çalışılır.
Hopfield kuralı : Hopfield kuralı, Hebb kuralına benzer bir algoritmadır. Ancak burada
Hebb kuralında olduğu gibi ağırlıkların değiştirilmesine ilaveten yapılacak olan bu
değişikliğin miktarı da belirlenmektedir. Her yinelemede ne derece değişiklik yapılacağı ise
tasarımcının belirlediği bir öğrenme katsayısı oranınca olur. Girdi ve çıktı nöronlarının her
ikisi de aynı polariteye sahipse bağlantı ağırlıkları öğrenme katsayısı kadar arttırılır, farklı
polariteye sahipse öğrenme katsayısı kadar azaltılır (Hopfield 1982).
![Page 29: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/29.jpg)
20
Kohonen kuralı : Kohonen tarafından geliştirilen bir öğrenme kuralıdır (Kohonen 1982).
Bu kural, nöronların YSA’ya verilen girdileri öğrenmek üzere birbirleri ile yarışmaları
esasına dayanır. Eğitim setinin beklenen çıktısına en uygun sonucu üreten nöronların
ağırlıkları ayarlanarak sonuca olan etkileri kuvvetlendirilir. Sonuca yakın nöronların
ağırlıkları 1’e yakınsarken sonuca uzak nöronların ağırlıkları 0’a yakınsar. Bir diğer deyişle
yarışı ağırlıkları 1 olarak ayarlanan nöronlar kazanır.
YSA’nın yukarıda sıralanan öğrenme kurallarından veya benzerlerinden birisi ile eğitiminin
tamamlanmasından sonra, tasarımın istenilen davranışı gösterip göstermediğinin test
edilmesi gerekmektedir.
2.5.2 YSA’nın testi
Herhangi bir problemin olası giriş ve çıkışlarının YSA’ya öğretilmesinden sonra, söz
konusu ağ bu probleme ait bir test seti ile sınanır. Ancak test seti, eğitim setinde yer
almayan örneklerden oluşmalıdır. Diğer taraftan; test işleminde, YSA’nın ağırlıklarının
ayarlandığı eğitim işleminden farklı olarak YSA’nın ağırlık değerleri değiştirilmez ve
sadece ağın çıktısı hesaplanır.
YSA’nın iyileştirilmesi
YSA yapılarında belirli parametrelerin iyileştirilmesi ile ağın genel performansında daha iyi
sonuçlar elde etmek mümkündür. Örneğin bir problem için ağın tasarımında kullanılması
gereken saklı katman sayısı ve bu katmanlardaki nöron sayılarının, nispeten karmaşık bir
problem için arttırılması uygun bir tercih olacaktır. Ancak YSA’daki işlem elemanları
arttırılırken ağdaki toplam işlem yükü ve dolayısıyla sistem hızı göz önünde
bulundurulmalıdır.
![Page 30: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/30.jpg)
21
Bir YSA’da kullanılan eğitim ve test verisinin belirlenmesi de en az nöron sayısı kadar
önemlidir. Bu veri setleri ile ilgili en önemli nokta, söz konusu verinin yeterli olup
olmadığıdır. Eğitim verisinin mümkün olduğunca fazla tutulması YSA’nın daha iyi
öğrenmesine katkı sağlar. Yanı sıra, ele alınan problemin karmaşıklığı arttıkça kullanılan
eğitim setinin büyütülmesi de benzer netice verecektir. Ancak bu veri setleri için yanlış
tercihlerin yapıldığı durumlarda “aşırı uydurma (overfitting)” ve “yetersiz uydurma
(underfitting)” gibi istenmeyen sonuçların ortaya çıkması olasıdır (Haykin 1999). Aşırı
uydurma, sinir ağları terminolojisinde “aşırı öğrenme (overtraining)” olarak da bilinir.
Aşırı uydurma : Ağın gereğinden fazla sayıda nöron kullanılarak eğitilmesi durumunda
ortaya çıkan ve YSA’nın genel performansını olumsuz etkileyen bir durumdur. Ağ, bu
durumda eğitilmekten öte eğitim setini ezberler.
Yetersiz uydurma : Ağın gereğinden az sayıda yani yetersiz nöron kullanılarak ve
dolayısıyla tam anlamıyla eğitilememesi sonucu meydana gelen bir durumdur. Ağ,
hedeflenen davranışı yeterince tanıyamadığı için çıkışta kararsızlıklar gözlemlenir.
Sonuç olarak bir YSA; hedeflenen sonucu elde etmek üzere, deneme-yanılma yoluyla
belirlenen farklı parametrelerle tasarlanabilir ve elde edilen sonuçlara göre sınanan ağ
yapılarının hangisinin en iyi olduğuna karar verilir. Zaman zaman aynı parametrelerle farklı
sonuçlara ulaşılması ise ağın, bir lokal minimum veya maksimum değerde takılması gibi
durumlarla açıklanabilir.
![Page 31: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/31.jpg)
22
2.6 YSA Modelleri
YSA disiplini geniş bir araştırma alanı olup literatürde 100’den fazla ağ modeli ve bunların
kullanıldığı çok çeşitli uygulamalar mevcuttur. Popüler ağ modelleri arasında çok katmanlı
algılayıcılar, radyal tabanlı fonksiyonlar, Hopfield ağları, öz örgütlemeli haritalar, ART
ağları ve hücresel sinir ağları sayılabilir. Ancak burada yalnızca konuşma tanıma
probleminde kullanılan ağ yapılarına yer verilecektir.
2.6.1 Çok katmanlı algılayıcı
YSA teknolojisinin ortaya çıktığı ilk yıllarda en çok eleştirildiği husus gerçek dünyada
karşılaşılan problemlerin çoğunlukla doğrusal olmaması ve doğrusal yapıdaki YSA’nın bu
tür problemlerin çözümü için yetersiz bir teknik olduğuydu. Ancak Rumelhart, Hinton ve
Williams tarafından geliştirilen bir ağ yapısı olan Çok Katmanlı Algılayıcı (ÇKA) ile bu
sorunun üstesinden gelinmiştir (Rumelhart et al.1986).
ÇKA’lar, ağın beklenen çıktısı ile ağın ürettiği çıktı arasındaki farkı minimize edecek
şekilde eğitilir. Ağın yapısı ileri beslemelidir ve döngü içermez. Dolayısıyla bu yapı ile
sonuca hızla ulaşılabilmektedir.
Genel olarak ÇKA yapısı bir giriş katmanı, en az bir saklı katman ve bir çıkış katmanından
oluşur. Giriş katmanı problemin girdi sayısına bağlı olarak belirlenen sayıda nörondan
oluşur. Ağda bulunan saklı katman sayıları ve bu katmanlarda bulunan nöron sayıları ise
deneme-yanılma yöntemi ile belirlenir. Şekilde örnek bir ÇKA yapısı görülmektedir.
![Page 32: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/32.jpg)
23
Şekil 2.9 Çok katmanlı algılayıcı yapısı
Bu ağ modeli birçok öğrenme algoritmasının kullanımına imkan sağlar ve bu sebepten
mühendislik uygulamalarında yaygın olarak kullanılır. ÇKA’lar özellikle tanıma, veri
sınıflandırma ve genelleme problemlerinde başarılı sonuçlar vermektedir.
2.6.2 Elman ağları
Elman ağları, yineleyici (recurrent) YSA yapılarına bir örnek olmakla beraber, temelde iki
katmanlı geri yayılımlı ağlardır (Elman 1990). Ancak burada, diğer geri yayılımlı ağlardan
farklı olarak ilk saklı katmanın çıkışından yine aynı katmanın girişine doğru bir geri
besleme döngüsü mevcuttur. Bu geri besleme döngüsü, Elman ağlarının tahmin, tanıma ve
eğri uydurma gibi alanlarda kullanılmasına imkan sağlar.
![Page 33: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/33.jpg)
24
Şekil 2.10 Elman sinir ağları yapısı
Şekil 2.10’da örnek bir Elman ağ yapısı görülmektedir. Elman ağlarında ilk saklı katman
tanjant sigmoid, ikinci katman ise doğrusal transfer fonksiyonlarına sahip nöronlardan
oluşmaktadır. Bu nöron kombinasyonu iki katmanlı ağların eğri uydurma problemlerindeki
başarımını arttıran özel bir yapıdır. Bu yapı korunarak nöron sayısı uygun şekilde
arttırıldığında Elman ağları ile daha karmaşık problemlerin çözümü de mümkün
olmaktadır.
![Page 34: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/34.jpg)
25
2.6.3 Olasılıksal sinir ağları
Olasılıksal Sinir Ağları (OSA), nöronlar arası bağlantı ağırlıklarının olasılık yoğunluk
fonksiyonundan istifadeyle hesaplandığı bir YSA yapısıdır (Specht 1988, 1990).
İstatistiksel temeli nedeniyle sınıflandırma problemlerinde yaygın olarak kullanılmaktadır.
Bir OSA; giriş katmanı, iki adet saklı katman ve çıkış katmanı olmak üzere dört katmandan
oluşmaktadır. Bu yapıda, ilk saklı katmanda giriş verisinin eğitim verisine olan uzaklığı
hesaplanır. İkinci saklı katmanda ise ilk katmanda hesaplanan uzaklıklar toplanır ve net
çıkış vektörü olasılıkları bulunur. Bu şekilde model sınıfları oluşturulmuş olur. Çıkış
katmanında ise bu model sınıflarından en yüksek olasılığa sahip model sınıfı ile YSA’nın
çıktısı belirlenir. Şekilde örnek bir OSA yapısı görülmektedir (Makal 2007).
Şekil 2.11 Olasılıksal sinir ağları yapısı
![Page 35: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/35.jpg)
26
Bu tür ağlarda eğitim aşaması genellikle ÇKA’lardan daha hızlı olmakla beraber
sınıflandırma işlemi daha uzun sürebilmektedir. Ancak diğer ağlara göre daha kesin
sonuçlar elde etmek mümkündür.
2.7 YSA Özellikleri
Doğrusal olmama
Doğrusal yöntemler, karmaşık problemlerin çözümünde yetersiz kalmaktadır. Ancak YSA
teknolojisi gücünü karmaşık problemlere getirdiği basit çözümlerden almaktadır. Bu
avantajı sağlayan temel unsur ise YSA’nın temel bilgi işleme elemanı olan nöronların ve
dolayısıyla ağın bütünün doğrusal olmayan yapısıdır.
Öğrenme
Alışılagelmiş yöntemlerle çözüm aranan problemler çoğunlukla kendi özelinde
çözümlenmeye çalışılmıştır. Oysa bileşenlerinin ilişkileri tam anlamıyla tanımlanamayan
problemler de olasıdır. Bu tür durumlarda insan beyninin öğrenme ve öğrenilenler
doğrultusunda karar verme yetisi öne çıkmaktadır. YSA da benzer şekilde problemleri
eğitim aşamasında ağa verilen bilgilerle çözer. Dolayısıyla çözülecek problemdeki
değişiklikler için ağın değil, eğitim verisinin yani YSA’ya öğretilenlerin değiştirilmesi
yeterlidir. Öğrenme, gerek uygulama kolaylığı gerekse çözüm kabiliyeti olarak ortaya çıkan
önemli bir özelliktir.
Genelleme
Öğrenme, yukarıda bahsedilenlerin yanı sıra YSA’ya genelleme yapılabilmesi gibi bir diğer
önemli özellik daha kazandırmaktadır. Genellemenin önemi ise YSA’ya girilen veride
gürültü, hata, eksiklik olması gibi durumlarda dahi YSA çıkışında doğru sonuçlar elde
![Page 36: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/36.jpg)
27
edilebilmesidir. Bu özellik sayesinde örüntü tanıma ve sınıflandırma problemleri için
başarılı bir teknik olmuştur.
Paralellik
Bilgi işleme sistemlerinde gözetilmesi gereken önemli bir husus işlem hızıdır. Ancak
problem bütününün tüm parçalarının sırasıyla işlendiği seri yöntemler karmaşık işlemler
için hayli yavaşlatıcı olmaktadır. Bu sebepten YSA’nın paralel bilgi işleme özelliği
problemlere getirdiği hızlı çözümler sayesinde büyük önem taşır, çünkü gerçek zamanlı
sistemlerin temeli paralel bilgi işleme yöntemlerinde yatmaktadır.
Hata toleransı
Paralel bilgi işleme sistemlerinde problem, parçalar halinde ele alındığı ve sistemin her bir
elemanı ayrı bir parçanın çözümünü gerçekleştirdiği için olası hatalara karşı daha büyük
tolerans vardır. Tasarımdaki bu esneklik sayesinde, ağın herhangi bir kısmının zarar
görmesi ağın tamamının işlevini yerine getirememesi anlamına gelmediği gibi sadece,
işlevselliğini kaybeden nöronlar oranında bir performans kaybıyla tatminkar sonuçlar elde
edilebilir.
Tasarım ve analiz kolaylığı
Tüm YSA tasarımlarının temelinde, YSA’nın en küçük yapay bilgi işleme elemanı olan
nöronlar yer alır . Daha önce de bahsedildiği gibi nöronlar yaklaşık olarak aynı yapıdadır ve
bu benzerlik sayesinde farklı uygulama alanlarında standart ağ yapılarının ve öğrenme
algoritmalarının kullanım imkanı vardır. Teoride aynı olan yöntemlerin ise uygulamada
tasarım ve analiz kolaylığı sağlaması olağandır.
![Page 37: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/37.jpg)
28
3. SAYISAL SİNYAL İŞLEME
Sayısal Sinyal İşleme (SSİ) teknolojisi, adından da anlaşıldığı gibi sinyallerin sayısal
yöntemlerle işlenmesini konu alır.
Bir sayısal sinyal, herhangi bir bilgi katarının sayısal ifadesidir. Bu çerçevede sinyaller
bize pek çok şeyi ifade edebilmektedir. Sinyal işleme disiplini ise bahsedilen bu bilgi
katarları üzerindeki çalışmaların genel ifadesidir. Ancak sayısal sinyal işleme denildiğinde
sinyallerin nümerik hesaplamalar ile işlendiği anlaşılır.
3.1 Temel Bilgiler
Bu çalışmada, detaylarına 4. kısımda değinilecek olan konuşma tanıma problemi ele
alınmıştır. Bu problem için YSA’da kullanılacak veri setleri ses sinyallerinden
oluşmaktadır. İlerleyen başlıklarda ses sinyallerinin işlenmesi ve YSA’nın girdisi olarak
kullanılacak öz nitelik vektörlerinin çıkarımı ile ilgili temel tanımlara kısaca yer
verilmektedir.
Ses sinyali : Katı, sıvı ya da gaz ortamda bulunan bir ses kaynağı tarafından üretilen
titreşimler dizisine ses sinyali denir. İnsana ait ses sinyali ise en basit şekliyle,
akciğerlerden havanın dışarı atılması ile oluşan akımın insanın ses sisteminden geçirilmesi
sonucu yayılan dalgalardır.
Frekans : Periyodik bir sinyalin kendisini tekrarlama süresine frekans denir. Frekansın
sembolu f ve birimi Hertz’dir. Ses sinyalleri için önemli bir özellik olan frekans, sinyallerin
frekans bölgesinde incelenmesi halinde gözetilen temel parametredir.
![Page 38: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/38.jpg)
29
Nyquist frekansı : Analog bir ses sinyali örneklenirken, söz konusu sinyalin yeniden
oluşturulabileceği şekilde yeterli sayıda örnek ile ifade edilmesi gerekir. Uygun örnekleme
frekansının yarı değeri Nyquist frekansı olarak bilinir ve FN ile gösterilir. Bu özelliğin
matematiksel ifadesi aşağıda verilmiştir.
FS > 2 FN
Burada FS , örneklenen sinyale ait örnekleme frekansıdır.
Genlik : Sesin bir diğer karakteristiği genliğidir. Bir ses sinyali, kaynağının oluşturduğu
basınç değerine göre yumuşak ya da yüksek olabilmektedir. Basınç değerleri, havanın
sıkıştırılma gücüne göre değişir. Bu gücün ölçüsü ise decibel birimidir ve dB sembolü ile
ifade edilir. Desibel hesabı aşağıda görülmektedir.
n = 10 log 10 ( P2 / P1 )
Yukarıdaki formülde yer alan P1 ve P2 değişkenleri sırasıyla, referans noktasının ve ses
sinyalinin güç değerleridir.
PCM : PCM (Pulse Code Modulation), darbe kod modülasyonu tekniğinin kısaltılmış
adıdır. PCM, basit oluşunun yanı sıra yaygın kullanıma sahip bir nicemleme yöntemidir. Bu
nicemleme yöntemi tezde kullanılan ses verisinin kaydedildiği .wav formatında da
kullanılmaktadır.
FFT : FFT (Fast Fourier Transform), hızlı Fourier dönüşümü algoritmasının kısaltılmış adı
olup, ayrık Fourier dönüşümü algoritmasının hızlı şeklidir. FFT algoritması, zaman
bölgesindeki ses sinyalinin frekans bölgesine dönüşümünü sağlar.
![Page 39: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/39.jpg)
30
Spektrum : Spektrum, ses sinyalinin frekans yoğunluğunun belirli aralıklarla alınması ile
oluşturulan ifadesidir. Spektrum aynı zamanda periyodogram olarak da adlandırılmaktadır.
Bir ses sinyalinin spektrumu çeşitli yöntemlerle hesaplanabilir. FFT ise bu yöntemlerden en
önemlisidir.
LPC : LPC (Linear Predictive Coding), doğrusal öngörüsel kodlama tekniğinin kısaltılmış
adıdır. LPC, insan gırtlağı, ağız yapısı ve ses özelliklerinin modellendiği bir sayısal analiz
tekniğidir. Bu teknik, sıradaki örneğin önceki bir dizi örnekten yaklaşık olarak elde
edilebileceği prensibine dayanır. LPC analizi ile elde edilen sayılar LPC katsayıları (LPCC)
olarak adlandırılır.
MFC : MFC (Mel-Frequency Cepstrum), mel frekansı kepstrum tekniğinin kısaltılmış
adıdır. MFC, insan kulağının davranışını taklit eden ve FFT tabanlı olarak hesaplanan bir
sayısal analiz tekniğidir. Sebebi, bu algoritmanın insan duyma sisteminden esinlenilerek
tasarlanmış olan mel frekans ölçeğine göre hesaplanmasıdır. MFC analizi ile elde edilen
sayılar MFC katsayıları (MFCC) olarak adlandırılır.
3.2 Öznitelik Çıkarımı2
Bir konuşma tanıma uygulamasında, ses sinyallerinin tanınabilmesi için öncelikle bu
sinyallerin doğru şekilde ifade edilmesi gerekmektedir. Diğer bir deyişle, incelenen ses
sinyalinin içinde barındırdığı ve yalnızca tanınması hedeflenen kelimeye ait unsurlar
belirlenmelidir. Daha sonra belirlenen bu unsurların bir öznitelik vektörü ile ifade edilmesi
gerekir.
2 Öznitelik vektörünün belirlenmesine yönelik bu aşama konuşma tanıma sistemlerinin ön-işleme kısmı olarak da adlandırılmaktadır.
![Page 40: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/40.jpg)
31
Ses sinyallerinin özniteliklerinin hesaplanması için çeşitli yöntemler vardır. Bu çalışmada
kullanılacak öznitelik vektörü ise MFC katsayıları ile oluşturulacaktır. Söz konusu
katsayıların hesaplandığı bir MFC algoritmasının blok diyagramı şekilde görülmektedir.
Şekil 3.1 MFC blok diyagramı
Yukarıdaki şekilde görülen aşamalar ilerleyen satırlarda açıklanmaktadır.
3.2.1 Kayan pencereleme
Kayan pencereleme işlemi, ses sinyalinin belirli örnek sayılarına göre bölündüğü aşamadır.
Birisi diğerinden küçük olacak şekilde belirlenen iki örnek sayısı uyarınca bölümlenen
sinyal, bu bölümler üst üste bindirilerek yeni bir forma sokulur.
Örneğin ilk pencere M, ikinci pencere ise N örnekle oluşturulduğunda; ikinci çerçeve ilk
çerçeveden M örnek kadar sonra başlar ve ilk çerçevenin N-M çerçeve kadar üzerine
kaydırılır. Bu şekilde ilerideki aşamalarda ses sinyaline uygulanacak olan FFT için daha
uygun bir zemin elde edilir.
![Page 41: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/41.jpg)
32
3.2.2 Pencereleme
Pencereleme işleminde, bir önceki işlem olan kayan pencereleme ile elde edilen sinyal bir
pencereden geçirilerek süreksiz kısımları atılır. Böylece öznitelik vektörüne katkı
sağlamayacak katsayıların azaltılması amaçlanmıştır. Yaygın olarak kullanılan pencere
yapısı Hamming penceredir. Bu pencerenin tanımlayıcı fonksiyonu aşağıda verilmiştir
(Marven 1996).
w (n) = 0.54 – 0.46 cos [2πn/(N-1)] , N -1 ≥ n ≥ 0
3.2.3 FFT
Bu aşamada, çerçevelenen ve pencerelenen ses sinyalinin genlik spektrumunun incelenmesi
gerekir. Pencerelenmiş sinyalin genlik spektrumu ise FFT kullanılarak elde edilir.
N tane örnekle ifade edilen bir sinyal seti için FFT hesaplaması aşağıdaki şekilde yapılır
(Marven 1996).
Burada Xn , FFT’si alınmak istenilen sinyal seti, N ise bu sette mevcut örnek sayısıdır.
Ayrıca N, örnek sayısının
N = 2 m , m ∈ Z t
eşitliğini sağlaması gereklidir.
![Page 42: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/42.jpg)
33
3.2.4 Mel-frekans dönüşümü
Mel birimi, insan kulağını taklit edecek şekilde, sübjektif olarak tasarlanmış bir birimdir.
Diğer bir deyişle mel birimi doğrusal bir frekans eksenine göre değil, insan kulağının hangi
sesi nasıl algıladığına göre geliştirilmiştir (Stevens et al. 1937). Bu birimle oluşturulan
doğrusal olmayan seriye ise mel ölçeği denir. Mel ölçeği ile frekans ölçeği arasındaki
dönüşüm aşağıda verilen eşitlikle sağlanmaktadır.
f mel = 2595 log 10 ( 1 + f doğrusal / 700 )
Buna göre mel ölçeği 1000 Hz.’den düşük frekanslar için doğrusal, 1000 Hz.’den yüksek
frekanslar için ise logaritmik değerlerde dağılım gösterecektir. Bu algısal spektrumu
uygulamanın bir yolu mel ölçeğine göre dağılım gösterecek filtreler tasarlamaktır. Söz
konusu filtreler sabit mel frekans aralıklarıyla dizilirler. Üçgen ve band geçiren
özelliktedirler.
3.2.5 Kepstrum
Son aşama olan kepstrum hesaplamasında sırasıyla, frekans ve zaman bölgelerine geri
dönüş söz konusudur. Öncelikle mel frekans dönüşümü ile elde edilen mel filtre
bankalarının çıktılarının logaritması hesaplanır. Daha sonra bu sonuçlara ayrık Fourier
dönüşümü uygulanarak frekans bölgesinden zaman bölgesine geçiş sağlanır. Böylece
incelenen sinyale ait MFC katsayıları elde edilmiş olur.
İlerleyen aşamalarda incelecek ses sinyallerine ait öznitelik vektörleri bu katsayılar ile
oluşturulacaktır.
![Page 43: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/43.jpg)
34
4. YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA UYGULAMASI
Bu çalışmada, Yapay Sinir Ağları ile bir Konuşma Tanıma uygulaması gerçekleştirilmiştir.
4.1 Neden Konuşma Tanıma?
Bu çalışmada konu olarak Yapay Sinir Ağları ile Konuşma Tanıma probleminin tercih
edilmesinin çeşitli sebepleri vardır. Bu sebepler özetle aşağıdaki şekilde sıralanabilir.
• Konuşma tanıma problemi, literatürde geniş yer tutan örüntü tanıma alanının bir alt
konusudur ve bu problem özelinde elde edilen sonuçlar tüm literatüre katkı sağlar
niteliktedir.
• Konuşma tanıma, insanların günlük hayatta kolaylıkla gerçekleştirdiği ancak
bilgisayarlarla gerçekleştirmek için karmaşık bir problemdir.
• Konuşma tanıma probleminin çözülmesi, insanlara has bilişsel yeteneklerin
bilgisayarlara aktarılması çalışmalarında önemli bir kilometre taşıdır.
• Konuşma tanıma problemi, YSA’nın karmaşık problemlerdeki başarımının
değerlendirilmesi açısından önemlidir.
• Konuşma sinyalleri, çeşitli sayısal sinyal işleme tekniklerinin başarıyla
uygulanabileceği bir çalışma alanıdır.
• Konuşma sinyalleri, YSA’da kullanılacak olan veri setlerinin kolaylıkla elde
edilebileceği sinyal örnekleridir.
• Konuşma tanıma, çeşitli otomasyon ve güvenlik sistemlerinde yaygın kullanım
alanı olabilecek bir uygulamadır.
![Page 44: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/44.jpg)
35
4.2 Konuşma Tanıma Uygulamalarının Sınıflandırılması
Literatürde yer alan ses ile ilgili uygulamalar çok çeşitlidir. Şekilde ses sinyalleri ile ilgili
olarak yapılan çalışmaların dört ayrı kritere göre sınıflandırılması görülmektedir.
Çizelge 4.1 Konuşma tanıma sistemlerinin sınıflandırılması
KONUŞMA TANIMA
Konuşmacı Bağımlılığına Göre
1. Konuşmacıya bağımlı konuşma tanıma
2. Konuşmacıdan bağımsız konuşma tanıma
Temel Alınan Ses Birimine Göre
1. Kelime tabanlı konuşma tanıma
2. Fonem tabanlı konuşma tanıma
Sesin Sürekliliğine Göre
1. İzole kelime tanıma
2. Bağlı kelime tanıma
3. Sürekli konuşma tanıma
Metne Göre
1. Metne dayalı konuşma tanıma
2. Metinden bağımsız konuşma tanıma
![Page 45: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/45.jpg)
36
4.2.1 Konuşmacı bağımlılığına göre sınıflandırma
Konuşma tanıma sistemleri; konuşmacı bağımlılığına göre kişiye bağımlı ve kişiden
bağımsız tanıma olmak üzere 2 başlıkta sınıflandırılır.
Konuşmacıya bağımlı : Bu tür sistemlerde konuşmacıların ses özellikleri de
seslendirdikleri kelimelerle birlikte sistemde modellenmektedir. Dolayısıyla kişiye bağımlı
sistemlerde farklı bir kişinin seslendirdiği kelimelerin tanınması için sistemde mevcut
modellerin aynı konuşmacının seslendirmeleri ile güncellenmesi gerekmektedir.
Konuşmacıdan bağımsız : Bu tür sistemlerde konuşmacıların ses özellikleri,
seslendirdikleri kelimelere yansıtılmayacak şekilde modellenir. Dolayısıyla kişiden
bağımsız sistemlerde farklı bir kişinin seslendirdiği kelimeler de tanınabilmektedir. Ancak
kişiden bağımsız sistemler, kişiye bağımlı sistemlere nazaran daha detaylı bir modelleme
çalışması gerektirir.
4.2.2 Temel alınan ses birimine göre sınıflandırma
Konuşma tanıma sistemleri; temel alınan ses birimine göre kelime tabanlı ve fonem tabanlı
tanıma olmak üzere 2 başlıkta sınıflandırılır.
Kelime tabanlı : Bu tür sistemlerde gerçekleştirilen tanıma işleminin en küçük unsuru
kelimelerdir. Ancak, uygulamada yüksek doğruluk derecesini beraberinde getiren bu
sistemlerde gereksinimler daha fazladır. Bu sebepten kelime tabanlı sistemlerde, kelime
kapasitesi kısıtlı tutulur ve komuta kontrol uygulamalarında kullanılırlar.
Fonem tabanlı : Bu tür sistemlerde gerçekleştirilen tanıma işleminin en küçük unsuru
fonemlerdir. Fon, kelimelerin seslendirilişi esnasında ağızdan çıkan her bir ses, fonem ise
bu fonlardan birisinin değiştirilmesi ile anlamı değişen en küçük ses birimidir.
![Page 46: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/46.jpg)
37
Temel birim olarak kelimeler yerine fonemler ele alındığında, sistem gereksinimleri
azalmakla beraber tasarlanan sistemlerin doğruluk derecesi kelime tabanlı sistemlerden
daha düşük olmaktadır. Yanı sıra, fonemlerin başlangıç ve bitişlerinin birbirlerinden
ayırdedilebilmesi detaylı ses bilgisi gerektiren, çözülmesi zor bir problemdir (Yalçın 2006).
4.2.3 Sesin sürekliliğine göre sınıflandırma
Konuşma tanıma sistemleri; sesin sürekliliğine göre izole kelime, bağlı kelime ve sürekli
konuşma tanıma olmak üzere 3 başlıkta sınıflandırılır.
İzole kelime : Bu tür sistemlerde, konuşmacının seslendirdiği kelimeler arasında belirli
sürelerle boşluklar olması beklenir ve bu boşluklar arasında seslendirilen kelimelerin
birbirlerinden bağımsız olarak tanınması yoluna gidilir. Kimi zaman her bir kelime
üzerinde manuel olarak boşluklar temizlendikten sonra sayısal analiz işlemlerine geçilir.
Bağlı kelime : Bu tür sistemlerde, konuşmacının seslendirdiği kelimeler arasında daha kısa
boşluklar bırakılması gerekmektedir. Bu tür sistemlerin bir ileri aşaması konuşmacının,
seslendirdiği kelimeler arasında beklemediği sürekli konuşma tanıma sistemleridir.
Sürekli konuşma : Bu tür sistemlerde, konuşmacı herhangi bir bekleme süresi
gözetmeksizin olağan şekilde bir hız ve vurgulama ile konuşur. Sürekli konuşma tanıma,
insanlardan bilgisayarlara yönelen sesle iletişim arayüzü olabilecek bir teknoloji olup
bilgisayarlara dikte ile yazı yazdırılması konusunda uygulama bulabilmektedir.
4.2.4 Metne göre sınıflandırma
Konuşma tanıma sistemleri; tanınması hedeflenen metne göre metne dayalı konuşma
tanıma ve metinden bağımsız konuşma tanıma olmak üzere 2 başlıkta sınıflandırılır.
![Page 47: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/47.jpg)
38
Metne dayalı konuşma tanıma : Bu tür sistemlerde kullanılan test verisi, eğitim verisi ile
sınırlı tutulur. Yani sistem, eğitimde kullanılan kelimelerin farklı seslendirilişleri ile test
edilir.
Metinden bağımsız konuşma tanıma : Bu tür sistemler, ağın eğitiminde kullanılan
kelimelerin yanı sıra bu kelimelerin eğitim dışı farklı kombinasyonlarına da cevap
verebilen yapıdadır. Metinden bağımsız konuşma tanıma sistemlerinde, örneğin ağın
eğitiminde “bir” ve “on” kelimeleri ile kullanılıyorsa, sistemin “onbir” kelimesini de
tanıması öngörülür.
4.3 Uygulama Çerçevesi
İnsan sesi, uzun yıllardır yoğun olarak araştırılmasına rağmen gerek oluşumu gerekse
niteliği itibariyle hala pek çok bilinmeyeni olan oldukça karmaşık bir olgudur. Dolayısıyla
bu çalışmadaki konuşma tanıma uygulaması belirli bir çerçeve ile sınırlı tutulmuştur.
Bu kapsamda:
• Konuşmacıya bağımlı olma,
• Kelime tabanlı olma,
• İzole kelimeler kullanma ve
• Metne dayalı olma
kriterlerine sahip bir Konuşma Tanıma sistemin tasarımı üzerinde durulmuştur.
İncelenen konu ve uygulama alanı her ne olursa olsun, niteliksel ve niceliksel karşılaştırma
pozitif bilimlerin önemli bir basamağıdır. Dolayısıyla, YSA yapıları ve bu yapıların işleyişi
ile ilgili daha iyi bilgi edinilmesi amacıyla, yukarıda kriterleri belirlenen aynı temel
konuşma tanıma uygulaması farklı ağ yapıları ile gerçekleştirilmiştir.
![Page 48: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/48.jpg)
39
Söz konusu ağ yapıları:
• Geri yayılımlı ÇKA,
• Elman ve
• OSA
yapılarıdır.
Bu ağ yapılarının tercih edilmesi temelde deneme yanılma yöntemi ile kararlaştırılmıştır.
Tasarlanan pek çok ağ yapısı içerisinden; geri yayılımlı ÇKA, Elman ve OSA yapıları,
konuşma tanıma problemindeki başarımlarının görece yüksek olmasına dayanılarak tercih
edilmiştir. Yanı sıra literatürde örüntü tanıma problemlerinin çözümü için önerilen ağ
yapıları incelenmiş ve konunun, bu sonuçları destekler nitelikte olup kabul gören çeşitli
makalelerle desteklendiği görülmüştür (Rothkrantz and Nollen 1999, Lin 2000, Azam et al.
2007).
4.4 Yazılım Geliştirme
Bu çalışma kapsamında, YSA ile Konuşma Tanıma uygulamasının benzetimi amacıyla bir
bilgisayar programı geliştirilmiştir. Yazılım ortamı olarak Matlab 7.0 programı ve anılan
programa ait Neural Network Toolbox (NNT) araçları ile Graphic User Interface (GUI)
tasarım ortamları kullanılmıştır. Bu yazılım ile Türkçe seslendirilen izole rakamları
konuşmacıya bağımlı olarak tanıyan bir sistem hedeflenmiştir.
Söz konusu sistem, sayısal sinyal işleme teknikleri kullanılarak ses sinyallerinin
özniteliklerinin çıkarılması ve bu özniteliklerin yapay sinir ağları ile sınıflandırılması
esasına dayanmaktadır. Takip eden başlıklarda bu esaslar etraflıca anlatılmaktadır.
![Page 49: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/49.jpg)
40
Bir konuşma tanıma uygulamasında, ses sinyallerinin tanınabilmesi için öncelikle bu
sinyallerin doğru şekilde ifade edilmesi gerekmektedir. Diğer bir deyişle, incelenen ses
sinyalinin içinde barındırdığı ve yalnızca tanınması hedeflenen kelimeye ait unsurlar
belirlenmelidir. Daha sonra belirlenen bu unsurların bir öznitelik vektörü ile ifade edilmesi
gerekir. Dolayısıyla ilk aşama, ses sinyallerinin doğru bir şekilde sayısal olarak
kaydedilmesidir.
Bu çalışmada bir bayan konuşmacıdan ses örnekleri alınmıştır. Konuşmacıdan, 0’dan 9’a
kadar (sıfır, bir, iki, üç, dört, beş, altı, yedi, sekiz, dokuz) olan kelimeleri yirmişer defa
seslendirmesi istenmiştir. Bu veri setinin seçilmesinin sebebi, çalışmanın literatürdeki diğer
örnekleriyle mukayese edilebilmesi, ayrıca bu kelimelerle gerek yoğunluk gerekse anlam
yönüyle uygun bir veri tabanı oluşturulabilmesidir.
Bu seslerin kayıt işlemi Goldwave programı ile gerçekleştirilmiştir. Kayıt parametreleri
11,025 kHz. frekans değeri ve 16 bit PCM kodlama olarak belirlenmiştir.
Literatürde ses kayıtlarının kelimenin uzunluğuna bakılmaksızın 0,8 saniyelik kayıt
süreleriyle alındığı çalışmalar vardır (Ahad et al. 2002, Azam et al. 2007). Bu gibi kayıt
süresini kısıtlayan tercihler seslerin kaydedilme sürecini büyük ölçüde kolaylaştırsa da bir
konuşma tanıma uygulamasının en önemli aşaması olan kayıt işlemini hata yapılmasına
açık hale getirmektedir. Çünkü kelimelerin seslendirilişleri ile kayıt işleminin aynı anda
başlatılmasında güçlükler yaşanmakta ve çoğunlukla konuşmacı ile kayıtları alan
uygulayıcı arasında tam bir senkronizasyon sağlanamamaktadır. Ayrıca seslendirilen
kelimenin uzunluğundan dolayı kayıt süresinin aşılması veya kelimeyi ifade eden tüm
bileşenlerin kaydedilememiş olması da muhtemel bir hatadır.
![Page 50: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/50.jpg)
41
Diğer taraftan, kayıt süresinin arttırılması ile bu gibi olumsuzlukların ortadan
kaldırılabileceği akla gelmektedir. Ancak bu durumda da gereğinden uzun süre kayıt
alınmasıyla beraber işlenmesi gereken verinin yanı sıra ses kayıtlarından temizlenmesi
gereken ve kayıt şartlarından kaynaklanan gürültünün artacağı göz önünde
bulundurulmalıdır. İşlenecek olan verinin artması en genel anlamda sistemi olası hatalara
karşı daha zayıf kılmakta, ayrıca bilgisayar daha fazla işlem yükü getirerek sistem
performansını olumsuz yönde etkilemektedir.
Sıralanan tüm nedenlerden dolayı bu çalışmada ses kayıtları kelimelerin uzunlukları ile
doğru orantılı sürelerle kaydedilmiştir. Böylece kelimelerin eksik kaydedilmesinin ve kayıt
süresinin uzun tutulması ile artacak olan işlem yükünün önüne geçilmesi hedeflenmiştir.
Yani sıra kelimelerin başlangıç ve bitişleri sinyallerin enerji kareleri toplamı ile bulunarak
daha etkin bir veri alma süreci sağlanmıştır (Rabiner and Samber 1975).
Sonraki aşama bu ses sinyallerinin özniteliklerinin hesaplanmasıdır ve bunun için çeşitli
yöntemler mevcuttur (Lippmann 1989, Rabiner and Juang 1993). Bu çalışmada kullanılan
öznitelik vektörlerinin hesaplanmasında, üçüncü bölümdeki Sayısal Sinyal İşleme başlığı
altında detayları verilen MFC katsayıları kullanılmaktadır. Yine aynı bölümde anılan
katsayıların hesaplandığı MFC algoritmasının blok diyagramına da yer verilmiştir. Bu blok
diyagramda mevcut işlemler Matlab programı ile, her biri için ayrı .m dosyaları
hazırlanarak, sırasıyla gerçekleştirilmiştir. Bu işlemlerde kullanılan parametreler Çizelge
4.2’de sunulmaktadır.
![Page 51: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/51.jpg)
42
Çizelge 4.2 MFC hesabında kullanılan parametreler
Örnekleme hızı 11,025 kHz.
Veri seti Türkçe rakamlar
Konuşmacı 1, bayan
Tekrar sayısı 20
Pencere fonksiyonu Hamming
Pencere sayısı 256
FFT noktası 512
MFC katsayı adedi 16
Yukarıdaki parametreler kullanılarak, Matlab’de oluşturulan MFCC.m dosyası ile her bir
kelime için 16 adet Mel-frekans katsayısı belirlenmiştir. Bir kelimenin doğru ifade
edilebilmesi için 16 katsayının yeterli olup olmadığı ise, diğer ağ parametrelerinin de
benzer şekilde belirlendiği gibi, deneme-yanılma yöntemi ile kararlaştırılmıştır.
Daha sonra bu katsayılar kullanılarak ve yine her bir kelime için ayrı ayrı olmak üzere,
uzunlukları kelimelerin uzunlukları ile orantılı 10 adet öznitelik vektörü oluşturulmuştur.
Takiben, elde edilen öznitelik vektörleri ile kelimelerin modellenmesi ve test edilmek
istenen kelimelerin bu modellere göre sınıflandırılması süreci gelmektedir. Bu çalışmanın
modelleme ve veri sınıflandırma kısmında, aynı zamanda çalışmanın esas konusunu teşkil
eden ve yanı sıra, örüntü tanıma problemlerinde sıklıkla kullanılan başarılı bir sınıflandırıcı
olan YSA tercih edilmiştir (Haykin 1999, Öztemel 2006).
![Page 52: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/52.jpg)
43
Literatürde çeşitli ağ modellerinin kullanıldığı pek çok çalışma mevcuttur. Ancak bu tür
çalışmalarda genellikle tek bir ağ modeli kullanılmakta ve o modelin performansı üzerinde
durulmaktadır. Burada diğer çalışmalardan farklı olarak çok katmanlı algılayıcı, Elman
ağları ve olasılıksal sinir ağları olmak üzere üç ağ modeli kullanılmıştır. Böylece genel
sistem performansının yanı sıra göreceli ağ performanslarının da değerlendirilmesi imkanı
doğmuştur.
Uygulamada kullanılan geri yayılımlı ÇKA, Elman ve OSA yapıları, Matlab NNT’de
mevcut olan ve sırasıyla newff, newelm, newpnn komutları ile gerçekleştirilmiştir. Bu
ağların seçilmesindeki başlıca kriter yapılan literatür taraması ile ulaşılan bilgilere göre
örüntü tanıma problemlerindeki genel başarımları olmuştur. Yanı sıra tasarım ve uygulama
kolaylığı, ağın eğitilmesi için gereken sürenin az olması, ağın işlem yükünün hafifliği gibi
diğer bazı kriterler de gözetilmiştir. Söz konusu üç ağ türünün konuşma tanımadaki
başarımlarına bu tezin sonuç kısmında değinilecektir.
Yukarıda sıralanan ağ modellerine ilişkin tasarım parametreleri deneme-yanılma
yöntemiyle belirlenmiş ve aşağıdaki başlıklarda verilmiştir.
Geri yayılımlı ÇKA
Geri yayılımlı ÇKA modelinin tasarımı için Matlab programı work dizininde mevcut
egit1.m dosyasında yazılan kod satırları aşağıda sunulmuştur.
newff ( [20 20 15 10], {'tansig', 'tansig', 'tansig’, 'purelin'});
NNet_CurveFitting.trainParam.epochs = 200;
NNet_CurveFitting.trainParam.goal = 1e-6;
![Page 53: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/53.jpg)
44
Kod satırlarında da görüldüğü gibi ağ yapısı üç adet saklı katman ve bir adet çıkış
katmanından oluşmaktadır. İlk iki saklı katmanın her birinde 20’şer, üçüncü saklı katmanda
15 ve çıkış katmanında 10 adet nöron kullanılmıştır. Bu nöronlardan saklı katmanlarda yer
alanlar tanjant sigmoid, çıkış katmanında yer alanlar ise doğrusal transfer fonksiyonlarına
sahiptir. Ayrıca ağın eğitim aşamasında kullanılacak olan yineleme sayısı 200 ve ulaşılması
hedeflenen ortalama karesel hata oranı ise milyonda bir olarak tasarlanmıştır.2
Elman ağı
Elman ağının tasarımı için Matlab programı work dizininde mevcut egit2.m dosyasında
yazılan kod satırları aşağıda sunulmuştur.
newelm ( [40 30 10], {'tansig', 'tansig', 'logsig'});
NNet_CurveFitting.trainParam.epochs = 1000;
NNet_CurveFitting.trainParam.goal = 1e-6;
Bu satırlarda da görüldüğü gibi ağ yapısı iki adet saklı katman ve bir adet çıkış
katmanından oluşmakta ve bu katmanlarda sırasıyla 40, 30 ve 10 adet nöron bulunmaktadır.
Ayrıca bu nöronlardan saklı katmanlarda yer alanlar tanjant sigmoid ve doğrusal, çıkış
katmanında yer alanlar ise logaritmik sigmoid transfer fonksiyonları kullanmaktadır. Ayrıca
ağın eğitim aşamasında kullanılacak olan yineleme sayısı 1000 ve ulaşılması hedeflenen
ortalama karesel hata oranı ise milyonda bir olarak tasarlanmıştır.3
2, 3 Sistem, eğitim aşamasında bu değerlerden hangisine daha önce ulaşırsa o parametre esas alınarak eğitim
işlemi sonlandırılmaktadır.
![Page 54: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/54.jpg)
45
OSA
OSA tasarımı için Matlab programı work dizininde mevcut egit3.m dosyasında yazılan kod
satırı aşağıda sunulmuştur.
NNet_CurveFitting = newpnn(giris,cikis);
Bu ağ yapısı için tasarım işlemi önceki iki ağ yapısından eğitim yönüyle farklıdır. Çünkü
burada, ağa verilen ilk giriş-çıkış eşleşmeleri için ağırlıklar belirli bir olasılık fonksiyonu
uyarınca değiştirildiğinden kullanıcı ağın eğitimi aşamasını görmemektedir. Bu aşamada
ağ, spread olarak tanımlanan ve olasılık fonksiyonunun yoğunluğunu ayarlamaya yardımcı
bir dağılım sabitinin uygun değere ayarlanması ile şekillendirilmektedir. Deneme-yanılma
yoluyla ağ tasarlanırken, bu değer 0,1’e yakınsa ağın en yakın komşu sınıflandırıcı gibi
davrandığı gözlemlenmiştir. Değer 0,1’den arttıkça ise diğer vektörler de ağın çıkışını
etkilemeye başlamakta ve çıkışlar daha dağınık olabilmektedir.
Kullanılan OSA yapısı, iki adet saklı katman ve bir adet çıkış katmanından oluşmakta ve bu
katmanlarda sırasıyla 310, 10 ve 10 adet nöron bulunmaktadır. Dağılım sabiti ise 0,1
alınmıştır.
Ağda, 10 olan çıktı sayısı 11 olarak değiştirildiğinde, tanınması hedeflen dışındaki
kelimelerle yapılan testlerde sonuç “TANIMSIZ” olarak alınabilmiştir. Bunun nedeni,
herhangi bir durum için olasılıklar toplamının 1 olması ve olasılık fonksiyonun sonuçta bir
değere yakınsaması gerekliliğidir. Bu gereklilik, Konuşma Tanıma uygulamasında test
edilen 10 kelimeye ilaveten “TANIMSIZ” olarak kaydedilen bir ses ile sağlanmıştır.
Böylece ağa, bu 10 kelimeden birisine adresleyemediği sonuçların tanımsız olarak
değerlendirilmesi öğretilebilmiştir.
![Page 55: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/55.jpg)
46
Uygulamada kullanılacak olan her üç ağın da yukarıdaki başlıklarda verilen parametrelerle
tasarlanmasından sonra, eğitim ve test aşamalarının gereksinimleri yerine getirilmelidir.
Seslerin özniteliklerinin çıkarılması aşamasında 10 kelimenin her birinin 20 defa
seslendirilmesi sonucu toplam 200 sesten oluşan bir veri tabanı elde edilmiştir. Bu veri
tabanındaki seslerden %20’si ağın eğitimi, %80’i ise ağın testi için ayrılmıştır.
YSA modellerinin eğitim aşamasında kullanılacak olan ve 40 sesten oluşan veri, aşağıda
açıklandığı şekilde düzenlenerek giriş ve çıkış matrisleri oluşturulmuştur.
Öncelikle her bir ses sinyali için ayrı ayrı hesaplanan MFC katsayıları tek matriste
birleştirilmiş ve giris.mat olarak saklanmıştır. Şekilde, giriş matrisinin oluşturulması için
örnek bir form görülmektedir.
Şekil 4.1 Giriş matrisinin oluşturulması
Sonrasında, her ses sinyalinin MFC katsayılarına karşılık gelecek şekilde 0 ve 1
değerlerinden oluşan çıkış matrisi oluşturulmuş ve cıkıs.mat olarak saklanmıştır.
![Page 56: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/56.jpg)
47
Şekil 4.2 Çıkış matrisinin oluşturulması
Böylece seslendirilen kelimelerin öz niteliklerinden oluşan “giriş” ve bu desenlerin
sınıflandırıldığı “çıkış” matrisleri oluşturulmuş ve ağ eğitilmiştir.
Test aşamasına gelindiğinde daha önce eğitilmiş olan ağ, aşağıdaki kod satırı ile
benzetilmiştir.
y = sim(NNet_CurveFitting,c5);
Bu benzetim neticesinde oluşan çıkış matrisinde,
Geri yayılımlı ÇKA için:
• (y(i,k)<1.50) & (y(i,k)>0.50) aralığında yer alan değerler 1’e ve
• (y(i,k)<0.50) & (y(i,k)>-0.50) aralığında yer alan değerler 0’a
Elman ağları için:
• (y(i,k)<1.30) & (y(i,k)>0.70) aralığında yer alan değerler 1’e ve
• (y(i,k)<0.30) & (y(i,k)>-0.30) aralığında yer alan değerler 0’a
dönüştürülmüş.
![Page 57: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/57.jpg)
48
Tüm satırlardaki “1” adetleri ayrı ayrı hesaplanarak, satırlar birbirleri ile mukayese
edilmiştir. En fazla sayıda “1” içeren satırın karşılığı olan kelimenin:
En büyük 1 adedi > Öznitelik değerinin uzunluğu/2
kriterini sağlaması durumunda tanıma işlemi tamamlanmış, tanınan kelime, aşağıdaki kod
satırı ile hesaplanan başarı yüzdesi ile birlikte kullanıcıya sunulmuştur.
(En büyük 1 adedi*100)/Tüm satırlardaki toplam 1 adedi
Eğer seslendirilen kelimenin tanınması için gerekli kriter sağlanamamışsa, kelime tanıma
uygulaması sonucunun “TANIMSIZ” olduğu ibaresi ile kullanıcı bilgilendirilmektedir.
Yazılım, kullanım kolaylığı sağlanması amacıyla Matlab programı GUI modülü ile
desteklenmiş ve bir uygulama ara yüzü hazırlanmıştır. Eğitim, Ağ seçimi, Test verisi, Test
sinyali ve Test sonucu pencerelerine yer verilen bu ara yüz sayesinde kullanıcının yapılan
işlemleri daha kolay takip edebilmesi amaçlanmıştır. Böylece test işlemleri daha kolay
gerçekleştirilebilmekte, farklı ağ modelleri ve kelimelere ilişkin sonuçlar birbirleriyle hızla
mukayese edilebilmektedir.
4.5 Yazılım Kullanımı
Bu tez çalışması kapsamında hazırlanan Konuşma Tanıma programının başlatılması için
Matlab programı çalıştırılıp work dizinindeki KONUSMATANIMA.m dosyası açılır. Ekrana
gelen editor penceresindeki kod run komutuyla işlenerek ilgili GUI başlatılır. Açılan
uygulama penceresi aşağıda görülmektedir.
![Page 58: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/58.jpg)
49
Şekil 4.3 Konuşma tanıma sistemi uygulama penceresi
Ara yüzdeki diğer kısımlara ilişkin bilgiler uygulamadaki kullanım sırasına göre aşağıda
sunulmaktadır.
4.5.1 Ağ seçimi
Açılan pencerede geri yayılımlı ÇKA, Elman ve OSA ağlarına ait işaret kutucuklarından
hangisine tıklanırsa o ağ aktif olmakta ve aktif edilen ağ yapısına ait eğitim algoritması
kullanılmaktadır. Aşağıdaki Şekil 4.3’te ağ yapısı olarak geri yayılımlı ÇKA ağının
seçildiği görülmektedir.
![Page 59: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/59.jpg)
50
4.5.2 Eğitim
Ağ seçimini takip eden aşama eğitim aşamasıdır. Bu aşamada, bir önceki adım olan ağ
seçiminde hangi yapı tercih edilmişse o yapıya uygun şekilde ağın eğitilmesi işlemi
gerçekleştirilmektedir. İlerideki aşamalar için de bu ayarlar geçerli olacaktır.
Şekil 4.4 Eğitim ekranı
![Page 60: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/60.jpg)
51
Eğit butonuna tıklandığında açılan eğitim penceresi ile eğitim işleminin detayları
gözlenmektedir. Tasarlanan ağlardan geri yayılımlı ÇKA ve Elman ağları için ekrana gelen
eğitim pencereleri sırasıyla aşağıda sunulmuştur.
Şekil 4.5 Geri yayılımlı ÇKA eğitim penceresi
![Page 61: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/61.jpg)
52
Şekil 4.6 Elman ağı eğitim penceresi
Ancak OSA modeli için gerçekleşen eğitim aşaması geri yayılımlı ÇKA ve Elman ağları
için gerçekleşen eğitim aşamasından daha farklıdır. Çünkü olasılıksal ağlarda eğitim işlemi
ağın tasarlanması aşamasında verilen ilk parametrelerle gerçekleşmektedir. Dolayısıyla ağ
eğitimi aşamasında olasılıksal ağlar seçildiğinde uygulamada herhangi bir eğitim penceresi
açılmamaktadır.
![Page 62: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/62.jpg)
53
4.5.3 Test verisi ve test sinyali
Test verisinin seçilmesi ve ağ performansının bu veri ile test edilmesi işlemi test verisi
butonuna tıklanıp açılan penceredeki .wav formatlı ses kayıtlarından ilgili olanın seçilmesi
ile gerçekleştirilir. Seçilen ses kaydına ait örnekleme sayısına göre genlik grafiği de yine
aynı pencerede görülmektedir.
Şekil 4.7 Test verisi ekranı
Grafiğin sol alt köşesindeki çift ok butonuna tıklanarak seçilen ses kaydının dinlenmesi
imkanı da ayrıca mevcuttur.
![Page 63: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/63.jpg)
54
4.5.4 Test sonucu
Uygulamanın sonuç bölümü, seçilen YSA’nın konuşma tanıma işlemini gerçekleştirmesi
beklenen kısımdır. Bir önceki ekranda görülen tanı butonu ile kelimenin sorgulanmasını
müteakip test verisine göre üretilen sonuç ekranda görülür.
Diğer bir deyişle tanı butonu, ağın asıl fonksiyonunu gerçekleştirmekte ve YSA sonucunu
kullanıcıya sunmaktadır. Bu şekilde kullanıcı ağın başarılı olup olmadığını görebilmektedir.
Örneğin, geri yayılımlı ÇKA ile “YEDİ” kelimesinin tanınması işlemi için ağın verdiği
sonuç aşağıda görülmektedir.
Şekil 4.8 Sonuç ekranı
![Page 64: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/64.jpg)
55
Burada; YSA’nın ne derece başarılı olduğunun görülebilmesi amacıyla, seslendirilen
kelime doğru olarak tanınsa dahi doğru eşleştirilen katsayıların sayısının çıkış verisi
boyutuna yüzde cinsinden oranına da yer verilmiştir.
Şekil 4.9’daki ekrana göre ağın ürettiği sonuç yüzde olarak görülmekte ve test edilen
kelimenin “%100” olarak tanındığı belirtilmektedir. Burada elde edilen sonuç değeri,
tanınması hedeflenen ses sinyalinden alınan örneklerin ne kadarının doğru olarak teşhis
edildiğinin bir ölçüsüdür.
Böylece kelime doğru tanınsa dahi bu değer %100 olmayabilir, fakat bu durum
derinlemesine bir inceleme yapılabilmesi için özellikle tercih edilmiştir. Hangi ses
sinyalinin doğru olarak tanınabilmesi için ne kadar katsayının tanınması gerektiğini
belirleyen kriterler yazılım içerisinde, deneme-yanılma yöntemiyle ve ses sinyalinin
uzunluğuyla orantılı olarak kararlaştırılmıştır. Bu oranın, bir sinyal için 1/3 iken bir diğeri
için 1/2 olabildiği görülmüştür. Ancak bu uygulamada incelenen ağ modellerinin
birbirleriyle eşit kriterlerde mukayese edilebilmesi için en iyi sonucu veren 1/2 değeri
seçilmiş ve her üç yapıda da aynen kullanılmıştır.
![Page 65: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/65.jpg)
56
5. SONUÇ
Konuşma tanıma problemi esas itibariyle bir örüntü tanıma problemidir. Ses sinyalleri,
belirli kelimelerin farklı seslendirme kayıtlarında benzer sinyal formları ortaya koyarlar. Bu
sayede bir kelimenin zamana göre frekans değerlerine dağılmış olan ifadesi, o kelimenin
örüntüsü olarak değerlendirilir. Dolayısıyla, bu örüntülerden yola çıkılarak YSA ile çeşitli
kelime tanıma uygulamaları, basit birer fonksiyon uydurma problemi gibi yaklaşılarak
gerçekleştirilebilmekte, yanı sıra yüksek başarımlar elde edilmektedir.
Bu çalışmada gerek YSA’nın konuşma tanıma uygulamasındaki başarımının araştırılması,
gerekse farklı ağ modellerinin birbirleriyle mukayese edilmesi amacıyla geri yayılımlı
ÇKA, Elman ağı ve OSA olmak üzere üç tür ağ modeli kullanılmış, yüksek tanıma
oranlarına ulaşılmıştır. İlerleyen satırlarda bu konulara değinilerek elde edilen performans
ve ulaşılan sonuçlar değerlendirilecek, konuşma tanıma probleminin YSA ile çözümü
konusunda çeşitli değerlendirmelere yer verilecektir.
5.1 Performans ve Sonuçlar
Mühendislik uygulamalarının başarımı çok çeşitli ölçütlerle değerlendirilmekle beraber en
temel ölçüt, hedeflenen sonuca ulaşılıp ulaşılamadığıdır. Yanı sıra hedeflenen bu sonuca ne
derece etkin olarak ulaşıldığı da gözetilen bir diğer ölçüttür. Bu ise genel olarak bir
sistemin verimliliğini, yani burada ele alınan şekliyle performansını ifade eder.
Bu tezde ele alınan konuşma tanıma uygulamasında geri yayılımlı ÇKA, Elman ağı ve OSA
yapıları için elde edilen test sonuçları birbirleriyle ve literatürdeki benzerleriyle mukayese
edilmiştir. Bunun için tanınması hedeflenen kelimeler, her biri 16 defa olmak üzere toplam
160 defa seslendirilmiş ve tüm ağ modelleri ile test edilmiştir. Her ağ modeli için doğruluk
çizelgeleri oluşturulmuştur.
![Page 66: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/66.jpg)
57
Çizelge 5.1 Geri yayılımlı ÇKA için doğruluk çizelgesi
Sıfır Bir İki Üç Dört Beş Altı Yedi Sekiz Dokuz Doğruluk yüzdesi
Sıfır 16 - - - - - - - - - 100
Bir - 15 1 - - - - - - - 93,75
İki - - 16 - - - - - - - 100
Üç - - - 16 - - - - - - 100
Dört 1 - - - 15 - - - - - 93,75
Beş - - - - - 16 - - - - 100
Altı - - - - - - 16 - - - 100
Yedi - - - - - - - 16 - - 100
Sekiz - - - - - - - - 16 - 100
Dokuz - - - - - - - - - 16 100
Toplam 98,75
![Page 67: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/67.jpg)
58
Çizelge 5.2 Elman ağı için doğruluk çizelgesi
Sıfır Bir İki Üç Dört Beş Altı Yedi Sekiz Dokuz Doğruluk yüzdesi
Sıfır 16 - - - - - - - - - 100
Bir - 15 - - - - - 1 - - 93,75
İki - - 16 - - - - - - - 100
Üç - - - 16 - - - - - - 100
Dört - - - - 16 - - - - - 100
Beş - - - - - 16 - - - - 100
Altı - - - - - - 16 - - - 100
Yedi - - - - - - - 16 - - 100
Sekiz - - - - - - - - 16 - 100
Dokuz - - - - - - - - - 16 100
Toplam 99,375
![Page 68: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/68.jpg)
59
Çizelge 5.3 OSA için doğruluk çizelgesi
Sıfır Bir İki Üç Dört Beş Altı Yedi Sekiz Dokuz Doğruluk yüzdesi
Sıfır 16 - - - - - - - - - 100
Bir - 16 - - - - - - - - 100
İki - - 16 - - - - - - - 100
Üç - - - 16 - - - - - - 100
Dört - - - - 16 - - - - - 100
Beş - - - - - 16 - - - - 100
Altı - - - - - - 16 - - - 100
Yedi - - - - - - - 16 - - 100
Sekiz - - - - - - - - 16 - 100
Dokuz - - - - - - - - - 16 100
Toplam 100
![Page 69: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/69.jpg)
60
Ayrıca, sistemin test kelimelerini tanıma oranları yüzde cinsinden ve ayrı ayrı aşağıdaki
çizelgelerde gösterilmiştir.
Çizelge 5.4 Ağ başarımları
Test veri tabanı
Geri yayılımlı ÇKA (%)
Elman ağı (%)
OSA (%)
SIFIR 100 100 100
BİR 93,75 93,75 100
İKİ 100 100 100
ÜÇ 100 100 100
DÖRT 93,75 100 100
BEŞ 100 100 100
ALTI 100 100 100
YEDİ 100 100 100
SEKİZ 100 100 100
DOKUZ 100 100 100
Çizelge 5.4’te verilen sonuçlarda, sistem genelinde karıştırılan kelimelerin “bir” ve “dört”
olduğu görülmüştür. Bu kelimelerin her ikisi de tek heceli kelimelerdir ve bu sonuç, tek
heceli kelimelerin modellenmesinin daha zor olduğu bilgisini destekler niteliktedir. Ayrıca
hem geri yayılımlı ÇKA, hem de Elman ağlarının “bir” kelimesinde hata yapması, bu
kelimenin seslendiriliş ve yapı yönüyle diğerlerinden farklı olması ile açıklanabilir.
Yapılan testlerde, “bir” kelimesi birer defa “iki” ve ”yedi” ile; “dört” kelimesi ise bir defa
“sıfır” ile karıştırılmıştır. Eğer bir kelime sıklıkla, belirli bir diğer kelime ile karıştırılmış
olsaydı, anılan kelimenin yeterince modellenemediği ve karıştırıldığı kelime modeline
yakınsadığı sonucuna varılabilirdi. Ancak burada farklı kelimelerle ve tüm veri tabanı için,
tüm ağ modelleri ile toplam üç defa yanlış sonuç üretilmiştir. Bu sonuç, sistemin temel
![Page 70: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/70.jpg)
61
unsurları olan sayısal sinyal işleme ile öznitelik çıkarımı ve sinir ağları ile kelimelerin
modellenmesi aşamalarının her ikisinin de başarıyla tasarlandığını göz önüne sermektedir.
Çizelge 5.5’te sistemin test kelimelerini tanıma oranlarının ortalaması yüzde cinsinden ve
genel olarak gösterilmiştir.
Çizelge 5.5 Ortalama ağ başarımları
YSA
türleri
Veri tabanı
başarım yüzdesi
Geri yayılımlı ÇKA
98,75
Elman ağı 99,375
OSA 100
Yukarıdaki tablolardan hareketle, ağ modellerine göre başarım yüzdelerinin ortalama
değerleri bir grafik ile gösterilmiştir.
90
92
94
96
98
100
Geri yayılımlı ÇKA
Elman ağı
Olasılıksal ağ
Şekil 5.1 Ortalama ağ başarımları
![Page 71: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/71.jpg)
62
Grafikte de görüldüğü gibi ortalama ağ başarımları hayli yüksek değerlerde seyretmekle
birlikte OSA yapısı tam sonuç vermektedir.
Burada test edilen konuşma tanıma sistemi, bu çalışmanın 4. bölümünde de belirtildiği gibi
kapalı set olmak üzere tasarlanmıştır. Açık set olarak tasarlanan bir sistemin kapalı set
olarak da başarılı olması gerekir ancak kapalı set olarak tasarlanan bir sistemin açık set
kullanımda da başarılı olması ilave bir başarım ölçütüdür. Dolayısıyla bu tezde tasarlanan
kapalı set sistem, hedeflenen kelimelerin tanınması kadar eğitim veri tabanında yer almayan
kelimelerin tanımsız olduğunun belirlenmesi yönüyle de test edilmiştir.
Bu amaçla, sistemin tanımak üzere eğitilmediği kelimelerle test edilmesi için de bir veri
tabanı hazırlanmıştır. Problemi zorlaştırmak adına, hedef kelimelere en benzer sesleri
içeren “sefir”, “onbir”, “kedi”, “göç”, “dürtü”, “baş”, “altmış”, “yetki”, “seksen”, “sakız”
kelimeleri seçilmiştir. Seçilen bu 10 kelime ile sistem test edildiğinde ağırlıklı olarak
“TANIMSIZ” yanıtı alınmıştır. Ancak bazı testlerde geri yayılımlı ÇKA modelinin, “altı”
ile “altmış” ve “üç” ile “göç” kelimelerini karıştırabildiği, fakat bu gibi yanlış sonuçlar elde
edildiğinde ağın tekrar eğitilmesi ile bu kelimelerin de doğru tanındığı görülmüştür. Bu
durum, gerek kelimelerin uzunluklarının gerekse içerdikleri seslerin benzerliği göz önünde
bulundurulduğunda makul değerlendirilmiştir. YSA’nın farklı eğitim süreçleri neticesinde
farklı sonuçlar elde edilmesi ise ağın eğitim işleminin her seferinde farklı gerçekleşmesine
bağlanmıştır.
Yapılan testler genelinde OSA yapısı gerek veri seti içerisindeki tüm kelimelerin tanınması
gerekse veri seti dışındaki kelimelerin TANIMSIZ olarak teşhis edilmesi yönüyle incelenen
üç ağ yapısı içerisinde en iyi sonucu vermiştir. Bu sebepten anılan yapı için, konuşma
tanıma uygulamasında kullanılan diğer iki ağ yapısına ilave bazı incelemeler yapılmıştır.
Öncelikle, tanınması hedeflenen rakamlar için oluşturulan eğitim ve test verisi yeniden
düzenlenmiştir. Bu amaçla her kelime için oluşturulan 20’şer ses kaydı 4’erli gruplara
bölünmüştür. Elde edilen 5 gruptan ilki eğitim, diğer dördü ise test verisi olarak ayrılmıştır.
![Page 72: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/72.jpg)
63
Bu işlem tüm gruplar için sırasıyla gerçekleştirilmiştir. Böylece test verisi çeşitlendirilmiş
ve sayıca arttırılmıştır (16 x 5 = 80). Oluşturulan yeni veri tabanı ile OSA yapısı test
edildiğinde elde edilen sonuçlar aşağıdaki çizelgede görülmektedir.
Çizelge 5.6 OSA için geniş veri seti ile doğruluk çizelgesi
Sıfır Bir İki Üç Dört Beş Altı Yedi Sekiz Dokuz Doğruluk yüzdesi
Sıfır 79 - - - - - - - - - 98,75
Bir - 74 - - - - - - - - 92,50
İki - - 77 - - - - - - - 96,25
Üç - - - 80 - - - - - - 100
Dört - - - - 80 - - - - - 100
Beş - - - - - 80 - - - - 100
Altı - - - - - - 80 - - - 100
Yedi - - - - - - - 79 - - 98,75
Sekiz - - - - - - - - 78 - 97,50
Dokuz - - - - - - - - - 80 100
TANIMSIZ 1 6 3 0 0 0 0 1 2 0 98,375
Çizelge 5.6’ya göre, veri seti değiştirildiğinde ve sayıca arttırıldığında YSA’nın farklı
sonuçlar verdiği, ancak bu sonuçlarda da ağ başarımı için elde edilen yüksek değerlerin
korunduğu görülmüştür. Bu sonuçlar kelime bazında değerlendirildiğinde sıklıkla teşhis
edilemeyen kelime, tek heceli bir kelime olan “bir” olmuştur. Bu durum, kelimelerin fonem
tabanlı olmayan konuşma tanıma uygulamalarında sayısal olarak ifade edilmesindeki
zorluktan kaynaklanmakta olup, ilk iki ağ modeli ile elde edilen sonuçlarla da paralellik
göstermektedir. Veri setindeki diğer tek heceli kelimeler olan “üç”, “dört” ve “beş”
kelimeleri ile tam sonuç elde edilmesi ise bu kelimelerin içerdikleri karakteristik seslerden
![Page 73: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/73.jpg)
64
(“üç” kelimesinde “ç” sesi ve “beş” kelimesinde “ş” sesi) ve kelimelerin
seslendirilişlerindeki uzunluk farkından (“dört”) kaynaklanmaktadır.
Yukarıdaki incelenmelerin yanı sıra, OSA yapısının başarım oranı, her rakam için 80’er
örnek ile yapılan testlerde elde edilen % 98,375 değerinde sabit tutularak eğitim verisinde
yer alan örnek sayısının ağın yapısına olan etkisi araştırılmıştır. Sonuçlar aşağıdaki şekilde
görülmektedir.
0
200
400
600
800
1000
Nöron sayısı
10 20 30 40 50
Örnek sayısı
Şekil 5.2 OSA yapısında kullanılan nöron sayısının, eğitim verisindeki örnek sayısı ile
değişimi
Şekil 5.2’de görüldüğü gibi, tanınması hedeflenen her bir rakam için sırasıyla 1’er, 2’şer,
3’er, 4’er ve 5’er örnek ile yapılan testlerde elde edilen sonuçlara göre, belirlenen başarım
oranını yakalamak için kullanılması gereken nöron sayısı eğitim verisindeki örnek sayısı ile
doğru orantılı olarak artmaktadır. Testler, sonuçların belirli bir formda seyretmesi ve artan
eğitim verisi ile ağın işlem yükünün artması gibi nedenlerden dolayı her bir rakam için 5’er
örnekte sonuçlandırılmıştır.
![Page 74: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/74.jpg)
65
Ayrıca, bu çalışmada oluşturulan OSA yapısı gürültüye olan duyarlılığı yönüyle de
incelenmiştir. Genellikle, sistemlerin gürültü duyarlılığının az olması daha sağlıklı
çalışmaları açısından tercih edilen bir özelliktir. Çünkü gürültü, sistem performansını
olumsuz etkileyen bir unsurdur. Benzer şekilde örüntü tanıma problemlerinde gürültü,
tanınması hedeflenen örüntüyü bozarak tanıma oranını, diğer bir deyişle sistem
performansını olumsuz yönde etkiler.
Bu çalışmada tasarlanan OSA yapısı için, test verisine ortalama bir iletim kanalı gürültüsü
kadar olan 30 dB seviyesinde beyaz gürültü (AWGN - Additive White Gausien Noise)
eklenerek ağ testleri tekrar edilmiştir. Sonuçlar Çizelge 5.7’de görülmektedir.
Çizelge 5.7 OSA için gürültü ilaveli doğruluk çizelgesi
Sıfır Bir İki Üç Dört Beş Altı Yedi Sekiz Dokuz Doğruluk yüzdesi
Sıfır 15 - - - - - - - - - 93,75
Bir - 15 - - - - - - - - 93,75
İki - - 16 - - - - - - - 100
Üç - - - 16 - - - - - - 100
Dört - - - - 16 - - - - - 100
Beş - - - - - 16 - - - - 100
Altı - - - - - - 16 - - - 100
Yedi - - - - - - - 16 - - 100
Sekiz - - - - - - - - 15 - 93,75
Dokuz - - - - - - - - - 16 100
TANIMSIZ 1 1 0 0 0 0 0 0 1 0 98,125
![Page 75: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/75.jpg)
66
Gürültü eklenen veri seti ile yapılan test sonuçları (Çizelge 5.7), gürültü eklenmemiş olarak
daha önce yapılan test sonuçları ile karşılaştırıldığında (Çizelge 5.3); “sıfır”, “bir” ve
“sekiz” kelimelerinin birer defa tanımlanamadığı görülmüştür. Bu sonuçlara göre, OSA
yapısının başarım oranının önceki sonuçlara yaklaşık değerlerde seyrettiği hesaplanmış ve
ağın gürültüye olan duyarlılığının düşük seviyede olduğu değerlendirilmiştir.
Özetle, tasarlanan Konuşma Tanıma sistemi ile tanınması hedeflenen tüm kelimeler
tanınmış ve eğitim verisinde yer almayan kelimeler “TANIMSIZ” olarak teşhis edilmiştir.
Yapılan testler ile elde edilen tüm sonuçlara göre bu tezde tasarlanan Konuşma Tanıma
sistemi hedef kelimeleri doğru olarak tanıyan, amacına ulaşmış, başarılı bir sistemdir.
Buradan yola çıkarak YSA’nın Konuşma Tanıma gibi karmaşık problemlerin üstesinden
gelebilen başarılı bir teknik olduğu görülmüştür.
5.2 Literatürdeki Benzer Çalışmalar
Konuşma tanıma, literatürde çok çeşitli örnekleri olan bir konudur ve burada, ele alınan
uygulamaya benzer çalışmalar incelenmiştir.
Polur ve arkadaşlarının 2001 yılında yaptıkları bir uygulama, geri yayılımlı ÇKA ile
İngilizce “evet” ve “hayır” kelimelerinin tanınması üzerinedir. Bu çalışmada “evet” ve
“hayır” kelimelerinin öznitelik vektörlerinin çıkarılması için MFC tekniği ve 13’er adet
MFC katsayısı kullanılmış. Sistem iki adet bayan konuşmacının ses kayıtları ile test
edildiğinde genel başarım “evet” kelimesi için % 75 ve “hayır” kelimesi için % 90 olarak
ifade edilmiştir. (Polur et al. 2001)
Bu tezde gerçekleştirilen uygulamada ise 5 kat daha büyük bir veri tabanı ve her kelime
için 16’şar katsayı kullanılmıştır. Bu veri için, söz konusu çalışmadan daha yüksek başarım
sağlanmış ve geri yayılımlı ÇKA modeli ile % 98,75 doğru sonuç elde edilmiştir. Bu sonuç,
genel başarım yönüyle daha iyi bir ağ tasarımı yapıldığını ifade etmektedir.
![Page 76: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/76.jpg)
67
Benzer çalışmalar Arap dili üzerinde Alotaibi tarafından 2003 ve 2004 yılarında
gerçekleştirilmiş, bu çalışmalarda Arapça rakamların tanınması için sırasıyla geri yayılımlı
ÇKA ve Elman ağları kullanılmıştır. Alotaibi, iki çalışmasında da MFC tekniğini kullanmış
ve her bir rakam için 11’er katsayı hesaplamıştır. Çalışmalarında % 99,5 başarım
sağladığını ifade etmiştir. (Alotaibi 2003, 2004) Bu çalışmaların sayısal sinyal işleme
aşamasında 17 konuşmacıdan aynı kelimeyi seslendirmeleri istenerek veri tabanı
oluşturulmuştur.
Bu tezde gerçekleştirilen uygulamada ise bir konuşmacının aynı kelimeyi 20 defa farklı
tonlamalarla seslendirmesi istenmiştir. Söz konusu çalışmalara ve bu tezde ele alınan
uygulamaya ait bazı ağ parametreleri, aralarındaki farklılıkların görülebilmesi için
aşağıdaki çizelgede sunulmuştur.
Çizelge 5.8 Ağ yapıları arasındaki farklar
Parametreler Geri yayılımlı
ÇKA (Alotaibi 2003)
Geri yayılımlı ÇKA4
Elman ağı (Alotaibi 2004)
Elman ağı5
1. saklı katmandaki nöron sayısı
40 20 40 40
2. saklı katmandaki nöron sayısı
15 20 15 30
3. saklı katmandaki nöron sayısı
- 15 - -
Çıkış katmanındaki nöron sayısı
10 10 10 10
4, 5 Sütunlardaki değerler bu tez çalışmasında gerçekleştirilen konuşma tanıma uygulamasına aittir .
![Page 77: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/77.jpg)
68
Yukarıdaki geri yayılımlı ÇKA yapılarında görülen fark 2003’te gerçekleştirilen
uygulamada 2, bu tezde gerçekleştirilen uygulamada ise 3 saklı katman kullanılmasıdır. İlk
çalışmada 1. saklı katmanda kullanılan 40 nöron, diğer çalışmada iki saklı katmana
dağıtılmıştır. Bunun sebebi; iyileştirme çalışmaları sırasında, ilk saklı katmanda kullanılan
nöron sayısının fazla olmasının YSA’nın öğrenme sürecini yavaşlattığının, ancak bu
nöronların bir kısmının oluşturulacak diğer saklı katmana aktarılması halinde sistem
başarımından taviz verilmeksizin eğitim sürecinin kısaltılabildiğinin görülmesidir. Son
saklı katmandaki nöron sayısı da 5 arttırılmıştır. Böylece ağ, eğitim veri setlerini daha iyi
öğrenmektedir. Benzer bir durum yukarıda görülen Elman ağ yapılarının 2. saklı
katmanlarında da ortaya çıkmaktadır. Burada da ilk çalışmaya göre daha fazla sayıda nöron
kullanıldığı görülmektedir. Nöron sayılarındaki bu değişikliğin, çalışmalarda kullanılan
dillerin ve dolayısıyla, veri setlerinin farklı oluşundan kaynaklandığı değerlendirilmektedir.
Azam ve arkadaşlarının 2007 yılında yaptıkları bir uygulamada ise Urdu dilinde
seslendirilen rakamların tanınması amaçlanmıştır. Bu çalışmada da geri yayılımlı ÇKA
yapısı kullanılmış ancak burada konu edilen diğer çalışmalardan farklı olarak her bir kelime
için 39’ar adet MFC katsayısı hesaplanmıştır. Ayrıca, bir konuşmacının tüm kelimeleri
100’er defa seslendirilmesi ile oluşturulan geniş bir veri tabanı kullanılmıştır. Azam ve
arkadaşları başarı oranlarını % 98 olarak bildirmiştir.
Bu tezde gerçekleştirilen uygulamada ise bir konuşmacının tüm kelimeleri 20’şer defa
seslendirmesinin, gerek YSA’nın eğitimi gerekse testi aşamalarında yeterli olduğu
görülmüştür. Bu sayede veri tabanı küçültülmüş ve ağın işlem süresi kısaltılmıştır. Geri
yayılımlı ÇKA yapısı ile elde edilen başarım oranı ise benzer şekilde % 98,75 olarak
hesaplanmıştır.
Yukarıdaki satırlarda değinilen çalışmalarda problemin çözümüne odaklanıldığı, her
çalışmada tek bir ağ yapısının kullanıldığı, dolayısıyla ağ yapılarının göreceli başarımlarına
değinilmediği görülmektedir. Bu tez çalışmasının yukarıda bahsedilen diğer çalışmalardan
farkı, konuşma tanıma probleminin çözümüne yönelik üç farklı ağ modelinin tasarlanmış ve
![Page 78: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/78.jpg)
69
kıyaslanmış olmasıdır. Burada amaç, konuşma tanıma problemine çözüm üretilmesinin
yanı sıra çeşitli ağ yapılarının tasarım aşamalarının öğrenilmesi, bu ağların birbirleri ile
mukayese edilmesi ve tüm bunların sonucu olarak YSA konusunun daha iyi
anlaşılabilmesidir.
5.3 Değerlendirme
YSA, Konuşma Tanıma problemi için bu tezde ele alındığı çerçevede oldukça yüksek
performans göstermiş ve başarılı sonuçlar elde edilmiştir.
Konuşma tanıma gibi karmaşık bir problem için böylesi yüksek başarı oranlarının elde
edilmesi, YSA teknolojisinin örneklerle öğrenebilme gücünden gelir. Gerçek dünyada
karşılaşılan problemler pek çok değişkenin hem birbirlerini, hem de asıl problemi farklı
şekillerde etkilemesi ile kimi zaman çözümlenemez hal almaktadır. Ancak YSA’nın, bu
ilişkileri çözümlemek yerine otomatik olarak öğrenmesi onu başarılı bir teknik kılar.
Bu durum, beraberinde tasarımcıya da büyük avantajlar getirir. Çünkü bir problemi
matematiksel olarak çözümlemeye çalışmak, söz konusu problem için giriş ve çıkış
bilgilerinden ibaret örnek setleri bulmaktan oldukça zordur. Bu noktada tasarımcının iyi bir
modelleme yapması çok önemlidir. Çünkü tasarımcı, yetersiz bir matematiksel çözümleme
ile yola çıkmış olsa da bazı sonuçlar elde eder ve bu sonuçları yorumlayarak sistemini
düzenleyebilir. Ancak konu bir YSA uygulaması olduğunda, yetersiz modelleme yapılması
tasarımcıya yorumlayabileceği hiçbir sonuç vermeyecektir. Dolayısıyla modelleme
aşamasına yeterince ağırlık verilmeli, bu sayede sistemin test edilmesi ve iyileştirilmesi
aşamasında düzenlenecek değişkenler ağ parametreleri ile sınırlı tutulmaya çalışılmalıdır.
Yanı sıra, bu çalışmada ele alınan konuşma tanıma uygulamasında; eğitim aşamasının az
sayıda yineleme ile gerçekleştirilebildiği ve test aşamasının fazla işlemci yükü
gerektirmediği görülmüştür. Bu durum, benzer uygulamaların yaygınlık kazanabileceğini
ve hatta uygulama çerçevesinin, tanınması öngörülen kelime sayısının çoğaltılması ya da bu
![Page 79: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/79.jpg)
70
kelimelerin örüntülerinin daha detaylı modellenmesi gibi işlem yükünü arttırıcı açılımlara
tolerans sağlayabileceğini göstermiştir.
Bu avantajlarının yanı sıra, YSA’nın tasarımcının deneyimlerine göre şekillendirilen yapısı
ve sistem tasarımında sıklıkla başvurulan deneme-yanılma yönteminin metodolojik bir
iyileştirme sürecine göre hayli fazla zaman alması bazı dezavantajlar olarak karşımıza
çıkar. Ayrıca deneme-yanılma yöntemi tasarımcının geçmiş tecrübeleri ile çok ilişkilidir.
Bu nedenle, tasarımcının ağ yapısı üzerindeki çalışmalarına ve ağın davranışlarına açıklık
getirmesi büyük ölçüde sınırlanır. Önemli bir diğer husus ise YSA’nın, yapısal özellikleri
sabit tutulmasına rağmen farklı eğitim süreçlerinde farklı sonuçlar üretebilmesidir.
Dolayısıyla YSA’nın her zaman en iyi sonucu vereceği düşünülmemeli, problemin
muhtemel sonuçlarından bir seti kullanıcıya sunduğunun bilincinde olunmalıdır.
Bununla beraber YSA, pek çok firma tarafından üretilen ağ benzeticileri ile endüstriyel
uygulamalar anlamında da tercih edilen bir teknolojidir. İlaveten Hitachi, Inova, Philips,
Siemens gibi firmaların spesifik YSA modelleri için geliştirdikleri çeşitli işlemciler de
mevcuttur. Tüm bu donanımsal imkanlar literatürün ağ uygulamaları açısından zengin
oluşuyla birleştiğinde, YSA sürekli güncel kalan ve uygulama alanı, günlük hayatta
kullanılan endüstriyel uygulamalardan mühendisliğe, tıp biliminden finansal konulara kadar
uzanan köklü bir disiplin olarak karşımıza çıkmaktadır.
Genel olarak, konuşma tanıma probleminin çözümüne yönelik çalışmalarda:
• Ağ yapısının geliştirilmesi için literatürde yer alan yeni tasarımların (Genetic
Algorithm, Self-Organizing Maps vb.) incelenmesi,
• Daha geniş veri tabanı kullanan uygulamalar oluşturulması,
• Sese duyarlı akıllı ev uygulamaları ve çeşitli alarm sistemleri tasarlanması,
• Yetkilendirme, sistem erişimi gibi güvenlik uygulamaları,
• Biometrics olarak adlandırılan ve her birey için farklı olan parmak izi, iris yapısı
gibi parametrelerin incelendiği bilim dalına ses parametresinin de dahil edilmesi,
![Page 80: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/80.jpg)
71
• SSİ entegrelerinin kullanımı ile gömülü uygulamalar gerçekleştirilmesi,
• Matlab ve C programlarının entegre kullanımı ile bilgisayardan bağımsız cihazlar
tasarlanması
gibi hususlar önerilebilir.
Bunların yanı sıra, eğitim ve test seslerine ilişkin kayıtların stüdyo gibi gürültüden
yalıtılmış bir ortamda alınması ve takiben, ses sinyallerinde akustik iyileştirme yapılması
da sistem performansını arttıracak diğer önemli hususlardır.
![Page 81: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/81.jpg)
72
KAYNAKLAR
Ahad, A., Fayyaz, A., Mehmood, T. 2002. Speech recognition using multilayer perceptron.
Proc. of the IEEE Conference ISCON’02, vol. 1, pp. 103-109.
Alotaibi, Y.A. 2003. High performance Arabic digit recognizer using neural networks.
Proc. of the IEEE International Joint Conference on Neural Networks, pp. 670-
674.
Alotaibi, Y.A. 2004. Spoken Arabic digit recognizer using recurrent neural networks. Proc.
of the 4th IEEE International Symposium on Signal Processing and Information
Technology, pp.195-199.
Alotaibi, Y.A. 2005. Investigating spoken Arabic digits in speech recognition setting.
Information Sciences, vol.173, pp.113-129.
Azam, S.M., Mansoor, Z.A., Mughal, M.S. and Mohsin, S. 2007. Urdu spoken digits
recognition using classified MFCC and backpropagation neural network. Computer
Graphics, Imaging and Visualization Conference.
Elman, J.L. 1990. Finding structure in time. Cognitive Science, vol.14, pp.179-211.
Farley, B.G. and Clark, W.A. 1954. Simulation of self-organizing systems by digital
computer. IRE Trans., vol. PGIT-4, pp. 76-84.
Fukushima, K. 1975. Cognitron: A self-organizing multilayered neural network. Biological
Cybernetics, vol. 20., pp. 121-136.
Haykin, S. 1999. Neural networks: A comprehensive foundation. Prentice-Hall Inc. (2nd
ed.), Englewood Cliffs, NJ.
Hebb, D.O. 1949. The organization of behavior. Wiley Interscience, New York.
![Page 82: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/82.jpg)
73
Hopfield, J.J. 1982. Neural networks and physical systems with emergent collective
computational abilities. Proc.of the National Academy of Sciences, vol. 79, pp.
2554-2558.
Kohonen, T. 1982. Self-organized formation of topologically correct feature maps.
Biological Cybernetics, vol. 43, pp. 59-69.
Kohonen, T. 1987. State of the art in neural computing. IEEE First International
Conference on Neural Networks, vol. 1, pp. 79-90.
Lim, C.P., Woo, S.C., Loh, A.S. and Osman, R. 2000. Speech recognition using artificial
neural networks. 1st International Conference on Web Information Systems
Engineering, vol. 1, p. 419.
Lippmann, R. 1989. Review of neural networks for speech recognition, Neural
computation. MIT press, Cambridge.
Makal, S. 2007. Sonsuz uzun mükemmel iletken düz yüzeyler üzerindeki silindirik
hedeflerin yapay sinir ağları kullanılarak tanımlanması ve sınıflandırılması. Yüksek
Lisans Tezi, Yıldız Teknik Üniversitesi, İstanbul.
Marven, C. and Ewers, G. 1996. A simple approach to digital signal processing. Wiley
Interscience, New York.
MEC 409 Lecture notes 2004. Web sitesi.
http://www.dynamics.group.shef.ac.uk/people/keith/mec409.htm. Erişim Tarihi:
01.05.2008.
Minsky, M. and Papert, S. 1969. Perceptrons: An introduction to computational geometry.
MIT press (expanded edition), Cambridge.
Nabiyev, V.V. 2003. Yapay zeka. Seçkin Yayıncılık, Ankara.
![Page 83: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/83.jpg)
74
Öztemel, E. 2006. Yapay sinir ağları. Papatya Yayıncılık, İstanbul.
Polur, P.D., Zhou, R., Yang, J., Adnani, F. and Hobson, R.S. 2001. Isolated speech
recognition using artificial neural networks. 23rd Annual EMBS Conference.
Rabiner, L. and Samber, M. 1975. An algorithm for determining the endpoints of isolated
utterances, The Bell System Technical Journal, vol. 54, pp. 297–315.
Rabiner, L. and Juang, B.H. 1993. Fundamentals of speech recognition. Prenctice-Hall Inc.,
Englewood Cliffs, NJ.
Rochester, N., Holland, J.H., Haibit, L.H. and Duda, W.L. 1956. Tests on a cell assembly
theory of the action of the brain, using a large digital computer,” IRE Trans.,
vol. IT-2, pp. 80-93.
Rosenblatt, F. 1958. The perceptron: A probabilistic model for information storage and
organization in the brain. Psychological Review, vol. 65, pp. 386-408.
Rothkrantz, L.J.M. and Nollen, D. 1999. Speech recognition using Elman neural networks.
Text, speech and dialogue, vol. 1692, pp. 146-151.
Rumelhart, D.E., Hinton, G.E. and Williams, R.J. 1986. Learning representations by back-
propagating errors. Nature, vol. 323, pp. 533-536.
Soytürk, M.A. 2005. Sayısal kenar çıkarma ve yapay sinir ağları ile araç tanıma. Yüksek
Lisans Tezi, Erciyes Üniversitesi, Kayseri.
Specht, D.F. 1988. Probabilistic neural networks for classification, mapping or associative
memory. Proc. IEEE International Conf. on Neural Networks, vol. 1, pp. 525-532.
Specht, D.F. 1990. Probabilistic neural networks. Neural Networks, vol. 3, pp. 109-118.
![Page 84: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/84.jpg)
75
Stevens, S.S. , Volkman, J. and Newman, E.B. 1937. A scale for the measurement of the
psychological magnitude pitch. The Journal of the Acoustic Society of America,
vol. 8, pp. 185-190.
Widrow, B. 1960. An adaptive Adaline neuron using chemical memistors. Technical
Report, no. 1553-2, Stanford Electronics Laboratories.
Widrow, B. and Hoff, M.E. 1960. Adaptive switching circuits. IRE Wescon Convention
Record: Part 4, Computers: Man-machine systems, pp. 96-104, Los Angeles.
Widrow, B. (Editor) 1988. DARPA Neural Network Study, AFCEA International Press.
Yalçın, N. 2006. İlköğretim birinci sınıf öğrencilerine konuşma tanıma teknolojisi
yardımıyla ilkokuma yazma öğretimi. Doktora Tezi, Gazi Üniversitesi, Ankara.
![Page 85: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin](https://reader033.vdocuments.mx/reader033/viewer/2022041605/5e33917054a1d55f131eb92a/html5/thumbnails/85.jpg)
76