ankara Ünİversİtesİ fen bİlİmlerİ enstİtÜsÜ...

85
ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ YÜKSEK LİSANS TEZİ YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin DEDE ELEKTRONİK MÜHENDİSLİĞİ ANABİLİM DALI ANKARA 2008 Her hakkı saklıdır

Upload: others

Post on 12-Jan-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

YÜKSEK LİSANS TEZİ

YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA

Gülin DEDE

ELEKTRONİK MÜHENDİSLİĞİ ANABİLİM DALI

ANKARA 2008

Her hakkı saklıdır

Page 2: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

i

ÖZET

Yüksek Lisans Tezi

YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA

Gülin DEDE

Ankara Üniversitesi

Fen Bilimleri Enstitüsü

Elektronik Mühendisliği Anabilim Dalı

Danışman: Yrd. Doç. Dr. Murat Hüsnü SAZLI

Bu çalışmada Yapay Sinir Ağları konusu incelenmiş ve bir Konuşma Tanıma

uygulaması gerçekleştirilmiştir. Yapay sinir ağlarının gelişimindeki kilometre taşlarına

değinilmiş ve bu süreçte uygulama alanında öne çıkan eğitim yöntemleri ve ağ yapıları

incelenmiştir. Uygulamada kullanılan ağ yapıları olan geri yayılımlı Çok Katmanlı

Algılayıcı, Elman Ağı ve Olasılıksal Sinir Ağı yapıları incelenmiş ve ele alınan

konuşma tanıma uygulaması her bir ağ modeli ile sınanarak söz konusu yapılar

birbirleri ile mukayese edilmiştir. Konuşma tanıma problemine çözüm aranan bu süreçte

sinir ağlarının yanı sıra Sayısal Sinyal İşleme konusu da uygulamanın gerektirdiği

ölçüde araştırılmış ve kelimelerin özniteliklerinin çıkarılması aşamasında kullanılmıştır.

Söz konusu uygulamanın çerçevesi konuşmacıya bağımlı, kelime tabanlı ve izole

kelime tanıma özellikleri temel alınarak belirlenmiştir. Elde edilen sonuçlar literatürdeki

benzer çalışmalarla kıyaslanmış olup, bu tezde önerilen metotların anılan çalışmalara

denk ve hatta daha başarılı sonuçlar verdiği görülmüştür.

2008, 76 sayfa

Anahtar Kelimeler: Yapay sinir ağları, sayısal sinyal işleme, izole kelime tanıma

Page 3: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

ii

ABSTRACT

B.S. Thesis

SPEECH RECOGNITION WITH ARTIFICIAL NEURAL NETWORKS

Gülin DEDE

Ankara University

Graduate School of Natural and Applied Sciences

Department of Electronics Engineering

Supervisor: Assist. Prof. Dr. Murat Hüsnü SAZLI

In this thesis, Artificial Neural Networks were reviewed and then some Speech

Recognition applications were carried out. Milestones in the evolution of neural

networks were mentioned. Throughout the study, some prominent training algorithms

and network topologies were examined. Widely applied network topologies, i.e. the

Multilayer Perceptron trained with back propagation algorithm, Elman Network and

Probabilistic Neural Network were scrutinized. Then, speech recognition applications

of these networks were compared. In the process of seeking solutions to the speech

recognition problem, besides the neural networks, the area of Digital Signal Processing

(DSP) were examined within the scope of the thesis. DSP techniques were used for

feature extraction from the words. Framework of the application was determined based

upon the following specifications: speaker’s voice characteristics, word related aspects,

and discrete word recognition properties. Results were compared with similar work

found in the literature. It was noticed that methods proposed in this thesis yield

comparable or even superior results.

2008, 76 pages

Key Words: Artificial neural networks, digital signal processing, discrete word

recognition

Page 4: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

iii

TEŞEKKÜR

Çalışmalarımı yönlendiren, araştırmalarımın her aşamasında bilgi, öneri ve yardımlarını

esirgemeyen danışman hocam sayın Yrd. Doç. Dr. Murat Hüsnü SAZLI’ya,

çalışmalarımı önerileriyle zenginleştiren değerli bölüm başkanımız sayın Doç. Dr.

Hakkı Gökhan İLK’e, çalışmalarım süresince desteğini daima hissettiğim sevgili eşime

ve beni bu günlere getiren aileme en derin duygularla teşekkür ederim.

Gülin DEDE

Ankara, Temmuz 2008

Page 5: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

iv

İÇİNDEKİLER

ÖZET.................................................................................................................................i

ABSTRACT.....................................................................................................................ii

TEŞEKKÜR....................................................................................................................iii

SİMGELER DİZİNİ......................................................................................................vi

ŞEKİLLER DİZİNİ......................................................................................................vii

ÇİZELGELER DİZİNİ...............................................................................................viii

1. GİRİŞ............................................................................................................................1

2. YAPAY SİNİR AĞLARI............................................................................................3

2.1 YSA’nın Tanımı.........................................................................................................3

2.2 YSA’nın Tarihsel Gelişimi........................................................................................4

2.3 YSA’nın Bileşenleri ve Yapısı...................................................................................6

2.3.1 Biyolojik nöron........................................................................................................6

2.3.2 Yapay nöron............................................................................................................8

2.3.3 YSA’nın yapısı.......................................................................................................11

2.4 YSA’nın Sınıflandırılması.......................................................................................12

2.4.1 Yapılarına göre YSA çeşitleri..............................................................................12

2.4.2 Öğrenme algoritmalarına göre YSA çeşitleri.....................................................14

2.4.3 Kullanılan veri türüne göre YSA çeşitleri..........................................................16

2.5 YSA’nın Eğitilmesi ve Testi....................................................................................17

2.5.1 YSA’nın eğitimi.....................................................................................................18

2.5.2 YSA’nın testi..........................................................................................................20

2.6 YSA Modelleri..........................................................................................................22

2.6.1 Çok katmanlı algılayıcı.........................................................................................22

2.6.2 Elman ağları..........................................................................................................23

2.6.3 Olasılıksal sinir ağları...........................................................................................25

2.7 YSA Özellikleri.........................................................................................................26

3. SAYISAL SİNYAL İŞLEME....................................................................................28

3.1 Temel Bilgiler...........................................................................................................28

3.2 Öznitelik Çıkarımı...................................................................................................30

3.2.1 Kayan pencereleme...............................................................................................31

Page 6: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

v

3.2.2 Pencereleme...........................................................................................................32

3.2.3 FFT.........................................................................................................................32

3.2.4 Mel-frekans dönüşümü.........................................................................................33

3.2.5 Kepstrum...............................................................................................................33

4. YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA UYGULAMASI..............34

4.1 Neden Konuşma Tanıma?.......................................................................................34

4.2 Konuşma Tanıma Uygulamalarının Sınıflandırılması.........................................35

4.2.1 Konuşmacı bağımlılığına göre sınıflandırma.....................................................36

4.2.2 Temel alınan ses birimine göre sınıflandırma....................................................36

4.2.3 Sesin sürekliliğine göre sınıflandırma.................................................................37

4.2.4 Metne göre sınıflandırma.....................................................................................37

4.3 Uygulama Çerçevesi................................................................................................38

4.4 Yazılım Geliştirme...................................................................................................39

4.5 Yazılım Kullanımı....................................................................................................48

4.5.1 Ağ seçimi................................................................................................................49

4.5.2 Eğitim.....................................................................................................................50

4.5.3 Test verisi ve test sinyali.......................................................................................53

4.5.4 Test sonucu............................................................................................................54

5. SONUÇ.......................................................................................................................56

5.1 Performans ve Sonuçlar..........................................................................................56

5.2 Literatürdeki Benzer Çalışmalar ..........................................................................66

5.3 Değerlendirme..........................................................................................................69

KAYNAKLAR...............................................................................................................72

ÖZGEÇMİŞ...................................................................................................................76

Page 7: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

vi

SİMGELER DİZİNİ

AWGN Additive White Gausien Noise

ÇKA Çok Katmanlı Algılayıcı

FFT Fast Fourier Transform

GUI Graphic User Interface

LPC Linear Predictive Coding

MFC Mel-Frequency Cepstrum

NNT Neural Network Toolbox

OSA Olasılıksal Sinir Ağı

PCM Pulse Code Modulation

SSİ Sayısal Sinyal İşleme

YSA Yapay Sinir Ağları

Page 8: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

vii

ŞEKİLLER DİZİNİ

Şekil 2.1 İnsan beyninin yapısı..........................................................................................6

Şekil 2.2 Biyolojik nöronun yapısı....................................................................................7

Şekil 2.3 Yapay nöronun yapısı.........................................................................................8

Şekil 2.4 Çeşitli aktivasyon fonksiyonları (a) Tek kutuplu basamak fonksiyonu,

(b) Çift kutuplu basamak fonksiyonu, (c) Doğrusal fonksiyon,

(d) Simetrik parçalı doğrusal fonksiyon, (e) Sigmoid fonksiyonu,

(f) Tanjant sigmoid fonksiyonu.......................................................................10

Şekil 2.5 İleri beslemeli ağ yapısı....................................................................................13

Şekil 2.6 Geri beslemeli ağ yapısı...................................................................................14

Şekil 2.7 Danışmanlı öğrenme.........................................................................................15

Şekil 2.8 Danışmansız öğrenme......................................................................................16

Şekil 2.9 Çok katmanlı algılayıcı yapısı..........................................................................23

Şekil 2.10 Elman sinir ağları yapısı.................................................................................24

Şekil 2.11 Olasılıksal sinir ağları yapısı..........................................................................25

Şekil 3.1 MFC blok diyagramı........................................................................................31

Şekil 4.1 Giriş matrisinin oluşturulması..........................................................................46

Şekil 4.2 Çıkış matrisinin oluşturulması..........................................................................47

Şekil 4.3 Konuşma tanıma sistemi uygulama penceresi..................................................49

Şekil 4.4 Eğitim ekranı....................................................................................................50

Şekil 4.5 Geri yayılımlı ÇKA eğitim penceresi...............................................................51

Şekil 4.6 Elman ağı eğitim penceresi..............................................................................52

Şekil 4.7 Test verisi ekranı..............................................................................................53

Şekil 4.8 Sonuç ekranı.....................................................................................................54

Şekil 5.1 Ortalama ağ başarımları...................................................................................61

Şekil 5.2 OSA yapısında kullanılan nöron sayısının, eğitim verisindeki örnek

sayısı ile değişimi............................................................................................64

Page 9: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

viii

ÇİZELGELER DİZİNİ

Çizelge 4.1 Konuşma tanıma sistemlerinin sınıflandırılması..........................................35

Çizelge 4.2 MFC hesabında kullanılan parametreler......................................................42

Çizelge 5.1 Geri yayılımlı ÇKA için doğruluk çizelgesi.................................................57

Çizelge 5.2 Elman ağı için doğruluk çizelgesi................................................................58

Çizelge 5.3 OSA için doğruluk çizelgesi........................................................................59

Çizelge 5.4 Ağ başarımları..............................................................................................60

Çizelge 5.5 Ortalama ağ başarımları...............................................................................61

Çizelge 5.6 OSA için geniş veri seti ile doğruluk çizelgesi...........................................63

Çizelge 5.7 OSA için gürültü ilaveli doğruluk çizelgesi.................................................65

Çizelge 5.8 Ağ yapıları arasındaki farklar.......................................................................67

Page 10: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

1

1. GİRİŞ

Yapay Zeka, insan beyninin çalışma sistemini anlamak ve bu sistemi taklit etmek üzerine

kurulmuş olan ve temelleri orta çağ düşünürlerine kadar uzanan eski bir paradigmadır.

Yapay Sinir Ağları ise bu köklü paradigmanın önemli araştırma ve uygulama alanlarından

biridir.

Yapay Sinir Ağları teknolojisi, 40’lı yıllara dayanan ilk uygulamalarından itibaren sürekli

bir gelişim içinde olmuştur. Yapay Sinir Ağlarına atfedilen pek çok çalışmaya ilham veren

ve gelişimindeki sürekliliği sağlayan temel husus ise insanoğlunun, günlük hayatında

büyük yer tutan bilgisayarlara, kendi yeteneklerini aktarma isteğidir. Bu sebepten ötürüdür

ki Yapay Sinir Ağları, üzerinde sıklıkla durulan ve geniş uygulama alanına sahip temel bir

disiplin olarak literatürde yerini almıştır.

Bu çalışmada, Yapay Sinir Ağları disiplini ile ilgili bilgilerin derlenmesi ve bu bilgiler

ışığında bir konuşma tanıma uygulaması yapılması hedeflenmiştir. Tezde ele alınan konular

sırasıyla Giriş, Yapay Sinir Ağları, Sayısal Sinyal İşleme, Yapay Sinir Ağları ile Konuşma

Tanıma Uygulaması ve Sonuç olmak üzere beş genel başlık altında araştırılmıştır.

İkinci bölümde Yapay Sinir Ağları (YSA) ile ilgili genel bilgilere yer verilmiştir. Bu

kapsamda YSA’nın tanımı, tarihsel gelişimi ile yapısı ve elemanları açıklanmıştır. Daha

sonra YSA’nın yapılarına, öğrenme algoritmalarına ve kullanılan veri türüne göre

sınıflandırılmasından bahsedilmiştir. Bölüm, YSA’nın eğitilmesi, test edilmesi,

uygulamada kullanılan YSA modelleri ve özelliklerinin açıklanması ile sonlandırılmıştır.

Üçüncü bölümde Sayısal Sinyal İşleme (SSİ) konusu ele alınmıştır. Bu bölümde SSİ ile

ilgili temel bilgilere yer verilmiştir. Uygulamada kullanılacak olan ses sinyalleri ile ilgili

açıklamalar yapılmış ve ses sinyallerinin özniteliklerinin hangi aşamalarla çıkarılabileceği

üzerinde durulmuştur.

Page 11: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

2

Dördüncü bölümde YSA ile bir konuşma tanıma uygulaması yapılması amaçlanmıştır. Bu

bölümde öncelikle, uygulama alanı olarak neden konuşma tanıma probleminin seçildiği,

literatürdeki konuşma tanıma uygulamalarının sınıflandırılması ve uygulamanın çerçevesi

gibi konulara açıklık getirilmiştir. Uygulamada kullanılan YSA modelleri olan Çok

Katmanlı Algılayıcı (ÇKA), Elman Ağları ve Olasılıksal Sinir Ağları (OSA) yapıları

Matlab programı ile gerçekleştirilmiştir. Ayrıca Matlab GUI (Graphic User Interface) ile

bir kullanıcı arayüzü yazılmıştır. Söz konusu yazılımın tasarım ve kullanımı etraflıca

anlatılmıştır.

Beşinci ve son bölümde ise farklı ağ yapıları ile elde edilen ağ performanslarına ve

sonuçlara yer verilmiştir. Bu sonuçlar üzerinde çeşitli değerlendirmeler yapılmıştır. Yanı

sıra ilerideki çalışmalar için önerilerde bulunulmuştur.

Page 12: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

3

2. YAPAY SİNİR AĞLARI

Bu bölümde, Yapay Sinir Ağları (YSA) teknolojisinin gelişimindeki kilometre taşları,

YSA’nın temel unsurları, çeşitli ağ yapıları ve bahse konu yapıların ne tür sistemlerde

kullanıldıkları ile YSA’nın özellikleri üzerinde durulmuştur. Yanı sıra, tasarım aşamaları

ileriki kısımlarda etraflıca anlatılacak olan konuşma tanıma sistemi benzetiminin çerçevesi

oluşturulmuş ve bu uygulamada kullanılacak olan YSA yapıları ön plana çıkarılmıştır.

2.1 YSA’nın Tanımı

YSA, evrensel bir tanımı olmamakla beraber çoğu bilim adamının “bir çok küçük bilgi

işleme biriminin bir araya gelmesiyle oluşturulan ağlar” olduğu üzerinde uzlaştıkları

yapılardır. Yanı sıra YSA, neredeyse her yayında farklı bir özelliği ya da uygulaması öne

çıkarılarak yeniden tanımlanmaktadır. Bu çalışmada, YSA’nın genel kabul gören ve

literatürde sıklıkla rastlanan üç farklı tanımına yer verilmiştir.

Teuvo Kohonen

“Bir YSA, paralel olarak bağlantılı ve çok sayıdaki basit elemanın gerçek dünyanın

nesneleriyle biyolojik sinir sistemine benzer yolla etkileşim kuran hiyerarşik bir

organizasyondur (Kohonen 1987).”

DARPA Neural Network Study

“Bir YSA, paralel olarak çalışan bir çok basit işlem elemanından oluşan ve fonksiyonu, ağ

yapısı, bağlantı ağırlıkları ve hesaplama elemanları ya da düğümlerde gerçekleştirilen

işlemler tarafından belirlenen bir sistemdir (Widrow 1988).”

Page 13: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

4

Simon Haykin

“Bir YSA, basit işlem birimlerinden oluşan, deneyimsel bilgi biriktirmeye yönelik doğal bir

eğilimi olan ve bunların kullanımına imkan veren, yoğunlukla paralel dağıtılmış bir

işlemcidir.

Bu işlemci iki şekilde beyne benzer.

1. Bilgi, ağ tarafından bir öğrenme süreciyle çevreden kazanılır.

2. Bilgi biriktirmek için sinaptik ağırlıklar olarak da bilinen nöronlar arası bağlantı

güçleri kullanılır (Haykin 1999).”

Özetle YSA, insan beynini model alan, nöron olarak adlandırılan basit işlem

elemanlarından meydana gelen, doğrusal olmayan ve yüksek karmaşıklığa sahip bir bilgi

işleme sistemidir.

2.2 YSA’nın Tarihsel Gelişimi

YSA’nın temelleri, McCulloch ve Pitts’in 1943 yılında yayınladıkları makale ile atılmıştır.

YSA’nın dayandığı ilk hesaplama modelinin ortaya koyulduğu bu makaleyi takip eden

önemli bir diğer yayın, 1954 yılında Farley ve Clark’ın uyarılara adaptif ve tepkisel

yaklaşım sergileyen bir ağ modelini konu alan çalışmalarıdır (Farley and Clark 1954).

Benzer bir diğer çalışma da 1956 yılında Rochester, Holland, Haibit ve Duda tarafından

gerçekleştirilmiştir (Rochester et al. 1956).

1958 yılında Rosenblatt’ın algılayıcıyı tasarlamasını takiben YSA benzetimlerinde önemli

ilerlemeler sağlanmıştır (Rosenblatt 1958). Ancak Minsky ve Papert’in, algılayıcının

doğrusal olmayan problemlerin çözümünde yetersiz olduğunu ispatlayan çalışmaları bu

ilerlemenin önünü nisbeten kapatmıştır (Minsky and Papert 1969).

Page 14: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

5

Buna rağmen YSA araştırmaları az sayıda bilim adamı tarafından sürdürülmüş ve kısmi

ilerlemeler kaydedilmiştir. Örneğin bu durgunluk döneminde Widrow tarafından 1960

yılında algılayıcıya getirilen farklı bir yaklaşımın ürünü olan Adaline (Adaptive Linear

Element) ise YSA teknolojisini analog bir elektronik cihaz kadar somutlaştırmıştır

(Widrow 1960).

60 ve 70’li yıllar boyunca yeni ağ yapıları ve öğrenme yöntemleri bulunup geliştirilmesi

üzerine sürdürülen teorik çalışmalar, 1975’te Fukushima’nın Cognitron’u tasarlamasından

sonra YSA tabanlı uygulamaların gerçekleştirilmesi üzerine yoğunlaşmıştır (Fukushima

1975).

Takip eden yıllarda bir kısım bilim adamının birbirlerinden habersiz olarak çok katmanlı

algılayıcıyı geliştirmeleri ve 1986 yılında Rumelhart ve arkadaşlarının geri yayılım

algoritmasını geliştirmesi ile doğrusal olmayan problemlere de yanıt vermeye ve

dolayısıyla daha fazla akademisyenin ilgisini çekmeye başlamıştır (Rumelhart et al. 1986).

1985’ten günümüze kadar yapılan çalışmalar ise YSA uygulamalarındaki çeşitliliği

arttırmış ve literatüre pek çok kaynak kazandırmıştır.

Günümüzde YSA ile gerçekleştirilen uygulamalar arasında tahmin, sistem modelleme ve

model sınıflandırma, iyileştirme, otomasyon ve kontrol, adaptif filtreleme, veri

ilişkilendirme, veri sıkıştırma, örüntü tanıma ve eşleştirme gibi pek çok karmaşık problem

yer almaktadır.

Page 15: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

6

2.3 YSA’nın Bileşenleri ve Yapısı

YSA teknolojisinin özü, insan biyolojik sinir sistemini taklit etme çabasıdır. Dolayısıyla

YSA’ları anlamak, söz konusu sinir sisteminin en temel unsuru olan insan beyninin yapısı

ve işleyişini bilmeyi gerektirir. Oysa insan beyni, hala sayısız bilinmeyeni olan hayli

karmaşık bir sistemdir ve çözülmesi günümüz teknolojisi ile dahi ulaşılması çok zor bir

hedeftir. Bu sebepten, burada sadece genel hatlarıyla insan beyninin yapısına ve bu yapının

temel taşları olan sinir hücrelerine değinilecektir.

Şekil 2.1 İnsan beyninin yapısı (Haykin 1999)

2.3.1 Biyolojik nöron

İnsanın biyolojik sinir sisteminin temel iletim elemanları sinir hücreleri, diğer adıyla

biyolojik nöronlardır.

Page 16: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

7

Şekil 2.2 Biyolojik nöronun yapısı (Nabiyev 2003)

Şekilde yapısı görülen bir biyolojik nöron, hücre gövdesi (soma), bu gövdeyi çevreleyen

dendritler ve gövdeye bağlı aksondan oluşmaktadır.

Biyolojik nöronlar, dendritleri vasıtasıyla diğer biyolojik nöronlardan gelen uyarıları alırlar.

Bu uyarılar, hücre içindeki elektrokimyasal bağlantıları sağlayan sinapslarla

ölçeklendirildikleri şekilde gövdeye iletilirler.

Bu iletim sırasında çok çeşitli ve biyokimyasal süreçler gelişir. Örneğin, sinyalin hızı gövde

boyunca çeşitli şekillerde arttırılır ve sinyal periyodik olarak tekrarlanır. Yanı sıra, hala tam

olarak açıklanamayan bazı biyokimyasal süreçler de iletimde rol oynamaktadır.

Sonuç olarak hücre boyunca iletilen sinyaller aksona ulaştığında belirli bir eşik değerinin

üzerindeyse nöron aktif, altındaysa nöron pasif olur.

Page 17: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

8

2.3.2 Yapay nöron1

Daha önce de bahsedildiği gibi biyolojik sinir sistemine ait en küçük bilgi işleme birimleri

biyolojik nöronlardır. Benzer şekilde, bu biyolojik nöronlardan esinlenilerek modellenen

yapay nöronlar da YSA’nın en küçük bilgi işleme birimleridir.

Tasarlanan yapay nöron modellerinde çeşitli farklılıklar olabilmektedir. Ancak, genel

itibariyle bir nöronun yapısı ve bileşenleri Şekil 2.3’de gösterildiği gibidir.

Şekil 2.3 Yapay nöronun yapısı

Girdiler: Girdiler, dış çevreden ya da sistemdeki diğer nöronlardan ulaşan bilgilerdir. Bu

bilgiler, ağın öğrenmesi istenen örnekler ile belirlenir.

1 Çalışmanın ilerleyen kısımlarında yapay nöron, kısaca nöron olarak adlandırılacaktır.

Page 18: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

9

Ağırlıklar: Ağırlıklar, bir nörona etki eden girdilerin matematiksel katsayılarıdır ve

bağlantılı oldukları girdilerin nöronu ne ağırlıkta etkileyeceğini belirler. Farklı bağlantı

noktaları için farklı ağırlık değerleri atanabilmektedir. Böylece ağırlıklar tüm nöronların

girdilerini etkilemiş olur.

Birleştirme fonksiyonu: Birleştirme fonksiyonu, toplama fonksiyonu olarak da

adlandırılmaktadır. Çünkü birleştirme fonksiyonları genellikle nörona gelen girdiler ile bu

girdilere ait ağırlıkların çarpımlar toplamını ifade eder. Bu fonksiyon, çarpımlar toplamının

yanı sıra maksimum, minimum, normalizasyon benzeri hesaplamaları içerebileceği gibi ağ

tasarımcısının kendi tanımladığı her hangi bir fonksiyon da olabilmektedir.

Aktivasyon fonksiyonu: Bu fonksiyon, birleştirme fonksiyonu ile elde edilen sonucu

seçilen bir aktivasyon işleminden geçirerek nöronun çıktısını belirler.

Aktivasyon fonksiyonları yapı itibariyle doğrusal olabildiği gibi, günlük hayatta

karşılaşılan karmaşık ve doğrusal olmayan problemlere çözüm getirilebilmesi için sıklıkla

doğrusal olmayan yapıda da olabilirler.

Çeşitli aktivasyon fonksiyonları mevcuttur. Şekilde görülen tek ve çift kutuplu basamak

fonksiyonları, doğrusal ve simetrik parçalı doğrusal fonksiyonlar, sigmoid fonksiyonu ile

tanjant sigmoid fonksiyonu yaygın olarak kullanılan aktivasyon fonksiyonlarıdır (Türksoy

2005).

Page 19: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

10

Şekil 2.4 Çeşitli aktivasyon fonksiyonları (a) Tek kutuplu basamak fonksiyonu, (b) Çift

kutuplu basamak fonksiyonu, (c) Doğrusal fonksiyon, (d) Simetrik parçalı doğrusal fonksiyon, (e) Sigmoid fonksiyonu, (f) Tanjant sigmoid fonksiyonu

Page 20: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

11

Tasarlanan yapıya en uygun aktivasyon fonksiyonu deneme-yanılma yoluyla en uygun

sonucu verecek şekilde seçilmelidir. Çünkü bu fonksiyonlar, birleştirme fonksiyonu

sonuçlarını seçilen aktivasyon fonksiyonuna uyarlayarak katmanların çıkışlarını belirli

değerlere sınırlandırır ve atandıkları katmandaki tüm nöronlara aynı şekilde etkirler.

Çıktılar: Aktivasyon fonksiyonu uygulanmasıyla elde edilen değer, nöronun çıktısıdır.

Çıktılar, diğer nöronlara girdi olabileceği gibi dış ortama çıktı olarak da gönderilebilirler.

Ancak burada dikkat edilmesi gereken nokta, bir nöronun birden fazla girdisi olabilmesine

rağmen sadece bir çıktısının olmasıdır.

2.3.3 YSA’nın yapısı

YSA yapıları, katmanlar halinde birleşen nöronlardan oluşmaktadır. Çeşitli ağırlık ve

fonksiyonlarla bir araya gelen nöronların oluşturduğu bu katmanlar da farklı yapılardadır.

Genel olarak bir YSA’da üç tip katman bulunur. Bunlar giriş katmanı, saklı katman(lar) ve

çıkış katmanıdır.

Giriş katmanı

Giriş katmanı, dış dünyadan gelen bilgilerin alındığı ve ağa sevk edildiği katmandır. Bu

katmanda bilgi işleme yapılmamaktadır.

Saklı katman(lar)

Bu katman(lar), girdi katmanı ile çıktı katmanı arasında yer alır. Giriş katmanından gelen

bilgiler, saklı katmanlar boyunca çeşitli algoritmalarla işlenerek çıkış katmanına gönderilir.

Bir YSA’da, gerçekleştirilmek istenen uygulamanın niteliğine göre bir veya daha fazla saklı

katman bulunabilir. Saklı katmanlar çeşitli kaynaklarda gizli katman veya ara katman

olarak da adlandırılmaktadır.

Page 21: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

12

Çıkış katmanı

Çıkış katmanı, saklı katman(lar)dan gelen bilgileri işleyerek YSA’nın çıkışını oluşturan

katmandır. Bir YSA’da tek çıkış katmanı bulunur.

Özetle YSA yukarıda yapıları açıklanan katmanların farklı uygulamalar için farklı

şekillerde tasarlanması ile çeşitlilik kazanırlar.

2.4 YSA’nın Sınıflandırılması

Ağ mimarisi, kullanılan öğrenme yöntemi, nöronların bağlantı stratejileri vb. farklılıklara

sahip çok sayıda YSA yapısı vardır. Genel olarak YSA üç ana kritere göre

sınıflandırılmaktadır. Bunlar ağın yapısı, öğrenme algoritması ve kullandığı veri türüdür.

2.4.1 Yapılarına göre YSA çeşitleri

YSA yapılarına göre ileri beslemeli ağlar ve geri beslemeli ağlar olarak sınıflandırılırlar.

İleri beslemeli ağlar

İleri beslemeli ağlar, adından da anlaşılacağı gibi nöronların ileri yönde işlemlerle sevk

edildiği, yani bir katmandaki nöronların gerideki katmanlarda değil, ilerideki katmanlarda

bağlantılarının bulunduğu ağ türleridir. İleri beslemeli ağlarda statik bir ağ yapısı söz

konusudur. Bu yapılarda döngülere yer verilmez ve sayesinde YSA çıktısı hızla

sonuçlandırılabilir.

Bu tür YSA’da nöronlar katmanlar halinde düzenlenir ve bir katmandaki nöronların

çıktıları belirli oranlarda ağırlıklandırılarak bir sonraki katmana iletilir. Bu şekilde saklı

katmanlar boyunca iletilen bilgiler çıkış katmanında işlenerek ağın çıktıları oluşturulur.

Page 22: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

13

İleri beslemeli ağların genel yapısı aşağıdaki şekilde görülmektedir.

Şekil 2.5 İleri beslemeli ağ yapısı

Geri beslemeli ağlar

Geri beslemeli ağlar, nöronların ileri yöndeki işlemlerin yanı sıra geri yönde işlemlere de

sevk edildikleri ağ türleridir. Yani bir katmandaki nöronların, yalnız ilerideki katmanlarla

değil kendi katmanları ve gerilerindeki katmanlarla da bağlantıları bulunur. Böylece

girdiler hem ileri hem de geri yönde iletilmiş olur.

Geri beslemeli ağlarda dinamik bir ağ yapısı söz konusudur. Bu tür ağ yapılarının önemli

bir özelliği bölgesel dağıtılmış hafızaya sahip olmalarıdır. Şöyle ki, ağın belirli bir andaki

çıktısı hem o andaki hem de daha önceki anlardaki girdilere ilişkin veriyi içermektedir.

Page 23: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

14

Şekil 2.6 Geri beslemeli ağ yapısı

Şekil 2.6’da geri beslemeli ağların genel yapısı görülmektedir. Bu ağlarda iletim hızı ileri

beslemeli ağlara kıyasla daha düşüktür. Bunun sebebi, geri besleme döngülerinin ağın

genelini belirli bir gecikmeye uğratmasıdır.

2.4.2 Öğrenme algoritmalarına göre YSA çeşitleri

YSA’da öğrenme, ağda yer alan nöronlar arasındaki ağırlıkların, ağın işlevini yerine

getirmek üzere ayarlanmasıdır. Bu ağırlıkların ne şekilde değiştirileceği öğrenme kuralları

ile belirlenir. Öğrenme algoritmaları genel olarak iki başlıkta toplanabilir. Bunlar,

danışmanlı ve danışmansız öğrenmedir.

Page 24: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

15

Danışmanlı öğrenen ağlar

Danışmanlı öğrenme, YSA’nın gerçek çıktısı ile beklenen çıktısı arasındaki farkın,

belirlenen bir hata değerine ulaşılana değin azaltılarak ağın nihai çıktısının bulunmasına

odaklı bir öğrenme algoritmasıdır. Burada öğrenme algoritmasına ismini veren danışman

esas itibariyle ağın beklenen çıktısıdır.

Bu algoritmaya göre ilk ağırlık değerleri genelde rassal olarak belirlenir ve hedeflenen

farka ulaşılana kadar döngüler halinde değiştirilir.

Danışmanlı öğrenen ağlara örnek olarak geri yayılım algoritması ile eğitilen çok katmanlı

algılayıcı verilebilir. Şekilde danışmanlı öğrenme gösterilmiştir.

Şekil 2.7 Danışmanlı öğrenme

Page 25: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

16

Danışmansız öğrenen ağlar

Danışmansız öğrenme, adından da anlaşılabileceği gibi danışman gereksinimi olmadan,

yani ağın gerçekleştirilmesi istenen davranışı kendi kendine öğrenebildiği bir algoritmadır.

Danışmansız öğrenen ağlarda girdiler, ağ tarafından daha detaylı yorumlanır ve aralarındaki

benzerlikler ortaya çıkarılır. Bu tür ağlar, söz konusu özelliklerinden dolayı genellikle

sınıflandırma problemlerinin çözümünde tercih edilir.

Danışmansız öğrenme algoritmasında, sadece YSA’nın girdileri üzerinde işlem yapıldığı

için danışmansız öğrenen ağların hızı, danışmanlı öğrenen ağlara göre daha yüksek

olmaktadır. Şekilde yapısı görülen bu ağlara örnek olarak öz örgütlemeli haritalar ve ART

(Adaptive Resonance Theory) ağları verilebilir.

Şekil 2.8 Danışmansız öğrenme

2.4.3 Kullanılan veri türüne göre YSA çeşitleri

Bir diğer sınıflandırma da YSA’da girdi olarak kullanılan verinin türüne göre

yapılmaktadır. Buna göre YSA, niteliksel veri kullanan ağlar ve niceliksel veri kullanan

ağlar olarak iki grupta toplanırlar.

Page 26: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

17

Niteliksel veri kullanan ağlar

Niteliksel veri kullanan ağlar, YSA girdilerinde kalitatif veri olarak da adlandırılan

niteliksel verinin kullanıldığı ağ türüdür. Bu ağ türü, desen oluşturma ve sınıflandırma

problemlerinde kullanılmaktadır.

Niceliksel veri kullanan ağlar

Niceliksel veri kullanan ağlar, YSA girdilerinde kantitatif veri olarak da adlandırılan

niceliksel verinin kullanıldığı ağ türüdür. Bu ağ türü, genelleme ve tahmin problemlerinde

kullanılmaktadır.

2.5 YSA’nın Eğitilmesi ve Testi

Bir YSA’nın eğitilmesi ve test edilmesi, tasarlanan ağ yapısının performansının

değerlendirilmesi açısından önemlidir.

YSA’da eğitim işlemi, ağda bulunan nöronlar arasındaki bağlantılara ait ağırlık değerlerinin

YSA’nın girişindeki veriler doğrultusunda ve ağın çıkışının bulunmasına yönelik olarak

ayarlanması şeklinde özetlenebilir. Burada amaç, ağ girdileri için hedeflenen doğru çıktıları

verecek ağırlık değerlerinin hesaplanmasıdır.

YSA’da test işlemi ise, ağ parametrelerinde bir değişiklik yapılmaksızın ağın istenilen

davranışı gerçekleştirip gerçekleştiremediğinin sınanması işlemidir.

YSA’da eğitim ve test işlemlerine ilişkin esaslar ilerleyen başlıklarda açıklanmaktadır.

Page 27: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

18

2.5.1 YSA’nın eğitimi

YSA’nın istenilen davranışı göstermesi için öncelikle bir veri seti ile eğitilmesi

gerektiğinden bahsedilmişti. Ağın girişine uygulanan bu veri seti, eğitim seti olarak

adlandırılmaktadır.

Eğitim setinin YSA’ya öğretildiği bu süreçte önemli rol oynayan bazı eğitim parametreleri

ile öğrenme kuralları mevcuttur.

Eğitim parametreleri

Bir YSA tasarlanırken, ağı tanımlamak üzere çeşitli eğitim parametreleri kullanılır ve bu

parametrelere uygun değerler deneme-yanılma yöntemi ile belirlenir. En temel eğitim

parametreleri ve açıklamaları aşağıda sunulmuştur.

Yineleme sayısı (Epoch) : Yineleme sayısı, YSA’nın eğitilebilmesi için giriş verisinin

ağdaki çevrim sayısıdır.

Hedef (Goal) : YSA’nın çıkışında, hedeflenen sonuca ne hata oranı ile yaklaşılacağını

belirleyen parametredir. Ağın eğitilmesi işlemi, belirlenen hata oranına ulaşılana kadar

sürer.

Öğrenme oranı (Lr - Learning rate) : Bu parametre, YSA eğitiminin bir nevi

yoğunluğunu ifade eder. YSA’da kullanılan öğrenme kuralı ile ilgili olarak belirlenir.

Öğrenme kuralları ile ilgili genel bilgiler takip eden başlıkta verilecektir.

Page 28: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

19

Bir YSA’nın eğitiminde iki aşama vardır. İlk aşama, ağın mevcut girişe göre üreteceği

çıktının belirlenmesidir. İkinci aşama ise bu çıktının hedeflenen hata değerinden uzaklığına

göre ağırlıkların yeniden belirlenmesidir. YSA’da eğitim sürecindeki bu belirleyici rolü

üstlenen bir takım algoritmalar vardır. Bu algoritmalar öğrenme kuralları olarak

adlandırılır.

Öğrenme kuralları

Nöronlar arasındaki ağırlıkların değiştirilme yöntemi, öğrenme kurallarından hangisinin

uygulandığına göre farklılıklar gösterir. Temel öğrenme kuralları Hebb kuralı, Hopfield

kuralı, Delta kuralı ve Kohonen kuralıdır. (Öztemel 2006)

Hebb kuralı : Hebb tarafından geliştirilen bu öğrenme kuralı biyolojik sinir ağlarının

işleyişinden esinlenmektedir (Hebb 1949). Daha sonra geliştirilen çeşitli öğrenme

kurallarına esin kaynağı olan bu öğrenme kuralında, bir yapay sinir hücresinin diğer bir

yapay sinir hücresinden girdi alması ve her iki hücrenin polaritelerinin aynı olması

durumunda söz konusu hücreler arasındaki bağlantı ağırlığı arttırılır.

Delta kuralı : Widrow ve Hoff, Hebb kuralını biraz daha geliştirerek Delta kuralını

bulmuşlardır (Widrow and Hoff 1960). Yaygın kullanıma sahip bu öğrenme kuralı en

küçük kareler (LMS - Least Mean Square) kuralı olarak da adlandırılmaktadır. Buna göre,

YSA’nın beklenen çıktısı ile mevcut çıktısı arasındaki farkın karesi, bağlantı ağırlıkları

değiştirilerek minimize edilmeye çalışılır.

Hopfield kuralı : Hopfield kuralı, Hebb kuralına benzer bir algoritmadır. Ancak burada

Hebb kuralında olduğu gibi ağırlıkların değiştirilmesine ilaveten yapılacak olan bu

değişikliğin miktarı da belirlenmektedir. Her yinelemede ne derece değişiklik yapılacağı ise

tasarımcının belirlediği bir öğrenme katsayısı oranınca olur. Girdi ve çıktı nöronlarının her

ikisi de aynı polariteye sahipse bağlantı ağırlıkları öğrenme katsayısı kadar arttırılır, farklı

polariteye sahipse öğrenme katsayısı kadar azaltılır (Hopfield 1982).

Page 29: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

20

Kohonen kuralı : Kohonen tarafından geliştirilen bir öğrenme kuralıdır (Kohonen 1982).

Bu kural, nöronların YSA’ya verilen girdileri öğrenmek üzere birbirleri ile yarışmaları

esasına dayanır. Eğitim setinin beklenen çıktısına en uygun sonucu üreten nöronların

ağırlıkları ayarlanarak sonuca olan etkileri kuvvetlendirilir. Sonuca yakın nöronların

ağırlıkları 1’e yakınsarken sonuca uzak nöronların ağırlıkları 0’a yakınsar. Bir diğer deyişle

yarışı ağırlıkları 1 olarak ayarlanan nöronlar kazanır.

YSA’nın yukarıda sıralanan öğrenme kurallarından veya benzerlerinden birisi ile eğitiminin

tamamlanmasından sonra, tasarımın istenilen davranışı gösterip göstermediğinin test

edilmesi gerekmektedir.

2.5.2 YSA’nın testi

Herhangi bir problemin olası giriş ve çıkışlarının YSA’ya öğretilmesinden sonra, söz

konusu ağ bu probleme ait bir test seti ile sınanır. Ancak test seti, eğitim setinde yer

almayan örneklerden oluşmalıdır. Diğer taraftan; test işleminde, YSA’nın ağırlıklarının

ayarlandığı eğitim işleminden farklı olarak YSA’nın ağırlık değerleri değiştirilmez ve

sadece ağın çıktısı hesaplanır.

YSA’nın iyileştirilmesi

YSA yapılarında belirli parametrelerin iyileştirilmesi ile ağın genel performansında daha iyi

sonuçlar elde etmek mümkündür. Örneğin bir problem için ağın tasarımında kullanılması

gereken saklı katman sayısı ve bu katmanlardaki nöron sayılarının, nispeten karmaşık bir

problem için arttırılması uygun bir tercih olacaktır. Ancak YSA’daki işlem elemanları

arttırılırken ağdaki toplam işlem yükü ve dolayısıyla sistem hızı göz önünde

bulundurulmalıdır.

Page 30: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

21

Bir YSA’da kullanılan eğitim ve test verisinin belirlenmesi de en az nöron sayısı kadar

önemlidir. Bu veri setleri ile ilgili en önemli nokta, söz konusu verinin yeterli olup

olmadığıdır. Eğitim verisinin mümkün olduğunca fazla tutulması YSA’nın daha iyi

öğrenmesine katkı sağlar. Yanı sıra, ele alınan problemin karmaşıklığı arttıkça kullanılan

eğitim setinin büyütülmesi de benzer netice verecektir. Ancak bu veri setleri için yanlış

tercihlerin yapıldığı durumlarda “aşırı uydurma (overfitting)” ve “yetersiz uydurma

(underfitting)” gibi istenmeyen sonuçların ortaya çıkması olasıdır (Haykin 1999). Aşırı

uydurma, sinir ağları terminolojisinde “aşırı öğrenme (overtraining)” olarak da bilinir.

Aşırı uydurma : Ağın gereğinden fazla sayıda nöron kullanılarak eğitilmesi durumunda

ortaya çıkan ve YSA’nın genel performansını olumsuz etkileyen bir durumdur. Ağ, bu

durumda eğitilmekten öte eğitim setini ezberler.

Yetersiz uydurma : Ağın gereğinden az sayıda yani yetersiz nöron kullanılarak ve

dolayısıyla tam anlamıyla eğitilememesi sonucu meydana gelen bir durumdur. Ağ,

hedeflenen davranışı yeterince tanıyamadığı için çıkışta kararsızlıklar gözlemlenir.

Sonuç olarak bir YSA; hedeflenen sonucu elde etmek üzere, deneme-yanılma yoluyla

belirlenen farklı parametrelerle tasarlanabilir ve elde edilen sonuçlara göre sınanan ağ

yapılarının hangisinin en iyi olduğuna karar verilir. Zaman zaman aynı parametrelerle farklı

sonuçlara ulaşılması ise ağın, bir lokal minimum veya maksimum değerde takılması gibi

durumlarla açıklanabilir.

Page 31: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

22

2.6 YSA Modelleri

YSA disiplini geniş bir araştırma alanı olup literatürde 100’den fazla ağ modeli ve bunların

kullanıldığı çok çeşitli uygulamalar mevcuttur. Popüler ağ modelleri arasında çok katmanlı

algılayıcılar, radyal tabanlı fonksiyonlar, Hopfield ağları, öz örgütlemeli haritalar, ART

ağları ve hücresel sinir ağları sayılabilir. Ancak burada yalnızca konuşma tanıma

probleminde kullanılan ağ yapılarına yer verilecektir.

2.6.1 Çok katmanlı algılayıcı

YSA teknolojisinin ortaya çıktığı ilk yıllarda en çok eleştirildiği husus gerçek dünyada

karşılaşılan problemlerin çoğunlukla doğrusal olmaması ve doğrusal yapıdaki YSA’nın bu

tür problemlerin çözümü için yetersiz bir teknik olduğuydu. Ancak Rumelhart, Hinton ve

Williams tarafından geliştirilen bir ağ yapısı olan Çok Katmanlı Algılayıcı (ÇKA) ile bu

sorunun üstesinden gelinmiştir (Rumelhart et al.1986).

ÇKA’lar, ağın beklenen çıktısı ile ağın ürettiği çıktı arasındaki farkı minimize edecek

şekilde eğitilir. Ağın yapısı ileri beslemelidir ve döngü içermez. Dolayısıyla bu yapı ile

sonuca hızla ulaşılabilmektedir.

Genel olarak ÇKA yapısı bir giriş katmanı, en az bir saklı katman ve bir çıkış katmanından

oluşur. Giriş katmanı problemin girdi sayısına bağlı olarak belirlenen sayıda nörondan

oluşur. Ağda bulunan saklı katman sayıları ve bu katmanlarda bulunan nöron sayıları ise

deneme-yanılma yöntemi ile belirlenir. Şekilde örnek bir ÇKA yapısı görülmektedir.

Page 32: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

23

Şekil 2.9 Çok katmanlı algılayıcı yapısı

Bu ağ modeli birçok öğrenme algoritmasının kullanımına imkan sağlar ve bu sebepten

mühendislik uygulamalarında yaygın olarak kullanılır. ÇKA’lar özellikle tanıma, veri

sınıflandırma ve genelleme problemlerinde başarılı sonuçlar vermektedir.

2.6.2 Elman ağları

Elman ağları, yineleyici (recurrent) YSA yapılarına bir örnek olmakla beraber, temelde iki

katmanlı geri yayılımlı ağlardır (Elman 1990). Ancak burada, diğer geri yayılımlı ağlardan

farklı olarak ilk saklı katmanın çıkışından yine aynı katmanın girişine doğru bir geri

besleme döngüsü mevcuttur. Bu geri besleme döngüsü, Elman ağlarının tahmin, tanıma ve

eğri uydurma gibi alanlarda kullanılmasına imkan sağlar.

Page 33: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

24

Şekil 2.10 Elman sinir ağları yapısı

Şekil 2.10’da örnek bir Elman ağ yapısı görülmektedir. Elman ağlarında ilk saklı katman

tanjant sigmoid, ikinci katman ise doğrusal transfer fonksiyonlarına sahip nöronlardan

oluşmaktadır. Bu nöron kombinasyonu iki katmanlı ağların eğri uydurma problemlerindeki

başarımını arttıran özel bir yapıdır. Bu yapı korunarak nöron sayısı uygun şekilde

arttırıldığında Elman ağları ile daha karmaşık problemlerin çözümü de mümkün

olmaktadır.

Page 34: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

25

2.6.3 Olasılıksal sinir ağları

Olasılıksal Sinir Ağları (OSA), nöronlar arası bağlantı ağırlıklarının olasılık yoğunluk

fonksiyonundan istifadeyle hesaplandığı bir YSA yapısıdır (Specht 1988, 1990).

İstatistiksel temeli nedeniyle sınıflandırma problemlerinde yaygın olarak kullanılmaktadır.

Bir OSA; giriş katmanı, iki adet saklı katman ve çıkış katmanı olmak üzere dört katmandan

oluşmaktadır. Bu yapıda, ilk saklı katmanda giriş verisinin eğitim verisine olan uzaklığı

hesaplanır. İkinci saklı katmanda ise ilk katmanda hesaplanan uzaklıklar toplanır ve net

çıkış vektörü olasılıkları bulunur. Bu şekilde model sınıfları oluşturulmuş olur. Çıkış

katmanında ise bu model sınıflarından en yüksek olasılığa sahip model sınıfı ile YSA’nın

çıktısı belirlenir. Şekilde örnek bir OSA yapısı görülmektedir (Makal 2007).

Şekil 2.11 Olasılıksal sinir ağları yapısı

Page 35: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

26

Bu tür ağlarda eğitim aşaması genellikle ÇKA’lardan daha hızlı olmakla beraber

sınıflandırma işlemi daha uzun sürebilmektedir. Ancak diğer ağlara göre daha kesin

sonuçlar elde etmek mümkündür.

2.7 YSA Özellikleri

Doğrusal olmama

Doğrusal yöntemler, karmaşık problemlerin çözümünde yetersiz kalmaktadır. Ancak YSA

teknolojisi gücünü karmaşık problemlere getirdiği basit çözümlerden almaktadır. Bu

avantajı sağlayan temel unsur ise YSA’nın temel bilgi işleme elemanı olan nöronların ve

dolayısıyla ağın bütünün doğrusal olmayan yapısıdır.

Öğrenme

Alışılagelmiş yöntemlerle çözüm aranan problemler çoğunlukla kendi özelinde

çözümlenmeye çalışılmıştır. Oysa bileşenlerinin ilişkileri tam anlamıyla tanımlanamayan

problemler de olasıdır. Bu tür durumlarda insan beyninin öğrenme ve öğrenilenler

doğrultusunda karar verme yetisi öne çıkmaktadır. YSA da benzer şekilde problemleri

eğitim aşamasında ağa verilen bilgilerle çözer. Dolayısıyla çözülecek problemdeki

değişiklikler için ağın değil, eğitim verisinin yani YSA’ya öğretilenlerin değiştirilmesi

yeterlidir. Öğrenme, gerek uygulama kolaylığı gerekse çözüm kabiliyeti olarak ortaya çıkan

önemli bir özelliktir.

Genelleme

Öğrenme, yukarıda bahsedilenlerin yanı sıra YSA’ya genelleme yapılabilmesi gibi bir diğer

önemli özellik daha kazandırmaktadır. Genellemenin önemi ise YSA’ya girilen veride

gürültü, hata, eksiklik olması gibi durumlarda dahi YSA çıkışında doğru sonuçlar elde

Page 36: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

27

edilebilmesidir. Bu özellik sayesinde örüntü tanıma ve sınıflandırma problemleri için

başarılı bir teknik olmuştur.

Paralellik

Bilgi işleme sistemlerinde gözetilmesi gereken önemli bir husus işlem hızıdır. Ancak

problem bütününün tüm parçalarının sırasıyla işlendiği seri yöntemler karmaşık işlemler

için hayli yavaşlatıcı olmaktadır. Bu sebepten YSA’nın paralel bilgi işleme özelliği

problemlere getirdiği hızlı çözümler sayesinde büyük önem taşır, çünkü gerçek zamanlı

sistemlerin temeli paralel bilgi işleme yöntemlerinde yatmaktadır.

Hata toleransı

Paralel bilgi işleme sistemlerinde problem, parçalar halinde ele alındığı ve sistemin her bir

elemanı ayrı bir parçanın çözümünü gerçekleştirdiği için olası hatalara karşı daha büyük

tolerans vardır. Tasarımdaki bu esneklik sayesinde, ağın herhangi bir kısmının zarar

görmesi ağın tamamının işlevini yerine getirememesi anlamına gelmediği gibi sadece,

işlevselliğini kaybeden nöronlar oranında bir performans kaybıyla tatminkar sonuçlar elde

edilebilir.

Tasarım ve analiz kolaylığı

Tüm YSA tasarımlarının temelinde, YSA’nın en küçük yapay bilgi işleme elemanı olan

nöronlar yer alır . Daha önce de bahsedildiği gibi nöronlar yaklaşık olarak aynı yapıdadır ve

bu benzerlik sayesinde farklı uygulama alanlarında standart ağ yapılarının ve öğrenme

algoritmalarının kullanım imkanı vardır. Teoride aynı olan yöntemlerin ise uygulamada

tasarım ve analiz kolaylığı sağlaması olağandır.

Page 37: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

28

3. SAYISAL SİNYAL İŞLEME

Sayısal Sinyal İşleme (SSİ) teknolojisi, adından da anlaşıldığı gibi sinyallerin sayısal

yöntemlerle işlenmesini konu alır.

Bir sayısal sinyal, herhangi bir bilgi katarının sayısal ifadesidir. Bu çerçevede sinyaller

bize pek çok şeyi ifade edebilmektedir. Sinyal işleme disiplini ise bahsedilen bu bilgi

katarları üzerindeki çalışmaların genel ifadesidir. Ancak sayısal sinyal işleme denildiğinde

sinyallerin nümerik hesaplamalar ile işlendiği anlaşılır.

3.1 Temel Bilgiler

Bu çalışmada, detaylarına 4. kısımda değinilecek olan konuşma tanıma problemi ele

alınmıştır. Bu problem için YSA’da kullanılacak veri setleri ses sinyallerinden

oluşmaktadır. İlerleyen başlıklarda ses sinyallerinin işlenmesi ve YSA’nın girdisi olarak

kullanılacak öz nitelik vektörlerinin çıkarımı ile ilgili temel tanımlara kısaca yer

verilmektedir.

Ses sinyali : Katı, sıvı ya da gaz ortamda bulunan bir ses kaynağı tarafından üretilen

titreşimler dizisine ses sinyali denir. İnsana ait ses sinyali ise en basit şekliyle,

akciğerlerden havanın dışarı atılması ile oluşan akımın insanın ses sisteminden geçirilmesi

sonucu yayılan dalgalardır.

Frekans : Periyodik bir sinyalin kendisini tekrarlama süresine frekans denir. Frekansın

sembolu f ve birimi Hertz’dir. Ses sinyalleri için önemli bir özellik olan frekans, sinyallerin

frekans bölgesinde incelenmesi halinde gözetilen temel parametredir.

Page 38: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

29

Nyquist frekansı : Analog bir ses sinyali örneklenirken, söz konusu sinyalin yeniden

oluşturulabileceği şekilde yeterli sayıda örnek ile ifade edilmesi gerekir. Uygun örnekleme

frekansının yarı değeri Nyquist frekansı olarak bilinir ve FN ile gösterilir. Bu özelliğin

matematiksel ifadesi aşağıda verilmiştir.

FS > 2 FN

Burada FS , örneklenen sinyale ait örnekleme frekansıdır.

Genlik : Sesin bir diğer karakteristiği genliğidir. Bir ses sinyali, kaynağının oluşturduğu

basınç değerine göre yumuşak ya da yüksek olabilmektedir. Basınç değerleri, havanın

sıkıştırılma gücüne göre değişir. Bu gücün ölçüsü ise decibel birimidir ve dB sembolü ile

ifade edilir. Desibel hesabı aşağıda görülmektedir.

n = 10 log 10 ( P2 / P1 )

Yukarıdaki formülde yer alan P1 ve P2 değişkenleri sırasıyla, referans noktasının ve ses

sinyalinin güç değerleridir.

PCM : PCM (Pulse Code Modulation), darbe kod modülasyonu tekniğinin kısaltılmış

adıdır. PCM, basit oluşunun yanı sıra yaygın kullanıma sahip bir nicemleme yöntemidir. Bu

nicemleme yöntemi tezde kullanılan ses verisinin kaydedildiği .wav formatında da

kullanılmaktadır.

FFT : FFT (Fast Fourier Transform), hızlı Fourier dönüşümü algoritmasının kısaltılmış adı

olup, ayrık Fourier dönüşümü algoritmasının hızlı şeklidir. FFT algoritması, zaman

bölgesindeki ses sinyalinin frekans bölgesine dönüşümünü sağlar.

Page 39: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

30

Spektrum : Spektrum, ses sinyalinin frekans yoğunluğunun belirli aralıklarla alınması ile

oluşturulan ifadesidir. Spektrum aynı zamanda periyodogram olarak da adlandırılmaktadır.

Bir ses sinyalinin spektrumu çeşitli yöntemlerle hesaplanabilir. FFT ise bu yöntemlerden en

önemlisidir.

LPC : LPC (Linear Predictive Coding), doğrusal öngörüsel kodlama tekniğinin kısaltılmış

adıdır. LPC, insan gırtlağı, ağız yapısı ve ses özelliklerinin modellendiği bir sayısal analiz

tekniğidir. Bu teknik, sıradaki örneğin önceki bir dizi örnekten yaklaşık olarak elde

edilebileceği prensibine dayanır. LPC analizi ile elde edilen sayılar LPC katsayıları (LPCC)

olarak adlandırılır.

MFC : MFC (Mel-Frequency Cepstrum), mel frekansı kepstrum tekniğinin kısaltılmış

adıdır. MFC, insan kulağının davranışını taklit eden ve FFT tabanlı olarak hesaplanan bir

sayısal analiz tekniğidir. Sebebi, bu algoritmanın insan duyma sisteminden esinlenilerek

tasarlanmış olan mel frekans ölçeğine göre hesaplanmasıdır. MFC analizi ile elde edilen

sayılar MFC katsayıları (MFCC) olarak adlandırılır.

3.2 Öznitelik Çıkarımı2

Bir konuşma tanıma uygulamasında, ses sinyallerinin tanınabilmesi için öncelikle bu

sinyallerin doğru şekilde ifade edilmesi gerekmektedir. Diğer bir deyişle, incelenen ses

sinyalinin içinde barındırdığı ve yalnızca tanınması hedeflenen kelimeye ait unsurlar

belirlenmelidir. Daha sonra belirlenen bu unsurların bir öznitelik vektörü ile ifade edilmesi

gerekir.

2 Öznitelik vektörünün belirlenmesine yönelik bu aşama konuşma tanıma sistemlerinin ön-işleme kısmı olarak da adlandırılmaktadır.

Page 40: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

31

Ses sinyallerinin özniteliklerinin hesaplanması için çeşitli yöntemler vardır. Bu çalışmada

kullanılacak öznitelik vektörü ise MFC katsayıları ile oluşturulacaktır. Söz konusu

katsayıların hesaplandığı bir MFC algoritmasının blok diyagramı şekilde görülmektedir.

Şekil 3.1 MFC blok diyagramı

Yukarıdaki şekilde görülen aşamalar ilerleyen satırlarda açıklanmaktadır.

3.2.1 Kayan pencereleme

Kayan pencereleme işlemi, ses sinyalinin belirli örnek sayılarına göre bölündüğü aşamadır.

Birisi diğerinden küçük olacak şekilde belirlenen iki örnek sayısı uyarınca bölümlenen

sinyal, bu bölümler üst üste bindirilerek yeni bir forma sokulur.

Örneğin ilk pencere M, ikinci pencere ise N örnekle oluşturulduğunda; ikinci çerçeve ilk

çerçeveden M örnek kadar sonra başlar ve ilk çerçevenin N-M çerçeve kadar üzerine

kaydırılır. Bu şekilde ilerideki aşamalarda ses sinyaline uygulanacak olan FFT için daha

uygun bir zemin elde edilir.

Page 41: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

32

3.2.2 Pencereleme

Pencereleme işleminde, bir önceki işlem olan kayan pencereleme ile elde edilen sinyal bir

pencereden geçirilerek süreksiz kısımları atılır. Böylece öznitelik vektörüne katkı

sağlamayacak katsayıların azaltılması amaçlanmıştır. Yaygın olarak kullanılan pencere

yapısı Hamming penceredir. Bu pencerenin tanımlayıcı fonksiyonu aşağıda verilmiştir

(Marven 1996).

w (n) = 0.54 – 0.46 cos [2πn/(N-1)] , N -1 ≥ n ≥ 0

3.2.3 FFT

Bu aşamada, çerçevelenen ve pencerelenen ses sinyalinin genlik spektrumunun incelenmesi

gerekir. Pencerelenmiş sinyalin genlik spektrumu ise FFT kullanılarak elde edilir.

N tane örnekle ifade edilen bir sinyal seti için FFT hesaplaması aşağıdaki şekilde yapılır

(Marven 1996).

Burada Xn , FFT’si alınmak istenilen sinyal seti, N ise bu sette mevcut örnek sayısıdır.

Ayrıca N, örnek sayısının

N = 2 m , m ∈ Z t

eşitliğini sağlaması gereklidir.

Page 42: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

33

3.2.4 Mel-frekans dönüşümü

Mel birimi, insan kulağını taklit edecek şekilde, sübjektif olarak tasarlanmış bir birimdir.

Diğer bir deyişle mel birimi doğrusal bir frekans eksenine göre değil, insan kulağının hangi

sesi nasıl algıladığına göre geliştirilmiştir (Stevens et al. 1937). Bu birimle oluşturulan

doğrusal olmayan seriye ise mel ölçeği denir. Mel ölçeği ile frekans ölçeği arasındaki

dönüşüm aşağıda verilen eşitlikle sağlanmaktadır.

f mel = 2595 log 10 ( 1 + f doğrusal / 700 )

Buna göre mel ölçeği 1000 Hz.’den düşük frekanslar için doğrusal, 1000 Hz.’den yüksek

frekanslar için ise logaritmik değerlerde dağılım gösterecektir. Bu algısal spektrumu

uygulamanın bir yolu mel ölçeğine göre dağılım gösterecek filtreler tasarlamaktır. Söz

konusu filtreler sabit mel frekans aralıklarıyla dizilirler. Üçgen ve band geçiren

özelliktedirler.

3.2.5 Kepstrum

Son aşama olan kepstrum hesaplamasında sırasıyla, frekans ve zaman bölgelerine geri

dönüş söz konusudur. Öncelikle mel frekans dönüşümü ile elde edilen mel filtre

bankalarının çıktılarının logaritması hesaplanır. Daha sonra bu sonuçlara ayrık Fourier

dönüşümü uygulanarak frekans bölgesinden zaman bölgesine geçiş sağlanır. Böylece

incelenen sinyale ait MFC katsayıları elde edilmiş olur.

İlerleyen aşamalarda incelecek ses sinyallerine ait öznitelik vektörleri bu katsayılar ile

oluşturulacaktır.

Page 43: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

34

4. YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA UYGULAMASI

Bu çalışmada, Yapay Sinir Ağları ile bir Konuşma Tanıma uygulaması gerçekleştirilmiştir.

4.1 Neden Konuşma Tanıma?

Bu çalışmada konu olarak Yapay Sinir Ağları ile Konuşma Tanıma probleminin tercih

edilmesinin çeşitli sebepleri vardır. Bu sebepler özetle aşağıdaki şekilde sıralanabilir.

• Konuşma tanıma problemi, literatürde geniş yer tutan örüntü tanıma alanının bir alt

konusudur ve bu problem özelinde elde edilen sonuçlar tüm literatüre katkı sağlar

niteliktedir.

• Konuşma tanıma, insanların günlük hayatta kolaylıkla gerçekleştirdiği ancak

bilgisayarlarla gerçekleştirmek için karmaşık bir problemdir.

• Konuşma tanıma probleminin çözülmesi, insanlara has bilişsel yeteneklerin

bilgisayarlara aktarılması çalışmalarında önemli bir kilometre taşıdır.

• Konuşma tanıma problemi, YSA’nın karmaşık problemlerdeki başarımının

değerlendirilmesi açısından önemlidir.

• Konuşma sinyalleri, çeşitli sayısal sinyal işleme tekniklerinin başarıyla

uygulanabileceği bir çalışma alanıdır.

• Konuşma sinyalleri, YSA’da kullanılacak olan veri setlerinin kolaylıkla elde

edilebileceği sinyal örnekleridir.

• Konuşma tanıma, çeşitli otomasyon ve güvenlik sistemlerinde yaygın kullanım

alanı olabilecek bir uygulamadır.

Page 44: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

35

4.2 Konuşma Tanıma Uygulamalarının Sınıflandırılması

Literatürde yer alan ses ile ilgili uygulamalar çok çeşitlidir. Şekilde ses sinyalleri ile ilgili

olarak yapılan çalışmaların dört ayrı kritere göre sınıflandırılması görülmektedir.

Çizelge 4.1 Konuşma tanıma sistemlerinin sınıflandırılması

KONUŞMA TANIMA

Konuşmacı Bağımlılığına Göre

1. Konuşmacıya bağımlı konuşma tanıma

2. Konuşmacıdan bağımsız konuşma tanıma

Temel Alınan Ses Birimine Göre

1. Kelime tabanlı konuşma tanıma

2. Fonem tabanlı konuşma tanıma

Sesin Sürekliliğine Göre

1. İzole kelime tanıma

2. Bağlı kelime tanıma

3. Sürekli konuşma tanıma

Metne Göre

1. Metne dayalı konuşma tanıma

2. Metinden bağımsız konuşma tanıma

Page 45: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

36

4.2.1 Konuşmacı bağımlılığına göre sınıflandırma

Konuşma tanıma sistemleri; konuşmacı bağımlılığına göre kişiye bağımlı ve kişiden

bağımsız tanıma olmak üzere 2 başlıkta sınıflandırılır.

Konuşmacıya bağımlı : Bu tür sistemlerde konuşmacıların ses özellikleri de

seslendirdikleri kelimelerle birlikte sistemde modellenmektedir. Dolayısıyla kişiye bağımlı

sistemlerde farklı bir kişinin seslendirdiği kelimelerin tanınması için sistemde mevcut

modellerin aynı konuşmacının seslendirmeleri ile güncellenmesi gerekmektedir.

Konuşmacıdan bağımsız : Bu tür sistemlerde konuşmacıların ses özellikleri,

seslendirdikleri kelimelere yansıtılmayacak şekilde modellenir. Dolayısıyla kişiden

bağımsız sistemlerde farklı bir kişinin seslendirdiği kelimeler de tanınabilmektedir. Ancak

kişiden bağımsız sistemler, kişiye bağımlı sistemlere nazaran daha detaylı bir modelleme

çalışması gerektirir.

4.2.2 Temel alınan ses birimine göre sınıflandırma

Konuşma tanıma sistemleri; temel alınan ses birimine göre kelime tabanlı ve fonem tabanlı

tanıma olmak üzere 2 başlıkta sınıflandırılır.

Kelime tabanlı : Bu tür sistemlerde gerçekleştirilen tanıma işleminin en küçük unsuru

kelimelerdir. Ancak, uygulamada yüksek doğruluk derecesini beraberinde getiren bu

sistemlerde gereksinimler daha fazladır. Bu sebepten kelime tabanlı sistemlerde, kelime

kapasitesi kısıtlı tutulur ve komuta kontrol uygulamalarında kullanılırlar.

Fonem tabanlı : Bu tür sistemlerde gerçekleştirilen tanıma işleminin en küçük unsuru

fonemlerdir. Fon, kelimelerin seslendirilişi esnasında ağızdan çıkan her bir ses, fonem ise

bu fonlardan birisinin değiştirilmesi ile anlamı değişen en küçük ses birimidir.

Page 46: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

37

Temel birim olarak kelimeler yerine fonemler ele alındığında, sistem gereksinimleri

azalmakla beraber tasarlanan sistemlerin doğruluk derecesi kelime tabanlı sistemlerden

daha düşük olmaktadır. Yanı sıra, fonemlerin başlangıç ve bitişlerinin birbirlerinden

ayırdedilebilmesi detaylı ses bilgisi gerektiren, çözülmesi zor bir problemdir (Yalçın 2006).

4.2.3 Sesin sürekliliğine göre sınıflandırma

Konuşma tanıma sistemleri; sesin sürekliliğine göre izole kelime, bağlı kelime ve sürekli

konuşma tanıma olmak üzere 3 başlıkta sınıflandırılır.

İzole kelime : Bu tür sistemlerde, konuşmacının seslendirdiği kelimeler arasında belirli

sürelerle boşluklar olması beklenir ve bu boşluklar arasında seslendirilen kelimelerin

birbirlerinden bağımsız olarak tanınması yoluna gidilir. Kimi zaman her bir kelime

üzerinde manuel olarak boşluklar temizlendikten sonra sayısal analiz işlemlerine geçilir.

Bağlı kelime : Bu tür sistemlerde, konuşmacının seslendirdiği kelimeler arasında daha kısa

boşluklar bırakılması gerekmektedir. Bu tür sistemlerin bir ileri aşaması konuşmacının,

seslendirdiği kelimeler arasında beklemediği sürekli konuşma tanıma sistemleridir.

Sürekli konuşma : Bu tür sistemlerde, konuşmacı herhangi bir bekleme süresi

gözetmeksizin olağan şekilde bir hız ve vurgulama ile konuşur. Sürekli konuşma tanıma,

insanlardan bilgisayarlara yönelen sesle iletişim arayüzü olabilecek bir teknoloji olup

bilgisayarlara dikte ile yazı yazdırılması konusunda uygulama bulabilmektedir.

4.2.4 Metne göre sınıflandırma

Konuşma tanıma sistemleri; tanınması hedeflenen metne göre metne dayalı konuşma

tanıma ve metinden bağımsız konuşma tanıma olmak üzere 2 başlıkta sınıflandırılır.

Page 47: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

38

Metne dayalı konuşma tanıma : Bu tür sistemlerde kullanılan test verisi, eğitim verisi ile

sınırlı tutulur. Yani sistem, eğitimde kullanılan kelimelerin farklı seslendirilişleri ile test

edilir.

Metinden bağımsız konuşma tanıma : Bu tür sistemler, ağın eğitiminde kullanılan

kelimelerin yanı sıra bu kelimelerin eğitim dışı farklı kombinasyonlarına da cevap

verebilen yapıdadır. Metinden bağımsız konuşma tanıma sistemlerinde, örneğin ağın

eğitiminde “bir” ve “on” kelimeleri ile kullanılıyorsa, sistemin “onbir” kelimesini de

tanıması öngörülür.

4.3 Uygulama Çerçevesi

İnsan sesi, uzun yıllardır yoğun olarak araştırılmasına rağmen gerek oluşumu gerekse

niteliği itibariyle hala pek çok bilinmeyeni olan oldukça karmaşık bir olgudur. Dolayısıyla

bu çalışmadaki konuşma tanıma uygulaması belirli bir çerçeve ile sınırlı tutulmuştur.

Bu kapsamda:

• Konuşmacıya bağımlı olma,

• Kelime tabanlı olma,

• İzole kelimeler kullanma ve

• Metne dayalı olma

kriterlerine sahip bir Konuşma Tanıma sistemin tasarımı üzerinde durulmuştur.

İncelenen konu ve uygulama alanı her ne olursa olsun, niteliksel ve niceliksel karşılaştırma

pozitif bilimlerin önemli bir basamağıdır. Dolayısıyla, YSA yapıları ve bu yapıların işleyişi

ile ilgili daha iyi bilgi edinilmesi amacıyla, yukarıda kriterleri belirlenen aynı temel

konuşma tanıma uygulaması farklı ağ yapıları ile gerçekleştirilmiştir.

Page 48: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

39

Söz konusu ağ yapıları:

• Geri yayılımlı ÇKA,

• Elman ve

• OSA

yapılarıdır.

Bu ağ yapılarının tercih edilmesi temelde deneme yanılma yöntemi ile kararlaştırılmıştır.

Tasarlanan pek çok ağ yapısı içerisinden; geri yayılımlı ÇKA, Elman ve OSA yapıları,

konuşma tanıma problemindeki başarımlarının görece yüksek olmasına dayanılarak tercih

edilmiştir. Yanı sıra literatürde örüntü tanıma problemlerinin çözümü için önerilen ağ

yapıları incelenmiş ve konunun, bu sonuçları destekler nitelikte olup kabul gören çeşitli

makalelerle desteklendiği görülmüştür (Rothkrantz and Nollen 1999, Lin 2000, Azam et al.

2007).

4.4 Yazılım Geliştirme

Bu çalışma kapsamında, YSA ile Konuşma Tanıma uygulamasının benzetimi amacıyla bir

bilgisayar programı geliştirilmiştir. Yazılım ortamı olarak Matlab 7.0 programı ve anılan

programa ait Neural Network Toolbox (NNT) araçları ile Graphic User Interface (GUI)

tasarım ortamları kullanılmıştır. Bu yazılım ile Türkçe seslendirilen izole rakamları

konuşmacıya bağımlı olarak tanıyan bir sistem hedeflenmiştir.

Söz konusu sistem, sayısal sinyal işleme teknikleri kullanılarak ses sinyallerinin

özniteliklerinin çıkarılması ve bu özniteliklerin yapay sinir ağları ile sınıflandırılması

esasına dayanmaktadır. Takip eden başlıklarda bu esaslar etraflıca anlatılmaktadır.

Page 49: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

40

Bir konuşma tanıma uygulamasında, ses sinyallerinin tanınabilmesi için öncelikle bu

sinyallerin doğru şekilde ifade edilmesi gerekmektedir. Diğer bir deyişle, incelenen ses

sinyalinin içinde barındırdığı ve yalnızca tanınması hedeflenen kelimeye ait unsurlar

belirlenmelidir. Daha sonra belirlenen bu unsurların bir öznitelik vektörü ile ifade edilmesi

gerekir. Dolayısıyla ilk aşama, ses sinyallerinin doğru bir şekilde sayısal olarak

kaydedilmesidir.

Bu çalışmada bir bayan konuşmacıdan ses örnekleri alınmıştır. Konuşmacıdan, 0’dan 9’a

kadar (sıfır, bir, iki, üç, dört, beş, altı, yedi, sekiz, dokuz) olan kelimeleri yirmişer defa

seslendirmesi istenmiştir. Bu veri setinin seçilmesinin sebebi, çalışmanın literatürdeki diğer

örnekleriyle mukayese edilebilmesi, ayrıca bu kelimelerle gerek yoğunluk gerekse anlam

yönüyle uygun bir veri tabanı oluşturulabilmesidir.

Bu seslerin kayıt işlemi Goldwave programı ile gerçekleştirilmiştir. Kayıt parametreleri

11,025 kHz. frekans değeri ve 16 bit PCM kodlama olarak belirlenmiştir.

Literatürde ses kayıtlarının kelimenin uzunluğuna bakılmaksızın 0,8 saniyelik kayıt

süreleriyle alındığı çalışmalar vardır (Ahad et al. 2002, Azam et al. 2007). Bu gibi kayıt

süresini kısıtlayan tercihler seslerin kaydedilme sürecini büyük ölçüde kolaylaştırsa da bir

konuşma tanıma uygulamasının en önemli aşaması olan kayıt işlemini hata yapılmasına

açık hale getirmektedir. Çünkü kelimelerin seslendirilişleri ile kayıt işleminin aynı anda

başlatılmasında güçlükler yaşanmakta ve çoğunlukla konuşmacı ile kayıtları alan

uygulayıcı arasında tam bir senkronizasyon sağlanamamaktadır. Ayrıca seslendirilen

kelimenin uzunluğundan dolayı kayıt süresinin aşılması veya kelimeyi ifade eden tüm

bileşenlerin kaydedilememiş olması da muhtemel bir hatadır.

Page 50: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

41

Diğer taraftan, kayıt süresinin arttırılması ile bu gibi olumsuzlukların ortadan

kaldırılabileceği akla gelmektedir. Ancak bu durumda da gereğinden uzun süre kayıt

alınmasıyla beraber işlenmesi gereken verinin yanı sıra ses kayıtlarından temizlenmesi

gereken ve kayıt şartlarından kaynaklanan gürültünün artacağı göz önünde

bulundurulmalıdır. İşlenecek olan verinin artması en genel anlamda sistemi olası hatalara

karşı daha zayıf kılmakta, ayrıca bilgisayar daha fazla işlem yükü getirerek sistem

performansını olumsuz yönde etkilemektedir.

Sıralanan tüm nedenlerden dolayı bu çalışmada ses kayıtları kelimelerin uzunlukları ile

doğru orantılı sürelerle kaydedilmiştir. Böylece kelimelerin eksik kaydedilmesinin ve kayıt

süresinin uzun tutulması ile artacak olan işlem yükünün önüne geçilmesi hedeflenmiştir.

Yani sıra kelimelerin başlangıç ve bitişleri sinyallerin enerji kareleri toplamı ile bulunarak

daha etkin bir veri alma süreci sağlanmıştır (Rabiner and Samber 1975).

Sonraki aşama bu ses sinyallerinin özniteliklerinin hesaplanmasıdır ve bunun için çeşitli

yöntemler mevcuttur (Lippmann 1989, Rabiner and Juang 1993). Bu çalışmada kullanılan

öznitelik vektörlerinin hesaplanmasında, üçüncü bölümdeki Sayısal Sinyal İşleme başlığı

altında detayları verilen MFC katsayıları kullanılmaktadır. Yine aynı bölümde anılan

katsayıların hesaplandığı MFC algoritmasının blok diyagramına da yer verilmiştir. Bu blok

diyagramda mevcut işlemler Matlab programı ile, her biri için ayrı .m dosyaları

hazırlanarak, sırasıyla gerçekleştirilmiştir. Bu işlemlerde kullanılan parametreler Çizelge

4.2’de sunulmaktadır.

Page 51: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

42

Çizelge 4.2 MFC hesabında kullanılan parametreler

Örnekleme hızı 11,025 kHz.

Veri seti Türkçe rakamlar

Konuşmacı 1, bayan

Tekrar sayısı 20

Pencere fonksiyonu Hamming

Pencere sayısı 256

FFT noktası 512

MFC katsayı adedi 16

Yukarıdaki parametreler kullanılarak, Matlab’de oluşturulan MFCC.m dosyası ile her bir

kelime için 16 adet Mel-frekans katsayısı belirlenmiştir. Bir kelimenin doğru ifade

edilebilmesi için 16 katsayının yeterli olup olmadığı ise, diğer ağ parametrelerinin de

benzer şekilde belirlendiği gibi, deneme-yanılma yöntemi ile kararlaştırılmıştır.

Daha sonra bu katsayılar kullanılarak ve yine her bir kelime için ayrı ayrı olmak üzere,

uzunlukları kelimelerin uzunlukları ile orantılı 10 adet öznitelik vektörü oluşturulmuştur.

Takiben, elde edilen öznitelik vektörleri ile kelimelerin modellenmesi ve test edilmek

istenen kelimelerin bu modellere göre sınıflandırılması süreci gelmektedir. Bu çalışmanın

modelleme ve veri sınıflandırma kısmında, aynı zamanda çalışmanın esas konusunu teşkil

eden ve yanı sıra, örüntü tanıma problemlerinde sıklıkla kullanılan başarılı bir sınıflandırıcı

olan YSA tercih edilmiştir (Haykin 1999, Öztemel 2006).

Page 52: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

43

Literatürde çeşitli ağ modellerinin kullanıldığı pek çok çalışma mevcuttur. Ancak bu tür

çalışmalarda genellikle tek bir ağ modeli kullanılmakta ve o modelin performansı üzerinde

durulmaktadır. Burada diğer çalışmalardan farklı olarak çok katmanlı algılayıcı, Elman

ağları ve olasılıksal sinir ağları olmak üzere üç ağ modeli kullanılmıştır. Böylece genel

sistem performansının yanı sıra göreceli ağ performanslarının da değerlendirilmesi imkanı

doğmuştur.

Uygulamada kullanılan geri yayılımlı ÇKA, Elman ve OSA yapıları, Matlab NNT’de

mevcut olan ve sırasıyla newff, newelm, newpnn komutları ile gerçekleştirilmiştir. Bu

ağların seçilmesindeki başlıca kriter yapılan literatür taraması ile ulaşılan bilgilere göre

örüntü tanıma problemlerindeki genel başarımları olmuştur. Yanı sıra tasarım ve uygulama

kolaylığı, ağın eğitilmesi için gereken sürenin az olması, ağın işlem yükünün hafifliği gibi

diğer bazı kriterler de gözetilmiştir. Söz konusu üç ağ türünün konuşma tanımadaki

başarımlarına bu tezin sonuç kısmında değinilecektir.

Yukarıda sıralanan ağ modellerine ilişkin tasarım parametreleri deneme-yanılma

yöntemiyle belirlenmiş ve aşağıdaki başlıklarda verilmiştir.

Geri yayılımlı ÇKA

Geri yayılımlı ÇKA modelinin tasarımı için Matlab programı work dizininde mevcut

egit1.m dosyasında yazılan kod satırları aşağıda sunulmuştur.

newff ( [20 20 15 10], {'tansig', 'tansig', 'tansig’, 'purelin'});

NNet_CurveFitting.trainParam.epochs = 200;

NNet_CurveFitting.trainParam.goal = 1e-6;

Page 53: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

44

Kod satırlarında da görüldüğü gibi ağ yapısı üç adet saklı katman ve bir adet çıkış

katmanından oluşmaktadır. İlk iki saklı katmanın her birinde 20’şer, üçüncü saklı katmanda

15 ve çıkış katmanında 10 adet nöron kullanılmıştır. Bu nöronlardan saklı katmanlarda yer

alanlar tanjant sigmoid, çıkış katmanında yer alanlar ise doğrusal transfer fonksiyonlarına

sahiptir. Ayrıca ağın eğitim aşamasında kullanılacak olan yineleme sayısı 200 ve ulaşılması

hedeflenen ortalama karesel hata oranı ise milyonda bir olarak tasarlanmıştır.2

Elman ağı

Elman ağının tasarımı için Matlab programı work dizininde mevcut egit2.m dosyasında

yazılan kod satırları aşağıda sunulmuştur.

newelm ( [40 30 10], {'tansig', 'tansig', 'logsig'});

NNet_CurveFitting.trainParam.epochs = 1000;

NNet_CurveFitting.trainParam.goal = 1e-6;

Bu satırlarda da görüldüğü gibi ağ yapısı iki adet saklı katman ve bir adet çıkış

katmanından oluşmakta ve bu katmanlarda sırasıyla 40, 30 ve 10 adet nöron bulunmaktadır.

Ayrıca bu nöronlardan saklı katmanlarda yer alanlar tanjant sigmoid ve doğrusal, çıkış

katmanında yer alanlar ise logaritmik sigmoid transfer fonksiyonları kullanmaktadır. Ayrıca

ağın eğitim aşamasında kullanılacak olan yineleme sayısı 1000 ve ulaşılması hedeflenen

ortalama karesel hata oranı ise milyonda bir olarak tasarlanmıştır.3

2, 3 Sistem, eğitim aşamasında bu değerlerden hangisine daha önce ulaşırsa o parametre esas alınarak eğitim

işlemi sonlandırılmaktadır.

Page 54: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

45

OSA

OSA tasarımı için Matlab programı work dizininde mevcut egit3.m dosyasında yazılan kod

satırı aşağıda sunulmuştur.

NNet_CurveFitting = newpnn(giris,cikis);

Bu ağ yapısı için tasarım işlemi önceki iki ağ yapısından eğitim yönüyle farklıdır. Çünkü

burada, ağa verilen ilk giriş-çıkış eşleşmeleri için ağırlıklar belirli bir olasılık fonksiyonu

uyarınca değiştirildiğinden kullanıcı ağın eğitimi aşamasını görmemektedir. Bu aşamada

ağ, spread olarak tanımlanan ve olasılık fonksiyonunun yoğunluğunu ayarlamaya yardımcı

bir dağılım sabitinin uygun değere ayarlanması ile şekillendirilmektedir. Deneme-yanılma

yoluyla ağ tasarlanırken, bu değer 0,1’e yakınsa ağın en yakın komşu sınıflandırıcı gibi

davrandığı gözlemlenmiştir. Değer 0,1’den arttıkça ise diğer vektörler de ağın çıkışını

etkilemeye başlamakta ve çıkışlar daha dağınık olabilmektedir.

Kullanılan OSA yapısı, iki adet saklı katman ve bir adet çıkış katmanından oluşmakta ve bu

katmanlarda sırasıyla 310, 10 ve 10 adet nöron bulunmaktadır. Dağılım sabiti ise 0,1

alınmıştır.

Ağda, 10 olan çıktı sayısı 11 olarak değiştirildiğinde, tanınması hedeflen dışındaki

kelimelerle yapılan testlerde sonuç “TANIMSIZ” olarak alınabilmiştir. Bunun nedeni,

herhangi bir durum için olasılıklar toplamının 1 olması ve olasılık fonksiyonun sonuçta bir

değere yakınsaması gerekliliğidir. Bu gereklilik, Konuşma Tanıma uygulamasında test

edilen 10 kelimeye ilaveten “TANIMSIZ” olarak kaydedilen bir ses ile sağlanmıştır.

Böylece ağa, bu 10 kelimeden birisine adresleyemediği sonuçların tanımsız olarak

değerlendirilmesi öğretilebilmiştir.

Page 55: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

46

Uygulamada kullanılacak olan her üç ağın da yukarıdaki başlıklarda verilen parametrelerle

tasarlanmasından sonra, eğitim ve test aşamalarının gereksinimleri yerine getirilmelidir.

Seslerin özniteliklerinin çıkarılması aşamasında 10 kelimenin her birinin 20 defa

seslendirilmesi sonucu toplam 200 sesten oluşan bir veri tabanı elde edilmiştir. Bu veri

tabanındaki seslerden %20’si ağın eğitimi, %80’i ise ağın testi için ayrılmıştır.

YSA modellerinin eğitim aşamasında kullanılacak olan ve 40 sesten oluşan veri, aşağıda

açıklandığı şekilde düzenlenerek giriş ve çıkış matrisleri oluşturulmuştur.

Öncelikle her bir ses sinyali için ayrı ayrı hesaplanan MFC katsayıları tek matriste

birleştirilmiş ve giris.mat olarak saklanmıştır. Şekilde, giriş matrisinin oluşturulması için

örnek bir form görülmektedir.

Şekil 4.1 Giriş matrisinin oluşturulması

Sonrasında, her ses sinyalinin MFC katsayılarına karşılık gelecek şekilde 0 ve 1

değerlerinden oluşan çıkış matrisi oluşturulmuş ve cıkıs.mat olarak saklanmıştır.

Page 56: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

47

Şekil 4.2 Çıkış matrisinin oluşturulması

Böylece seslendirilen kelimelerin öz niteliklerinden oluşan “giriş” ve bu desenlerin

sınıflandırıldığı “çıkış” matrisleri oluşturulmuş ve ağ eğitilmiştir.

Test aşamasına gelindiğinde daha önce eğitilmiş olan ağ, aşağıdaki kod satırı ile

benzetilmiştir.

y = sim(NNet_CurveFitting,c5);

Bu benzetim neticesinde oluşan çıkış matrisinde,

Geri yayılımlı ÇKA için:

• (y(i,k)<1.50) & (y(i,k)>0.50) aralığında yer alan değerler 1’e ve

• (y(i,k)<0.50) & (y(i,k)>-0.50) aralığında yer alan değerler 0’a

Elman ağları için:

• (y(i,k)<1.30) & (y(i,k)>0.70) aralığında yer alan değerler 1’e ve

• (y(i,k)<0.30) & (y(i,k)>-0.30) aralığında yer alan değerler 0’a

dönüştürülmüş.

Page 57: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

48

Tüm satırlardaki “1” adetleri ayrı ayrı hesaplanarak, satırlar birbirleri ile mukayese

edilmiştir. En fazla sayıda “1” içeren satırın karşılığı olan kelimenin:

En büyük 1 adedi > Öznitelik değerinin uzunluğu/2

kriterini sağlaması durumunda tanıma işlemi tamamlanmış, tanınan kelime, aşağıdaki kod

satırı ile hesaplanan başarı yüzdesi ile birlikte kullanıcıya sunulmuştur.

(En büyük 1 adedi*100)/Tüm satırlardaki toplam 1 adedi

Eğer seslendirilen kelimenin tanınması için gerekli kriter sağlanamamışsa, kelime tanıma

uygulaması sonucunun “TANIMSIZ” olduğu ibaresi ile kullanıcı bilgilendirilmektedir.

Yazılım, kullanım kolaylığı sağlanması amacıyla Matlab programı GUI modülü ile

desteklenmiş ve bir uygulama ara yüzü hazırlanmıştır. Eğitim, Ağ seçimi, Test verisi, Test

sinyali ve Test sonucu pencerelerine yer verilen bu ara yüz sayesinde kullanıcının yapılan

işlemleri daha kolay takip edebilmesi amaçlanmıştır. Böylece test işlemleri daha kolay

gerçekleştirilebilmekte, farklı ağ modelleri ve kelimelere ilişkin sonuçlar birbirleriyle hızla

mukayese edilebilmektedir.

4.5 Yazılım Kullanımı

Bu tez çalışması kapsamında hazırlanan Konuşma Tanıma programının başlatılması için

Matlab programı çalıştırılıp work dizinindeki KONUSMATANIMA.m dosyası açılır. Ekrana

gelen editor penceresindeki kod run komutuyla işlenerek ilgili GUI başlatılır. Açılan

uygulama penceresi aşağıda görülmektedir.

Page 58: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

49

Şekil 4.3 Konuşma tanıma sistemi uygulama penceresi

Ara yüzdeki diğer kısımlara ilişkin bilgiler uygulamadaki kullanım sırasına göre aşağıda

sunulmaktadır.

4.5.1 Ağ seçimi

Açılan pencerede geri yayılımlı ÇKA, Elman ve OSA ağlarına ait işaret kutucuklarından

hangisine tıklanırsa o ağ aktif olmakta ve aktif edilen ağ yapısına ait eğitim algoritması

kullanılmaktadır. Aşağıdaki Şekil 4.3’te ağ yapısı olarak geri yayılımlı ÇKA ağının

seçildiği görülmektedir.

Page 59: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

50

4.5.2 Eğitim

Ağ seçimini takip eden aşama eğitim aşamasıdır. Bu aşamada, bir önceki adım olan ağ

seçiminde hangi yapı tercih edilmişse o yapıya uygun şekilde ağın eğitilmesi işlemi

gerçekleştirilmektedir. İlerideki aşamalar için de bu ayarlar geçerli olacaktır.

Şekil 4.4 Eğitim ekranı

Page 60: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

51

Eğit butonuna tıklandığında açılan eğitim penceresi ile eğitim işleminin detayları

gözlenmektedir. Tasarlanan ağlardan geri yayılımlı ÇKA ve Elman ağları için ekrana gelen

eğitim pencereleri sırasıyla aşağıda sunulmuştur.

Şekil 4.5 Geri yayılımlı ÇKA eğitim penceresi

Page 61: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

52

Şekil 4.6 Elman ağı eğitim penceresi

Ancak OSA modeli için gerçekleşen eğitim aşaması geri yayılımlı ÇKA ve Elman ağları

için gerçekleşen eğitim aşamasından daha farklıdır. Çünkü olasılıksal ağlarda eğitim işlemi

ağın tasarlanması aşamasında verilen ilk parametrelerle gerçekleşmektedir. Dolayısıyla ağ

eğitimi aşamasında olasılıksal ağlar seçildiğinde uygulamada herhangi bir eğitim penceresi

açılmamaktadır.

Page 62: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

53

4.5.3 Test verisi ve test sinyali

Test verisinin seçilmesi ve ağ performansının bu veri ile test edilmesi işlemi test verisi

butonuna tıklanıp açılan penceredeki .wav formatlı ses kayıtlarından ilgili olanın seçilmesi

ile gerçekleştirilir. Seçilen ses kaydına ait örnekleme sayısına göre genlik grafiği de yine

aynı pencerede görülmektedir.

Şekil 4.7 Test verisi ekranı

Grafiğin sol alt köşesindeki çift ok butonuna tıklanarak seçilen ses kaydının dinlenmesi

imkanı da ayrıca mevcuttur.

Page 63: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

54

4.5.4 Test sonucu

Uygulamanın sonuç bölümü, seçilen YSA’nın konuşma tanıma işlemini gerçekleştirmesi

beklenen kısımdır. Bir önceki ekranda görülen tanı butonu ile kelimenin sorgulanmasını

müteakip test verisine göre üretilen sonuç ekranda görülür.

Diğer bir deyişle tanı butonu, ağın asıl fonksiyonunu gerçekleştirmekte ve YSA sonucunu

kullanıcıya sunmaktadır. Bu şekilde kullanıcı ağın başarılı olup olmadığını görebilmektedir.

Örneğin, geri yayılımlı ÇKA ile “YEDİ” kelimesinin tanınması işlemi için ağın verdiği

sonuç aşağıda görülmektedir.

Şekil 4.8 Sonuç ekranı

Page 64: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

55

Burada; YSA’nın ne derece başarılı olduğunun görülebilmesi amacıyla, seslendirilen

kelime doğru olarak tanınsa dahi doğru eşleştirilen katsayıların sayısının çıkış verisi

boyutuna yüzde cinsinden oranına da yer verilmiştir.

Şekil 4.9’daki ekrana göre ağın ürettiği sonuç yüzde olarak görülmekte ve test edilen

kelimenin “%100” olarak tanındığı belirtilmektedir. Burada elde edilen sonuç değeri,

tanınması hedeflenen ses sinyalinden alınan örneklerin ne kadarının doğru olarak teşhis

edildiğinin bir ölçüsüdür.

Böylece kelime doğru tanınsa dahi bu değer %100 olmayabilir, fakat bu durum

derinlemesine bir inceleme yapılabilmesi için özellikle tercih edilmiştir. Hangi ses

sinyalinin doğru olarak tanınabilmesi için ne kadar katsayının tanınması gerektiğini

belirleyen kriterler yazılım içerisinde, deneme-yanılma yöntemiyle ve ses sinyalinin

uzunluğuyla orantılı olarak kararlaştırılmıştır. Bu oranın, bir sinyal için 1/3 iken bir diğeri

için 1/2 olabildiği görülmüştür. Ancak bu uygulamada incelenen ağ modellerinin

birbirleriyle eşit kriterlerde mukayese edilebilmesi için en iyi sonucu veren 1/2 değeri

seçilmiş ve her üç yapıda da aynen kullanılmıştır.

Page 65: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

56

5. SONUÇ

Konuşma tanıma problemi esas itibariyle bir örüntü tanıma problemidir. Ses sinyalleri,

belirli kelimelerin farklı seslendirme kayıtlarında benzer sinyal formları ortaya koyarlar. Bu

sayede bir kelimenin zamana göre frekans değerlerine dağılmış olan ifadesi, o kelimenin

örüntüsü olarak değerlendirilir. Dolayısıyla, bu örüntülerden yola çıkılarak YSA ile çeşitli

kelime tanıma uygulamaları, basit birer fonksiyon uydurma problemi gibi yaklaşılarak

gerçekleştirilebilmekte, yanı sıra yüksek başarımlar elde edilmektedir.

Bu çalışmada gerek YSA’nın konuşma tanıma uygulamasındaki başarımının araştırılması,

gerekse farklı ağ modellerinin birbirleriyle mukayese edilmesi amacıyla geri yayılımlı

ÇKA, Elman ağı ve OSA olmak üzere üç tür ağ modeli kullanılmış, yüksek tanıma

oranlarına ulaşılmıştır. İlerleyen satırlarda bu konulara değinilerek elde edilen performans

ve ulaşılan sonuçlar değerlendirilecek, konuşma tanıma probleminin YSA ile çözümü

konusunda çeşitli değerlendirmelere yer verilecektir.

5.1 Performans ve Sonuçlar

Mühendislik uygulamalarının başarımı çok çeşitli ölçütlerle değerlendirilmekle beraber en

temel ölçüt, hedeflenen sonuca ulaşılıp ulaşılamadığıdır. Yanı sıra hedeflenen bu sonuca ne

derece etkin olarak ulaşıldığı da gözetilen bir diğer ölçüttür. Bu ise genel olarak bir

sistemin verimliliğini, yani burada ele alınan şekliyle performansını ifade eder.

Bu tezde ele alınan konuşma tanıma uygulamasında geri yayılımlı ÇKA, Elman ağı ve OSA

yapıları için elde edilen test sonuçları birbirleriyle ve literatürdeki benzerleriyle mukayese

edilmiştir. Bunun için tanınması hedeflenen kelimeler, her biri 16 defa olmak üzere toplam

160 defa seslendirilmiş ve tüm ağ modelleri ile test edilmiştir. Her ağ modeli için doğruluk

çizelgeleri oluşturulmuştur.

Page 66: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

57

Çizelge 5.1 Geri yayılımlı ÇKA için doğruluk çizelgesi

Sıfır Bir İki Üç Dört Beş Altı Yedi Sekiz Dokuz Doğruluk yüzdesi

Sıfır 16 - - - - - - - - - 100

Bir - 15 1 - - - - - - - 93,75

İki - - 16 - - - - - - - 100

Üç - - - 16 - - - - - - 100

Dört 1 - - - 15 - - - - - 93,75

Beş - - - - - 16 - - - - 100

Altı - - - - - - 16 - - - 100

Yedi - - - - - - - 16 - - 100

Sekiz - - - - - - - - 16 - 100

Dokuz - - - - - - - - - 16 100

Toplam 98,75

Page 67: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

58

Çizelge 5.2 Elman ağı için doğruluk çizelgesi

Sıfır Bir İki Üç Dört Beş Altı Yedi Sekiz Dokuz Doğruluk yüzdesi

Sıfır 16 - - - - - - - - - 100

Bir - 15 - - - - - 1 - - 93,75

İki - - 16 - - - - - - - 100

Üç - - - 16 - - - - - - 100

Dört - - - - 16 - - - - - 100

Beş - - - - - 16 - - - - 100

Altı - - - - - - 16 - - - 100

Yedi - - - - - - - 16 - - 100

Sekiz - - - - - - - - 16 - 100

Dokuz - - - - - - - - - 16 100

Toplam 99,375

Page 68: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

59

Çizelge 5.3 OSA için doğruluk çizelgesi

Sıfır Bir İki Üç Dört Beş Altı Yedi Sekiz Dokuz Doğruluk yüzdesi

Sıfır 16 - - - - - - - - - 100

Bir - 16 - - - - - - - - 100

İki - - 16 - - - - - - - 100

Üç - - - 16 - - - - - - 100

Dört - - - - 16 - - - - - 100

Beş - - - - - 16 - - - - 100

Altı - - - - - - 16 - - - 100

Yedi - - - - - - - 16 - - 100

Sekiz - - - - - - - - 16 - 100

Dokuz - - - - - - - - - 16 100

Toplam 100

Page 69: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

60

Ayrıca, sistemin test kelimelerini tanıma oranları yüzde cinsinden ve ayrı ayrı aşağıdaki

çizelgelerde gösterilmiştir.

Çizelge 5.4 Ağ başarımları

Test veri tabanı

Geri yayılımlı ÇKA (%)

Elman ağı (%)

OSA (%)

SIFIR 100 100 100

BİR 93,75 93,75 100

İKİ 100 100 100

ÜÇ 100 100 100

DÖRT 93,75 100 100

BEŞ 100 100 100

ALTI 100 100 100

YEDİ 100 100 100

SEKİZ 100 100 100

DOKUZ 100 100 100

Çizelge 5.4’te verilen sonuçlarda, sistem genelinde karıştırılan kelimelerin “bir” ve “dört”

olduğu görülmüştür. Bu kelimelerin her ikisi de tek heceli kelimelerdir ve bu sonuç, tek

heceli kelimelerin modellenmesinin daha zor olduğu bilgisini destekler niteliktedir. Ayrıca

hem geri yayılımlı ÇKA, hem de Elman ağlarının “bir” kelimesinde hata yapması, bu

kelimenin seslendiriliş ve yapı yönüyle diğerlerinden farklı olması ile açıklanabilir.

Yapılan testlerde, “bir” kelimesi birer defa “iki” ve ”yedi” ile; “dört” kelimesi ise bir defa

“sıfır” ile karıştırılmıştır. Eğer bir kelime sıklıkla, belirli bir diğer kelime ile karıştırılmış

olsaydı, anılan kelimenin yeterince modellenemediği ve karıştırıldığı kelime modeline

yakınsadığı sonucuna varılabilirdi. Ancak burada farklı kelimelerle ve tüm veri tabanı için,

tüm ağ modelleri ile toplam üç defa yanlış sonuç üretilmiştir. Bu sonuç, sistemin temel

Page 70: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

61

unsurları olan sayısal sinyal işleme ile öznitelik çıkarımı ve sinir ağları ile kelimelerin

modellenmesi aşamalarının her ikisinin de başarıyla tasarlandığını göz önüne sermektedir.

Çizelge 5.5’te sistemin test kelimelerini tanıma oranlarının ortalaması yüzde cinsinden ve

genel olarak gösterilmiştir.

Çizelge 5.5 Ortalama ağ başarımları

YSA

türleri

Veri tabanı

başarım yüzdesi

Geri yayılımlı ÇKA

98,75

Elman ağı 99,375

OSA 100

Yukarıdaki tablolardan hareketle, ağ modellerine göre başarım yüzdelerinin ortalama

değerleri bir grafik ile gösterilmiştir.

90

92

94

96

98

100

Geri yayılımlı ÇKA

Elman ağı

Olasılıksal ağ

Şekil 5.1 Ortalama ağ başarımları

Page 71: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

62

Grafikte de görüldüğü gibi ortalama ağ başarımları hayli yüksek değerlerde seyretmekle

birlikte OSA yapısı tam sonuç vermektedir.

Burada test edilen konuşma tanıma sistemi, bu çalışmanın 4. bölümünde de belirtildiği gibi

kapalı set olmak üzere tasarlanmıştır. Açık set olarak tasarlanan bir sistemin kapalı set

olarak da başarılı olması gerekir ancak kapalı set olarak tasarlanan bir sistemin açık set

kullanımda da başarılı olması ilave bir başarım ölçütüdür. Dolayısıyla bu tezde tasarlanan

kapalı set sistem, hedeflenen kelimelerin tanınması kadar eğitim veri tabanında yer almayan

kelimelerin tanımsız olduğunun belirlenmesi yönüyle de test edilmiştir.

Bu amaçla, sistemin tanımak üzere eğitilmediği kelimelerle test edilmesi için de bir veri

tabanı hazırlanmıştır. Problemi zorlaştırmak adına, hedef kelimelere en benzer sesleri

içeren “sefir”, “onbir”, “kedi”, “göç”, “dürtü”, “baş”, “altmış”, “yetki”, “seksen”, “sakız”

kelimeleri seçilmiştir. Seçilen bu 10 kelime ile sistem test edildiğinde ağırlıklı olarak

“TANIMSIZ” yanıtı alınmıştır. Ancak bazı testlerde geri yayılımlı ÇKA modelinin, “altı”

ile “altmış” ve “üç” ile “göç” kelimelerini karıştırabildiği, fakat bu gibi yanlış sonuçlar elde

edildiğinde ağın tekrar eğitilmesi ile bu kelimelerin de doğru tanındığı görülmüştür. Bu

durum, gerek kelimelerin uzunluklarının gerekse içerdikleri seslerin benzerliği göz önünde

bulundurulduğunda makul değerlendirilmiştir. YSA’nın farklı eğitim süreçleri neticesinde

farklı sonuçlar elde edilmesi ise ağın eğitim işleminin her seferinde farklı gerçekleşmesine

bağlanmıştır.

Yapılan testler genelinde OSA yapısı gerek veri seti içerisindeki tüm kelimelerin tanınması

gerekse veri seti dışındaki kelimelerin TANIMSIZ olarak teşhis edilmesi yönüyle incelenen

üç ağ yapısı içerisinde en iyi sonucu vermiştir. Bu sebepten anılan yapı için, konuşma

tanıma uygulamasında kullanılan diğer iki ağ yapısına ilave bazı incelemeler yapılmıştır.

Öncelikle, tanınması hedeflenen rakamlar için oluşturulan eğitim ve test verisi yeniden

düzenlenmiştir. Bu amaçla her kelime için oluşturulan 20’şer ses kaydı 4’erli gruplara

bölünmüştür. Elde edilen 5 gruptan ilki eğitim, diğer dördü ise test verisi olarak ayrılmıştır.

Page 72: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

63

Bu işlem tüm gruplar için sırasıyla gerçekleştirilmiştir. Böylece test verisi çeşitlendirilmiş

ve sayıca arttırılmıştır (16 x 5 = 80). Oluşturulan yeni veri tabanı ile OSA yapısı test

edildiğinde elde edilen sonuçlar aşağıdaki çizelgede görülmektedir.

Çizelge 5.6 OSA için geniş veri seti ile doğruluk çizelgesi

Sıfır Bir İki Üç Dört Beş Altı Yedi Sekiz Dokuz Doğruluk yüzdesi

Sıfır 79 - - - - - - - - - 98,75

Bir - 74 - - - - - - - - 92,50

İki - - 77 - - - - - - - 96,25

Üç - - - 80 - - - - - - 100

Dört - - - - 80 - - - - - 100

Beş - - - - - 80 - - - - 100

Altı - - - - - - 80 - - - 100

Yedi - - - - - - - 79 - - 98,75

Sekiz - - - - - - - - 78 - 97,50

Dokuz - - - - - - - - - 80 100

TANIMSIZ 1 6 3 0 0 0 0 1 2 0 98,375

Çizelge 5.6’ya göre, veri seti değiştirildiğinde ve sayıca arttırıldığında YSA’nın farklı

sonuçlar verdiği, ancak bu sonuçlarda da ağ başarımı için elde edilen yüksek değerlerin

korunduğu görülmüştür. Bu sonuçlar kelime bazında değerlendirildiğinde sıklıkla teşhis

edilemeyen kelime, tek heceli bir kelime olan “bir” olmuştur. Bu durum, kelimelerin fonem

tabanlı olmayan konuşma tanıma uygulamalarında sayısal olarak ifade edilmesindeki

zorluktan kaynaklanmakta olup, ilk iki ağ modeli ile elde edilen sonuçlarla da paralellik

göstermektedir. Veri setindeki diğer tek heceli kelimeler olan “üç”, “dört” ve “beş”

kelimeleri ile tam sonuç elde edilmesi ise bu kelimelerin içerdikleri karakteristik seslerden

Page 73: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

64

(“üç” kelimesinde “ç” sesi ve “beş” kelimesinde “ş” sesi) ve kelimelerin

seslendirilişlerindeki uzunluk farkından (“dört”) kaynaklanmaktadır.

Yukarıdaki incelenmelerin yanı sıra, OSA yapısının başarım oranı, her rakam için 80’er

örnek ile yapılan testlerde elde edilen % 98,375 değerinde sabit tutularak eğitim verisinde

yer alan örnek sayısının ağın yapısına olan etkisi araştırılmıştır. Sonuçlar aşağıdaki şekilde

görülmektedir.

0

200

400

600

800

1000

Nöron sayısı

10 20 30 40 50

Örnek sayısı

Şekil 5.2 OSA yapısında kullanılan nöron sayısının, eğitim verisindeki örnek sayısı ile

değişimi

Şekil 5.2’de görüldüğü gibi, tanınması hedeflenen her bir rakam için sırasıyla 1’er, 2’şer,

3’er, 4’er ve 5’er örnek ile yapılan testlerde elde edilen sonuçlara göre, belirlenen başarım

oranını yakalamak için kullanılması gereken nöron sayısı eğitim verisindeki örnek sayısı ile

doğru orantılı olarak artmaktadır. Testler, sonuçların belirli bir formda seyretmesi ve artan

eğitim verisi ile ağın işlem yükünün artması gibi nedenlerden dolayı her bir rakam için 5’er

örnekte sonuçlandırılmıştır.

Page 74: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

65

Ayrıca, bu çalışmada oluşturulan OSA yapısı gürültüye olan duyarlılığı yönüyle de

incelenmiştir. Genellikle, sistemlerin gürültü duyarlılığının az olması daha sağlıklı

çalışmaları açısından tercih edilen bir özelliktir. Çünkü gürültü, sistem performansını

olumsuz etkileyen bir unsurdur. Benzer şekilde örüntü tanıma problemlerinde gürültü,

tanınması hedeflenen örüntüyü bozarak tanıma oranını, diğer bir deyişle sistem

performansını olumsuz yönde etkiler.

Bu çalışmada tasarlanan OSA yapısı için, test verisine ortalama bir iletim kanalı gürültüsü

kadar olan 30 dB seviyesinde beyaz gürültü (AWGN - Additive White Gausien Noise)

eklenerek ağ testleri tekrar edilmiştir. Sonuçlar Çizelge 5.7’de görülmektedir.

Çizelge 5.7 OSA için gürültü ilaveli doğruluk çizelgesi

Sıfır Bir İki Üç Dört Beş Altı Yedi Sekiz Dokuz Doğruluk yüzdesi

Sıfır 15 - - - - - - - - - 93,75

Bir - 15 - - - - - - - - 93,75

İki - - 16 - - - - - - - 100

Üç - - - 16 - - - - - - 100

Dört - - - - 16 - - - - - 100

Beş - - - - - 16 - - - - 100

Altı - - - - - - 16 - - - 100

Yedi - - - - - - - 16 - - 100

Sekiz - - - - - - - - 15 - 93,75

Dokuz - - - - - - - - - 16 100

TANIMSIZ 1 1 0 0 0 0 0 0 1 0 98,125

Page 75: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

66

Gürültü eklenen veri seti ile yapılan test sonuçları (Çizelge 5.7), gürültü eklenmemiş olarak

daha önce yapılan test sonuçları ile karşılaştırıldığında (Çizelge 5.3); “sıfır”, “bir” ve

“sekiz” kelimelerinin birer defa tanımlanamadığı görülmüştür. Bu sonuçlara göre, OSA

yapısının başarım oranının önceki sonuçlara yaklaşık değerlerde seyrettiği hesaplanmış ve

ağın gürültüye olan duyarlılığının düşük seviyede olduğu değerlendirilmiştir.

Özetle, tasarlanan Konuşma Tanıma sistemi ile tanınması hedeflenen tüm kelimeler

tanınmış ve eğitim verisinde yer almayan kelimeler “TANIMSIZ” olarak teşhis edilmiştir.

Yapılan testler ile elde edilen tüm sonuçlara göre bu tezde tasarlanan Konuşma Tanıma

sistemi hedef kelimeleri doğru olarak tanıyan, amacına ulaşmış, başarılı bir sistemdir.

Buradan yola çıkarak YSA’nın Konuşma Tanıma gibi karmaşık problemlerin üstesinden

gelebilen başarılı bir teknik olduğu görülmüştür.

5.2 Literatürdeki Benzer Çalışmalar

Konuşma tanıma, literatürde çok çeşitli örnekleri olan bir konudur ve burada, ele alınan

uygulamaya benzer çalışmalar incelenmiştir.

Polur ve arkadaşlarının 2001 yılında yaptıkları bir uygulama, geri yayılımlı ÇKA ile

İngilizce “evet” ve “hayır” kelimelerinin tanınması üzerinedir. Bu çalışmada “evet” ve

“hayır” kelimelerinin öznitelik vektörlerinin çıkarılması için MFC tekniği ve 13’er adet

MFC katsayısı kullanılmış. Sistem iki adet bayan konuşmacının ses kayıtları ile test

edildiğinde genel başarım “evet” kelimesi için % 75 ve “hayır” kelimesi için % 90 olarak

ifade edilmiştir. (Polur et al. 2001)

Bu tezde gerçekleştirilen uygulamada ise 5 kat daha büyük bir veri tabanı ve her kelime

için 16’şar katsayı kullanılmıştır. Bu veri için, söz konusu çalışmadan daha yüksek başarım

sağlanmış ve geri yayılımlı ÇKA modeli ile % 98,75 doğru sonuç elde edilmiştir. Bu sonuç,

genel başarım yönüyle daha iyi bir ağ tasarımı yapıldığını ifade etmektedir.

Page 76: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

67

Benzer çalışmalar Arap dili üzerinde Alotaibi tarafından 2003 ve 2004 yılarında

gerçekleştirilmiş, bu çalışmalarda Arapça rakamların tanınması için sırasıyla geri yayılımlı

ÇKA ve Elman ağları kullanılmıştır. Alotaibi, iki çalışmasında da MFC tekniğini kullanmış

ve her bir rakam için 11’er katsayı hesaplamıştır. Çalışmalarında % 99,5 başarım

sağladığını ifade etmiştir. (Alotaibi 2003, 2004) Bu çalışmaların sayısal sinyal işleme

aşamasında 17 konuşmacıdan aynı kelimeyi seslendirmeleri istenerek veri tabanı

oluşturulmuştur.

Bu tezde gerçekleştirilen uygulamada ise bir konuşmacının aynı kelimeyi 20 defa farklı

tonlamalarla seslendirmesi istenmiştir. Söz konusu çalışmalara ve bu tezde ele alınan

uygulamaya ait bazı ağ parametreleri, aralarındaki farklılıkların görülebilmesi için

aşağıdaki çizelgede sunulmuştur.

Çizelge 5.8 Ağ yapıları arasındaki farklar

Parametreler Geri yayılımlı

ÇKA (Alotaibi 2003)

Geri yayılımlı ÇKA4

Elman ağı (Alotaibi 2004)

Elman ağı5

1. saklı katmandaki nöron sayısı

40 20 40 40

2. saklı katmandaki nöron sayısı

15 20 15 30

3. saklı katmandaki nöron sayısı

- 15 - -

Çıkış katmanındaki nöron sayısı

10 10 10 10

4, 5 Sütunlardaki değerler bu tez çalışmasında gerçekleştirilen konuşma tanıma uygulamasına aittir .

Page 77: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

68

Yukarıdaki geri yayılımlı ÇKA yapılarında görülen fark 2003’te gerçekleştirilen

uygulamada 2, bu tezde gerçekleştirilen uygulamada ise 3 saklı katman kullanılmasıdır. İlk

çalışmada 1. saklı katmanda kullanılan 40 nöron, diğer çalışmada iki saklı katmana

dağıtılmıştır. Bunun sebebi; iyileştirme çalışmaları sırasında, ilk saklı katmanda kullanılan

nöron sayısının fazla olmasının YSA’nın öğrenme sürecini yavaşlattığının, ancak bu

nöronların bir kısmının oluşturulacak diğer saklı katmana aktarılması halinde sistem

başarımından taviz verilmeksizin eğitim sürecinin kısaltılabildiğinin görülmesidir. Son

saklı katmandaki nöron sayısı da 5 arttırılmıştır. Böylece ağ, eğitim veri setlerini daha iyi

öğrenmektedir. Benzer bir durum yukarıda görülen Elman ağ yapılarının 2. saklı

katmanlarında da ortaya çıkmaktadır. Burada da ilk çalışmaya göre daha fazla sayıda nöron

kullanıldığı görülmektedir. Nöron sayılarındaki bu değişikliğin, çalışmalarda kullanılan

dillerin ve dolayısıyla, veri setlerinin farklı oluşundan kaynaklandığı değerlendirilmektedir.

Azam ve arkadaşlarının 2007 yılında yaptıkları bir uygulamada ise Urdu dilinde

seslendirilen rakamların tanınması amaçlanmıştır. Bu çalışmada da geri yayılımlı ÇKA

yapısı kullanılmış ancak burada konu edilen diğer çalışmalardan farklı olarak her bir kelime

için 39’ar adet MFC katsayısı hesaplanmıştır. Ayrıca, bir konuşmacının tüm kelimeleri

100’er defa seslendirilmesi ile oluşturulan geniş bir veri tabanı kullanılmıştır. Azam ve

arkadaşları başarı oranlarını % 98 olarak bildirmiştir.

Bu tezde gerçekleştirilen uygulamada ise bir konuşmacının tüm kelimeleri 20’şer defa

seslendirmesinin, gerek YSA’nın eğitimi gerekse testi aşamalarında yeterli olduğu

görülmüştür. Bu sayede veri tabanı küçültülmüş ve ağın işlem süresi kısaltılmıştır. Geri

yayılımlı ÇKA yapısı ile elde edilen başarım oranı ise benzer şekilde % 98,75 olarak

hesaplanmıştır.

Yukarıdaki satırlarda değinilen çalışmalarda problemin çözümüne odaklanıldığı, her

çalışmada tek bir ağ yapısının kullanıldığı, dolayısıyla ağ yapılarının göreceli başarımlarına

değinilmediği görülmektedir. Bu tez çalışmasının yukarıda bahsedilen diğer çalışmalardan

farkı, konuşma tanıma probleminin çözümüne yönelik üç farklı ağ modelinin tasarlanmış ve

Page 78: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

69

kıyaslanmış olmasıdır. Burada amaç, konuşma tanıma problemine çözüm üretilmesinin

yanı sıra çeşitli ağ yapılarının tasarım aşamalarının öğrenilmesi, bu ağların birbirleri ile

mukayese edilmesi ve tüm bunların sonucu olarak YSA konusunun daha iyi

anlaşılabilmesidir.

5.3 Değerlendirme

YSA, Konuşma Tanıma problemi için bu tezde ele alındığı çerçevede oldukça yüksek

performans göstermiş ve başarılı sonuçlar elde edilmiştir.

Konuşma tanıma gibi karmaşık bir problem için böylesi yüksek başarı oranlarının elde

edilmesi, YSA teknolojisinin örneklerle öğrenebilme gücünden gelir. Gerçek dünyada

karşılaşılan problemler pek çok değişkenin hem birbirlerini, hem de asıl problemi farklı

şekillerde etkilemesi ile kimi zaman çözümlenemez hal almaktadır. Ancak YSA’nın, bu

ilişkileri çözümlemek yerine otomatik olarak öğrenmesi onu başarılı bir teknik kılar.

Bu durum, beraberinde tasarımcıya da büyük avantajlar getirir. Çünkü bir problemi

matematiksel olarak çözümlemeye çalışmak, söz konusu problem için giriş ve çıkış

bilgilerinden ibaret örnek setleri bulmaktan oldukça zordur. Bu noktada tasarımcının iyi bir

modelleme yapması çok önemlidir. Çünkü tasarımcı, yetersiz bir matematiksel çözümleme

ile yola çıkmış olsa da bazı sonuçlar elde eder ve bu sonuçları yorumlayarak sistemini

düzenleyebilir. Ancak konu bir YSA uygulaması olduğunda, yetersiz modelleme yapılması

tasarımcıya yorumlayabileceği hiçbir sonuç vermeyecektir. Dolayısıyla modelleme

aşamasına yeterince ağırlık verilmeli, bu sayede sistemin test edilmesi ve iyileştirilmesi

aşamasında düzenlenecek değişkenler ağ parametreleri ile sınırlı tutulmaya çalışılmalıdır.

Yanı sıra, bu çalışmada ele alınan konuşma tanıma uygulamasında; eğitim aşamasının az

sayıda yineleme ile gerçekleştirilebildiği ve test aşamasının fazla işlemci yükü

gerektirmediği görülmüştür. Bu durum, benzer uygulamaların yaygınlık kazanabileceğini

ve hatta uygulama çerçevesinin, tanınması öngörülen kelime sayısının çoğaltılması ya da bu

Page 79: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

70

kelimelerin örüntülerinin daha detaylı modellenmesi gibi işlem yükünü arttırıcı açılımlara

tolerans sağlayabileceğini göstermiştir.

Bu avantajlarının yanı sıra, YSA’nın tasarımcının deneyimlerine göre şekillendirilen yapısı

ve sistem tasarımında sıklıkla başvurulan deneme-yanılma yönteminin metodolojik bir

iyileştirme sürecine göre hayli fazla zaman alması bazı dezavantajlar olarak karşımıza

çıkar. Ayrıca deneme-yanılma yöntemi tasarımcının geçmiş tecrübeleri ile çok ilişkilidir.

Bu nedenle, tasarımcının ağ yapısı üzerindeki çalışmalarına ve ağın davranışlarına açıklık

getirmesi büyük ölçüde sınırlanır. Önemli bir diğer husus ise YSA’nın, yapısal özellikleri

sabit tutulmasına rağmen farklı eğitim süreçlerinde farklı sonuçlar üretebilmesidir.

Dolayısıyla YSA’nın her zaman en iyi sonucu vereceği düşünülmemeli, problemin

muhtemel sonuçlarından bir seti kullanıcıya sunduğunun bilincinde olunmalıdır.

Bununla beraber YSA, pek çok firma tarafından üretilen ağ benzeticileri ile endüstriyel

uygulamalar anlamında da tercih edilen bir teknolojidir. İlaveten Hitachi, Inova, Philips,

Siemens gibi firmaların spesifik YSA modelleri için geliştirdikleri çeşitli işlemciler de

mevcuttur. Tüm bu donanımsal imkanlar literatürün ağ uygulamaları açısından zengin

oluşuyla birleştiğinde, YSA sürekli güncel kalan ve uygulama alanı, günlük hayatta

kullanılan endüstriyel uygulamalardan mühendisliğe, tıp biliminden finansal konulara kadar

uzanan köklü bir disiplin olarak karşımıza çıkmaktadır.

Genel olarak, konuşma tanıma probleminin çözümüne yönelik çalışmalarda:

• Ağ yapısının geliştirilmesi için literatürde yer alan yeni tasarımların (Genetic

Algorithm, Self-Organizing Maps vb.) incelenmesi,

• Daha geniş veri tabanı kullanan uygulamalar oluşturulması,

• Sese duyarlı akıllı ev uygulamaları ve çeşitli alarm sistemleri tasarlanması,

• Yetkilendirme, sistem erişimi gibi güvenlik uygulamaları,

• Biometrics olarak adlandırılan ve her birey için farklı olan parmak izi, iris yapısı

gibi parametrelerin incelendiği bilim dalına ses parametresinin de dahil edilmesi,

Page 80: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

71

• SSİ entegrelerinin kullanımı ile gömülü uygulamalar gerçekleştirilmesi,

• Matlab ve C programlarının entegre kullanımı ile bilgisayardan bağımsız cihazlar

tasarlanması

gibi hususlar önerilebilir.

Bunların yanı sıra, eğitim ve test seslerine ilişkin kayıtların stüdyo gibi gürültüden

yalıtılmış bir ortamda alınması ve takiben, ses sinyallerinde akustik iyileştirme yapılması

da sistem performansını arttıracak diğer önemli hususlardır.

Page 81: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

72

KAYNAKLAR

Ahad, A., Fayyaz, A., Mehmood, T. 2002. Speech recognition using multilayer perceptron.

Proc. of the IEEE Conference ISCON’02, vol. 1, pp. 103-109.

Alotaibi, Y.A. 2003. High performance Arabic digit recognizer using neural networks.

Proc. of the IEEE International Joint Conference on Neural Networks, pp. 670-

674.

Alotaibi, Y.A. 2004. Spoken Arabic digit recognizer using recurrent neural networks. Proc.

of the 4th IEEE International Symposium on Signal Processing and Information

Technology, pp.195-199.

Alotaibi, Y.A. 2005. Investigating spoken Arabic digits in speech recognition setting.

Information Sciences, vol.173, pp.113-129.

Azam, S.M., Mansoor, Z.A., Mughal, M.S. and Mohsin, S. 2007. Urdu spoken digits

recognition using classified MFCC and backpropagation neural network. Computer

Graphics, Imaging and Visualization Conference.

Elman, J.L. 1990. Finding structure in time. Cognitive Science, vol.14, pp.179-211.

Farley, B.G. and Clark, W.A. 1954. Simulation of self-organizing systems by digital

computer. IRE Trans., vol. PGIT-4, pp. 76-84.

Fukushima, K. 1975. Cognitron: A self-organizing multilayered neural network. Biological

Cybernetics, vol. 20., pp. 121-136.

Haykin, S. 1999. Neural networks: A comprehensive foundation. Prentice-Hall Inc. (2nd

ed.), Englewood Cliffs, NJ.

Hebb, D.O. 1949. The organization of behavior. Wiley Interscience, New York.

Page 82: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

73

Hopfield, J.J. 1982. Neural networks and physical systems with emergent collective

computational abilities. Proc.of the National Academy of Sciences, vol. 79, pp.

2554-2558.

Kohonen, T. 1982. Self-organized formation of topologically correct feature maps.

Biological Cybernetics, vol. 43, pp. 59-69.

Kohonen, T. 1987. State of the art in neural computing. IEEE First International

Conference on Neural Networks, vol. 1, pp. 79-90.

Lim, C.P., Woo, S.C., Loh, A.S. and Osman, R. 2000. Speech recognition using artificial

neural networks. 1st International Conference on Web Information Systems

Engineering, vol. 1, p. 419.

Lippmann, R. 1989. Review of neural networks for speech recognition, Neural

computation. MIT press, Cambridge.

Makal, S. 2007. Sonsuz uzun mükemmel iletken düz yüzeyler üzerindeki silindirik

hedeflerin yapay sinir ağları kullanılarak tanımlanması ve sınıflandırılması. Yüksek

Lisans Tezi, Yıldız Teknik Üniversitesi, İstanbul.

Marven, C. and Ewers, G. 1996. A simple approach to digital signal processing. Wiley

Interscience, New York.

MEC 409 Lecture notes 2004. Web sitesi.

http://www.dynamics.group.shef.ac.uk/people/keith/mec409.htm. Erişim Tarihi:

01.05.2008.

Minsky, M. and Papert, S. 1969. Perceptrons: An introduction to computational geometry.

MIT press (expanded edition), Cambridge.

Nabiyev, V.V. 2003. Yapay zeka. Seçkin Yayıncılık, Ankara.

Page 83: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

74

Öztemel, E. 2006. Yapay sinir ağları. Papatya Yayıncılık, İstanbul.

Polur, P.D., Zhou, R., Yang, J., Adnani, F. and Hobson, R.S. 2001. Isolated speech

recognition using artificial neural networks. 23rd Annual EMBS Conference.

Rabiner, L. and Samber, M. 1975. An algorithm for determining the endpoints of isolated

utterances, The Bell System Technical Journal, vol. 54, pp. 297–315.

Rabiner, L. and Juang, B.H. 1993. Fundamentals of speech recognition. Prenctice-Hall Inc.,

Englewood Cliffs, NJ.

Rochester, N., Holland, J.H., Haibit, L.H. and Duda, W.L. 1956. Tests on a cell assembly

theory of the action of the brain, using a large digital computer,” IRE Trans.,

vol. IT-2, pp. 80-93.

Rosenblatt, F. 1958. The perceptron: A probabilistic model for information storage and

organization in the brain. Psychological Review, vol. 65, pp. 386-408.

Rothkrantz, L.J.M. and Nollen, D. 1999. Speech recognition using Elman neural networks.

Text, speech and dialogue, vol. 1692, pp. 146-151.

Rumelhart, D.E., Hinton, G.E. and Williams, R.J. 1986. Learning representations by back-

propagating errors. Nature, vol. 323, pp. 533-536.

Soytürk, M.A. 2005. Sayısal kenar çıkarma ve yapay sinir ağları ile araç tanıma. Yüksek

Lisans Tezi, Erciyes Üniversitesi, Kayseri.

Specht, D.F. 1988. Probabilistic neural networks for classification, mapping or associative

memory. Proc. IEEE International Conf. on Neural Networks, vol. 1, pp. 525-532.

Specht, D.F. 1990. Probabilistic neural networks. Neural Networks, vol. 3, pp. 109-118.

Page 84: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

75

Stevens, S.S. , Volkman, J. and Newman, E.B. 1937. A scale for the measurement of the

psychological magnitude pitch. The Journal of the Acoustic Society of America,

vol. 8, pp. 185-190.

Widrow, B. 1960. An adaptive Adaline neuron using chemical memistors. Technical

Report, no. 1553-2, Stanford Electronics Laboratories.

Widrow, B. and Hoff, M.E. 1960. Adaptive switching circuits. IRE Wescon Convention

Record: Part 4, Computers: Man-machine systems, pp. 96-104, Los Angeles.

Widrow, B. (Editor) 1988. DARPA Neural Network Study, AFCEA International Press.

Yalçın, N. 2006. İlköğretim birinci sınıf öğrencilerine konuşma tanıma teknolojisi

yardımıyla ilkokuma yazma öğretimi. Doktora Tezi, Gazi Üniversitesi, Ankara.

Page 85: ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ...acikarsiv.ankara.edu.tr/browse/6389/Binder1.pdfi ÖZET Yüksek Lisans Tezi YAPAY SİNİR AĞLARI İLE KONUŞMA TANIMA Gülin

76