yerleşik ve gömülü uygulamalarda kontrol

of 13/13
POLİTEKNİK DERGİSİ JOURNAL of POLYTECHNIC ISSN: 1302-0900 (PRINT), ISSN: 2147-9429 (ONLINE) URL: http://dergipark.gov.tr/politeknik Yerleşik ve gömülü uygulamalarda kontrol işlemleri ve PC’de yazı yazmak için kullanabilen düşük maliyetli genel amaçlı bir konuşma tanılama sistemi A low cost general purpose speech recognition system used to control processes in the embedded and stationary system and write texts on the PC Yazar(lar) (Author(s)): Mustafa BURUNKAYA 1 , Melek DİJLE 2 ORCID 1 : 0000-0002-3971-0590 ORCID 2 : 0000-0002-0900-7968 Bu makaleye şu şekilde atıfta bulunabilirsiniz(To cite to this article): Burunkaya M. ve Dijle M., “Yerleşik ve gömülü uygulamalarda kontrol işlemleri ve pc’de yazı yazmak için kullanabilen düşük maliyetli genel amaçlı bir konuşma tanılama sistemi”, Politeknik Dergisi, 21(2): 477-488, (2018). Erişim linki (To link to this article): http://dergipark.gov.tr/politeknik/archive DOI: 10.2339/politeknik.389641

Post on 16-Oct-2021

0 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

MergedFileURL: http://dergipark.gov.tr/politeknik
ilemleri ve PC’de yaz yazmak için
kullanabilen düük maliyetli genel amaçl bir
konuma tanlama sistemi
embedded and stationary system and write
texts on the PC
ORCID1: 0000-0002-3971-0590
ORCID2: 0000-0002-0900-7968
Bu makaleye u ekilde atfta bulunabilirsiniz(To cite to this article): Burunkaya M. ve Dijle M., “Yerleik
ve gömülü uygulamalarda kontrol ilemleri ve pc’de yaz yazmak için kullanabilen düük maliyetli genel
amaçl bir konuma tanlama sistemi”, Politeknik Dergisi, 21(2): 477-488, (2018).
Eriim linki (To link to this article): http://dergipark.gov.tr/politeknik/archive
DOI: 10.2339/politeknik.389641
477
ve PC’de Yaz Yazmak çin Kullanabilen Düük
Maliyetli Genel Amaçl Bir Konuma Tanlama
Sistemi Aratrma Makalesi / Research Article
Mustafa BURUNKAYA1*, Melek DJLE2 1Teknoloji Fakültesi, Elektrik-Elektronik Mühendislii Bölümü, Gazi Üniversitesi, Türkiye
2Düzce Borsa stanbul Mesleki ve Teknik Anadolu Lisesi, Merkez Düzce, Türkiye
(Geli/Received : 11.12.2016 ; Kabul/Accepted : 04.01.2017)
ve kontrol ilemleri için önceden seçilen baz kelimeler eitilebilen sisteme kayt edilmitir. Sistemde mikrofon tarafndan alglanan
sesler karl olan saysal sinyallere çevrilir. Tannan seslere ait veriler birer mikrodenetleyici kullanlarak karlatrldktan
sonra, RS232 ve PS/2 iletiimi kullanlarak PC’ye aktarlr. Sistemin esnek yaps ve gerektiinde PC den bamsz olarak da
kullanlabilmesi kullanll artrmaktadr. Sistem gürültüsüz ortamda ve farkl gürültü seviyelerinde, harfler, esesli ve esesli
olmayan kelimeler ile test edilmitir. Elde edilen veriler SPSS paket program kullanlarak istatistiksel analize tabi tutulmutur.
Deneyler srasnda gürültü ölçümleri için Rion NL-21 cihaz kullanlmtr.
Anahtar Kelimeler: Konumac baml, yaz yazma, RS232, PS/2, kontrol.
A Low Cost General Purpose Speech Recognition
System Used to Control Processes in The Embedded
and Stationary System and Write Texts on The PC
ABSTRACT
In this study, a low cost, microcontroller based speaker dependent speech recognition system was designed and parameters affecting
speech recognition with high accuracy were investigated and a speech control system which can be used as a general purpose was
obtained. In the realized system, the relevant data is transferred to a computer (PC) in order to write text. For these purposes, the
system can be used by people with disabilities or healthy people. Using the speech recognition circuit, the letters of the alphabet
and some selected words for control operations are recorded in advance in this system which can be trained. Speech voices detected
by the microphone in the system are converted into digital signals corresponding to them. Once the data for the recognized voices
are compared using a microcontroller, they are transferred to the PC using RS232 and PS2 communication protocol. The flexible
structure of the system and the ability to be used stand-alone without PC when necessary also improves its usability. The system
has been tested in noiseless environment and with different noise levels, with letters, homophones and non-homophones words.
The obtained data were analyzed statistically by using SPSS package program. During the experiments, Rion NL-21 instrument
was used for noise measurements.
Keywords: Speaker dependent, texting letter, RS232, PS/2, control
1. GR (INTRODUCTION)
konuma sinyalini metne eletirmesi ilemi olarak
tanmlanabilir [1]. Ses tanyc sistemler 1960’l yllarn
balarnda ortaya çkmaya balamtr. Bu konuda IBM
firmas, “Shoebox” ad verilen öncü ses tanma sistem-
lerini gelitirmitir. 16 kelimeyi tanyabilen bu sistemde
elektromekanik devre elemanlarna yer verilmitir [2].
Balangçta düük performansl saylabilecek olan bu
gibi çalmalar zamanla hzla gelimilerdir. Günümüzde
de bu geliimleri devam etmekte olup, uygulama alanlar
da gittikçe yaygnlamaktadr.
felçli, görme ve zihinsel engelli, konuma sorunlar olan
vb. insanlarn iletiimleri, tedavi ve terapileri için veya *Mustafa Burunkaya (Corresponding Author)
e-posta : [email protected]
478
Bu amaçlar için kullanlabilecek yüksek performans ger-
ektiren sistemlerde ses tanma ilemleri daha çok bir PC
ve bu amaçla gelitirilen yazlmlar yolu ile yaplmak-
tadr. Bu sistemlerde PC uyumlu ses kartlar gerekli olup,
yazlmlar iletim sisteminin arkasnda sürekli olarak
çalmaktadr. Bu tür sistemlerde tanlama ilemleri için
karmaklk, maliyet, PC gereksinimi, sürekli çalan
yazlmlar vb. baz önemli olabilen dezavantajlar olarak
deerlendirilebilir [16,17].
getirilmek üzere sözcükleri yüksek sesle söyleme ilem-
leri (dictation) için kullanlmaktadr. Konumacya
baml yazlm, ses tanmaya benzer ekilde, bilgisa-
yarda tek bir kiinin sesinin benzersiz özelliklerini
örenerek çalr. Yeni kullanclar için, önce yazlmla
konuularak eitilmeleri gereklidir. Gelitirilmesi kolay,
ucuz ve daha doru tanma yapabilir [18]. Fakat bunlar
konumac uyumlu (adaptif) olarak da snflandrlabilen
sistemler veya bamsz sistemler kadar esnek deildir.
Konumac bamsz sistemler ise kiiye bal olma-
dndan eitilmesi gerekli deildir. Daha çok telefon uy-
gulamalarnda vb. kullanlmaktadr. Esnek olmalarna
karn, pahal ve doruluu konumacya baml sistem-
lerden daha düüktür[1,18].
numa motoruna hangi seslerin matematiksel olarak ben-
zediini hesaplayan bir veri taban kullanlmaktadr [18].
Konumac uyumlu sistemler ise operasyonlarn yeni
konumaclarn özelliklerine uyarlamayabilmek tedirler
karmakl vb. ileme gereksinimlerini ve sistemin
doruluunu etkiler. Baz uygulamalarda yalnzca birkaç
kelimenin tannmas yeterli olabilirken, örnein dikte
makineleri gibi bazlar çok daha fazlasn gerektirebilir.
Kelime tanma saysna göre konuma tanyclar u
ekilde gruplandrlabilir:
açsndan izole edilmi ve sürekli konuma sistemi olarak
da gruplandrlabilir.
ayr ayr söylenilen kelimeler tannabilir. Bu sistemde bir
sözcüün telaffuzu dierlerini etkilememe eiliminde
olduundan, sözcüklerin ortaya çk daha tutarl olup,
tannmas daha kolaydr. Sürekli konuma sistemi,
sözcükler arasnda duraklarla ayrlmayan konumalarn
tannmasnda kullanlr. Bu sistemin, konumadaki çeitli
efektler, ortak oluum, her bir ses biriminin üretiminin
çevresindeki fonemlerden etkilenmesi, sözcüklerin
numa hzndan etkilenmesi vb. sebeplerle tannma
doruluu düüktür [1].
gulamalarda daha ucuz ve doru tanma yapabilecei göz
önüne alnarak konumac baml bir tanma ve kontrol
sistemi tasarlanm ve gerçekletirilmitir [18]. Sistemin
görme ve baz ilaveler ile duyma, konuma ve baz dier
engellilerin yaamlarn kolaylatrabilecei
Alfabesi olarak adlandrlan kabartma noktalar ile karak-
terize edilen bir yaz kullanmaktadrlar [19]. Bu durum
baz açlardan çözümler sunsa da, bu ekilde yaz
yazmann baz zorluklar ve yazlm yaznn dier insan-
larn anlayabilmeleri yönünden kullanl olmad
düünülebilir. Konuma ve ses tanma yöntemleri
kullanlarak bu tür baz sorunlarn üstesinden geline-
bilmesi mümkün olabilir [3,4,20]. Gerçekletirilen sis-
tem kullanlarak onlar için de PC ortamnda yaz ve
çeitli metinlerin konuma ile yazdrlmas hem mümkün
hem de daha kolay ve hzl olabilir.
Bu çalmada gerçekletirilen sistem baz deiiklikler ile
endüstri, biyomedikal sistemler, güvenlik, robotik,
günlük hayattaki cihaz vb. alanlarda ses ile kontrol ilem-
leri için de kullanlabilir. Böylece insan rahat ve kon-
forunun artrabilecei, pratiklik salanabilecei ve verim
art salanabilecei düünülmektedir [6,20,21]. Sistem
modüler ve yazlm yolu ile kontrol edilebilen esnek bir
yapya sahip olup, gerektiinde tasarmclarn ihtiyacna
göre farkl amaçlarla birçok uygulamalarda kullanlabi-
lir.
alglanarak tannmakta ve bu sesin karl olan saysal
elektrik sinyal elde edilmektedir. Elde edilen sinyaller
bilgisayara farkl yöntemler ile gönderilebilir [22]. Bu
çalmada kullanm en yaygn yöntemlerden olan RS232
ve PS/2 iletiimi yöntemleri kullanlarak veri iletiimi
yaplmtr. Bu çalmada veri iletiiminde her iki yönt-
emde de ayr birer mikrodenetleyici (MCU: Microcon-
troller) kullanlmaktadr. RS232 metodunda önce bir
RS232 dönütürücüsü kullanlarak MCU ile PC arasn-
daki lojik voltaj seviyeleri uyumlu hale getirilmitir.
Görüntüleme ilemleri için PC’ de gelitirilebilecek olan
bir kullanc ara yüzü veya iletim sisteminde bulunan
Hyper Terminal kullanlabilir. Ayrca ilgili port, baudrate
hz, kaç bit gönderilecei, verilerin hangi pin ile
gönderilecei ve alnaca belirlenmelidir. PS/2 meto-
dunda, MCU donanm ve yazlm ile veriler PS/2 gi-
riinden gönderilmektedir. Mikrofon ile alglanan seslere
ait veriler önceden açlan bir text dosyasna yazdrabilir
[22-25]. Bu çalmann devam eden ksmlarnda önce
Material ve metot verilmekte, akabinde gerçekletirilen
sistem açklanmaktadr. Daha sonra sras ile yaplan tes-
tler, ulalan sonuçlar ve kaynaklara yer verilmektedir.
479
METHOD)
Giri bölümünde de ifade edildii gibi, yüksek
performansl ses tanma ilemleri çounlukla bir PC ve
bu amaçla gelitirilen yazlmlar yolu ile yaplmaktadr.
Bu sistemlerde ilave olarak PC uyumlu ses kartlar da
gerekli olabilmekte ve yazlmlar iletim sisteminin
arkasnda sürekli çalmaktadr. Bu tür sistemlerde
minyatürizasyon, arlk, maliyet ve tanlama ilemleri
için ise karmaklk vb. durumlar göz önüne alndnda
PC gereksinimi ve sürekli çalan yazlmlar bir
dezavantaj olarak deerlendirilebilir [16,17].
doru tanma vb. tür sorunlara çözüm getirebilmek için
konumac baml tanma ilemini gerçekletirebilen
sistemler, yazlmlar ve donanmsal ve yazlmsal
çözümler sunan ses sentezleyici entegre (IC: Integrated
Circuit) devreler vb. çallmalar yaplmaktadr. ekil 1’
de verilen HM2007 ses sentezleyici IC kullanlarak
gelitirilecek devreler ile 0.96 s’lik 40 kelime ya da 1.92
s’lik 20 kelime tannabilir. Hafza için devrede 8k x 8
Statik RAM kullanlmaktadr. Bu IC’ nin iki çalma
modu vardr: manuel mod ve CPU modu. CPU modu ile
bir ana bilgisayar kontrolünde çalmas da salanabilir.
Burada verilen devrede manuel modda çalma
gerçeklemektedir. lemci ile iletiim kurmak için
tasarmda tu takm ve 2 digit saysal göstergeye yer
verilmitir. Böylece hem ses kayd ve testi yaplabilir ve
hem de silinebilir veya hata kodlar görülebilir.
Bu devreye ilk enerji verildiinde statik RAM hafza
kontrol edilir. Ekranda “00” görülür ve krmz LED k
verir. Bu devrenin yukardaki ilemler için hazr
olduunu gösterir. Örnein bir ses kayd için önce TRN
(Train: Eit) butonuna baslr. Sonra 1 ile 40 arasnda ses
kaydnn yaplaca bir dizin numaras girilir. Eer LED
yanp sönerse kayt baarldr. Tekrar TRN butonuna
baslarak ilem bitirilir. Arzu edilen sayda ses kayt
edildikten sonra test yaplabilir. Ses mikrofona
konuulduunda, saysal ekranda kayda ait dizin adresi
görüntülenir [17,18,26,27].
Communication)
MCU ve dier cihazlar ile PC arasnda veri transferi için
seri ve paralel iletiim yöntemleri kullanlabilir. Paralel
veri iletiimde kullanlan hat says fazla ve maliyeti daha
yüksektir. Seri veri iletiiminde ise hz düük olmasna
karn, sadece 2 hat kullanlr.
Seri haberleme protokolü senkron ve asenkron iletiim
olmak üzere ikiye ayrlr:
kullanlarak senkronize iletiim yaplr.
(Speech recognition circuit used HM 2007 IC
processor)
yerine balangç, biti bitleri kullanlr. Senkron iletiime
göre daha yavatr. Seri iletiimin 3 metodu vardr:
Full-dublex seri iletiim; Bu yöntemde her iki taraf da
alc ve verici olarak çalr.
Half-dublex seri iletiim; Bu yöntemde de her iki taraf
alc ve verici olarak çalabilir.
Simplex seri iletiim; Bu yöntemde bir taraf verici, dier
taraf ise alcdr.
2.3. RS232 Sürücü ve MAX232 Entegre Devresi (RS232 Driver and MAX232 Integrated Circuit)
ekil 2. RS232 seri veri iletiiminde kullanlan MAX232 IC
balants (MAX232 IC connection in the RS232
circuit using serial communication)
480
RS232 seri asenkron veri iletiimi için gelitirilen bir
standarttr. Veri hatlarnda tipik gerilim seviyeleri +12 V
ve -12V' dur. MCU ‘lar ise TTL Lojik 1 (+5V) veya Lojik
0 (0V) seviyelerinde çalrlar. Bu deerleri PC ve
denetleyici arasnda her iki yönde de uygun seviyeye
getirmek için MAX232 IC kullanlabilir (ekil 2). 25
pinli DB25 veya 9 pinli DB-9 konnektörü kullanlabilir
[22,23,28,29].
Hyper Terminal alnan verileri görüntülemek için
kullanlabilen bir ara yüzdür. PC’de
(Start>Programs>Accessories>Communications>Hyper
terminal) yolu ile ulalabilir. Veriler PC’ye seri veya
paralel olarak iletilebilir. RS232’nin balanaca port ve
seri iletiim hznn belirtilmesi, yazlmda bit says ve
baud rate hznn ayarlanmas gereklidir [25,28].
2.5. PS/2 letiimi ve PC Klavye (PS/2
Coommunication and PC Keyboard)
PS/2’ dir. Klavye haberlemesinde her bir byte veri için
11 bit gönderilir. 1 bit start biti, 8 bit data biti, 1 bit parity
biti ve stop bitidir. PS/2 portu mouse ve klavye balants
için üretilen, 6 pinli konektörden oluan, düük hzl bir
seri porttur. Herhangi bir tua basldnda klavyeden
PC’ye 8 bitlik özel tu verileri data ve clock hatlar
kullanlarak yani senkron seri iletiim protokolü ile
gönderilir. Bir tua basldnda 1 Byte’lk, ayn tu
brakldnda 2 Byte’lk bir Hex kodu gönderilir.
Böylece PC tarafndan baslan veya braklan tu
belirlenir. Örnein klavyede "A" tuuna basldnda
"1C" hex kodu, basma ilemi sona erdiinde önce "F0"
sonra da "1C" hex kodlar üretilir [24,30].
3. GERÇEKLETRLEN SSTEM (REALIZED
kontrol sistemi ve PC’ de yaz yazlabilen bir sistem
tasarlanm ve gerçekletirilmitir. Sistemin temel blok
yaps ve genel görünümü ekil 3 ve ekil 4’ de
görülmektedir. Tasarma ait donanm, yazlm, bunlarn
açklamalar ve testleri izleyen bölümlerde verilmitir.
Gerçekletirilen sistem temel olarak alt donanm birimi
ve ilgili yazlmlardan oluur. Bunlar öyle sralanabilir:
- Ses tanlama birimi,
- MCU birimi,
Bu sistemde mikrofon ile alglanan sesler HM2007 IC ile
ilenir ve veriler harici bir 8K x 8 SRAM IC’de daha
önceden kaydedilip saklanan seslere ait veriler ile
karlatrlarak eleen ses bulunur ve ses tanlama
ilemi gerçekletirilir. Daha sonra voltaj seviyesi
ayarlanarak veriler iki ayr MCU’ya uygulanr. Burada
verilerin karlatrmas yaplarak ilgili karakter kodu
elde edilir. Bu sistem yazlm yolu ile kontrol edilen bir
birim olduundan, sunulan esneklik sayesinde
gerektiinde ses ile kontrol amaçlar içinde kullanlabilir.
Bu MCU’lar ile tanlama ilemi yaplm olan sese ait
veriler PC’ ye biri RS232 dieri ise PS/2 iki iletiim
yöntemi kullanlarak aktarlr.
RS232 iletiim
ekil 3. Sistemin temel blok yaps (Basic block structure of the
system)
3.1. Voltaj Seviye Düzenleme ve zolasyon Birimi
(Level Regulation of Voltage and Isolation Circuit)
Ses tanma devresinde yüksek çk 2.5 V, düük çk 0.5
V civarnda ölçülmütür. Ses tanlama ileminden sonra
elde edilen saysal iaretin MCU’ ya uygulanmadan önce
Lojik Seviyesini TTL uyumlu hale getirmek için 74LS07
buffer IC kullanlarak, sinyal ihtiyaç duyulan TTL H(5V)
ve L(0V) seviyelerine elektriksel bir izolasyon
salanarak çekilmitir (ekil 5-a) [26, 28].
Ses tanma devresi kullanlarak elektrikli cihazlarn
kontrolü ekil 5-b’ de verilen sürücü devre ile
gerçekletirilir. Bu devrenin girii ses tanma devresinin
saysal gösterge için de kullanlan 10 pinli çkna
balanmaktadr. Ses tanndnda, ilgili çk yüksek
seviyeye çekilir. Bu ekilde 10 farkl yük sürülebilir.
481
arasndaki süre yaklak 0.25 s’dir [26].
(a)
(b)
ekil 5. (a) Voltaj seviye düzenleme ve izolasyon birimi (b)
Sürücü devre (a) Voltage regulation and isolation
circuit (b) Driver circuit
iletiimi iki yöntem kullanlarak gerçekletirilmitir.
Bunlar RS232 ve PS/2 yöntemleridir:
3.2.1. RS232 sürücü ve MCU kullanlan kontrol
devresi (RS232 driver and control circuit used
MCU)
RS232 standarddr. Bu yöntemde -12V ve +12V “Lojik
1” , “Lojik 0” deerine karlk gelir. Bu voltajlar ile TTL
seviye uyumunu her iki yönde de salayabilmek için
MAX232 IC kullanlmtr [22,23,28,29]. MAX232 ve
MCU arasnda sadece veri gönderme ilemi yapld için
tek yönlü iletiim (Simplex Seri letiim) kullanlmtr.
RS 232 iletiimini gerçekletirmek için kullanlan
donanm ve yazlmn ak emas ekil 6 ve ekil 7’de
verilmitir. Devrede görülen 8x1 DIP Switch ses
tanmlama devresinin çkndaki saysal iareti
sembolize eder ve bir PIC16F877A denetleyicinin
giriine uygulanmtr [29, 31]. Gerçekletirilen sistemde
ses tanmlama ileminin nasl gerçekletii öyle
açklanabilir: Örnein “ALI” sesleri için ses tanmlama
devresine önceden kaytlar yaplr. “A” sesi ayet 01.
adrese kayt edilmi ise, mikrofon “A” sesini
algladnda ses tanma devresi çknda 01 in 8 Bit’lik
karl olan sinyal elde edilir ve Seven Segment
Display’ da “01” yazar.
(RS232 driver and control circuit used MCU)
Bu veri ayn zamanda denetleyicinin B portuna giri
olarak uygulanr ve kaytl olan dier verilerle
karlatrlarak “A” harfinin karl olan veri C
portundan alnr, MAX232 IC ile gerilim seviyesi
düzenlenerek RS232 portundan PC’ye gönderilir. PC
iletim sisteminde bulunan Hyper terminalde ise
gönderilen “A” harfi gözlemlenir. Daha sonra ayn
ilemler “L” ve “I” sesleri içinde yaplr. Devrede
kullanlan buton açkken hiçbir ilem yaplmaz. “A” harfi
yazdrlmak istendiinde buton basl iken konuma
yaplr. Eer buton sürekli basl kalrsa “A” yazmaya
sürekli devam eder.
devresi (PS/2 keyboard driver and control circuit
used MCU)
arasnda veri iletiimi için kullanlan ikinci yöntem PS/2
yöntemidir. RS232 veri iletiimine benzer biçimde yine
HM2007 ses tanma devresi çkndan alnan veriler
“Seviye Düzenleme ve zolasyon Birimi” devresi
kullanlarak TTL uyumu salanm ve daha sonra 2.
MCU kontrol birimine verilmitir (ekil 8). Burada farkl
olarak, daha önce MCU’ ya kaydedilen PC ASCII kodlar
[28] ile, gelen ses tanma verisi ekil 9’da ak emas
verilen yazlm ile karlatrlmaktadr. Örnein
mikrofondan “A” alglandnda MCU’ ya “A” verisinin
kodlar gelir. MCU ile gelen bu kod “A” harfinin ASCII
kodu olan Dec “97” ile karlatrlarak PS/2 giriine
gönderilir.
Daha önce Bölüm 2.5’te açklanan her bir klavye tu
kodu, burada verilen PIC MCU kullanlan kontrol birimi
ile tekrar ölçülerek kontrol edilmi ve kontrol ilemleri
bunlara göre yaplmtr. Gerçekletirilen sistemde PIC
MCU devresi ile 10 kHz deerinde bir clock sinyali
üretilmi ve veriler, bu sinyalin düen kenarlarnda
482
Balat
Deerini Bellekten Al
Port Çk
iletiimin ak emas (The flow chart of speech
recognition and RS232 serial communication).
ekil 8. PS/2 klavye sürücü ve MCU kullanlan kontrol devresi
(PS/2 keyboard driver and control circuit used MCU)
Gerçekletirilen devrede klavye tularnn 275mA’den
fazla akm çekmesi nedeni ile, 7805 IC kullanlan ilave
bir regüleli güç kayna tasarlanm ve gerilim önerilen
+4.5V ile +5.5V aralnda tutulmutur. Klavyenin data
ve clock uçlar açk kollektör (open collector) yaps
nedeni ile 4k7 deerinde Pull-Up dirençleriyle Lojik 1
(+5V) seviyesine çekilmitir [24].
Çk
ak emas (Flow chart of speech recognition and
PS/2 communication)
ilemi harf tanma temelli olduu için Harf Tanma
Temelli Testler, dieri ise Kelime Tanma Temelli
Testlerdir. Testlerde örneklem gruplarnda 3 bay ve 3
bayan 6 kii yer almtr. Testler deiik gürültü
deerlerinde, % 38 bal neme sahip, 28 °C scaklkta ve
483
(SPSS Inc., Chicago, IL, USA) kullanlarak istatistiksel
analize tabi tutulmutur. Gürültü ölçümleri için 1/3 oktav
bant filtresine sahip, Rion NL-21 cihaz kullanlm [33]
ve alnan sonuçlar aada verilmitir:
4.1. Harf Tanma Temelli Testler (Character
Recognition Based Testing)
verilen Türkçe konuma seslerinin özellikleri göz önüne
alnarak elde edilen sonuçlar yorumlanmtr.
Çizelge 1. Türkçe konuma sesleri (Turkish speech letters)
Ünlüler Geni Dar Geni Dar
Kaln a o u
nce e i ö ü
Ünsüzler Sürtünme Patlamal Burunsal Kaygan
Nefesli c,j,v,z b,d,g m,n ,l,r,y
Nefessiz ç,f,h,s, t,k,p - -
grafikleri sras ile Çizelge 2 ve ekil 10’ da verilmitir.
Burada elde edilen sonuçlara göre, ünlü sesler, ses
tellerinin titremesi ile üretilen ve ses yolunda bir engele
uramayan sesler olduu için tannma oranlarnn daha
yüksek olduu düünülmektedir. En düük %95, en
yüksek %100 ve ortalama %99.375 tannma oran elde
edilmitir. Ünsüz seslerin ise ses yolunda karlatklar
engeller nedeni ile tannma oranlarnn dütüü
deerlendirilmektedir (%93.4). Ünlü ve ünsüz harfler
için ortalama %95.2 dorulukla tanma gerçeklemitir.
Çizelge 2. Harflere ait sesler ve bunlarn tannma yüzdeleri
(Speech recognition of the letters and their percentages)
Yine bu sonuçlara göre düzenli sesbirimi geçileri
olmayan, gürültü faktörünün mevcut olduu patlamal
ünsüzler ve sürtünmeli ünsüzler için tannma oranlarnn
nispeten düük bulunduu, azn tamamen kapatlmas
ile oluan ünsüzlerde telaffuzun zorlamas nedeni ile
tannma doruluunun dütüü deerlendirilmektedir.
benzemesi sebebi ile ayrt etme doruluunun azald
düünülmektedir.
Recognition Based Testing)
daha yüksek performansta tanma salanabilmesi için,
ekil 10. Harflerin ortalama tannma oranlar grafii (Graph of
the speech recognition of the letters and their
percentages)
olan özelliklerine ilave olarak konumacnn ses
özellikleri de aratrlmtr. Yaz yazma ilemi harf
temelli olduundan, bu testler giriten MCU kullanlan
kontrol biriminin çkna kadar olan birimler için
yaplmtr. Bu testlerde salanan verilerin
yorumlanmas ile ayn zamanda yeni çalmalarda
kullanlmas düünülen bu sistemin güvenilirlii de
belirlenmeye çallmtr. Sistemin performans testleri,
e sesli olan ve e sesli olmayan ve Çizelge 3 ve Çizelge
4’ de sras ile verilen eitim verileri kullanlarak
gürültülü ve gürültüsüz ortamda yaplmtr.
Çizelge 3. Esesli kelime tanma için seçilen eitim verileri
(Selected training data for homonym word
recognition) Eitim veri
verileri (Selected training data for non homonym
word recognition) Eitim veri
Çizelge 5 ve ekil 11’ de gürültüsüz ortamda e sesli
olmayan kelimelerle gerçekletirilen tanma sonuçlar,
Çizelge 6 ve ekil 12’ de ise gürültüsüz ortamda e sesli
olan kelimelerle gerçekletirilen tanma sonuçlar
verilmitir. Ayrca bu iki testin karlatrmal sonuçlar
Harf A B C D E F G H I
Tannma
10
0
10
0
Harf J K L M N O Ö P R S
Tannma
Oran(%) 85 90 95 100 100 100 100 95 95 95
Harf T U Ü V Y Z
Tannma
75
80
85
90
95
100
105
A B C D E F G H I J K L M N O Ö P R S T U Ü V Y Z
Harflerin tannma oranlar (%)
484
ortam testleri ise daha sonraki ksmlarda verilmitir.
Çizelge 5. Gürültüsüz ortamda esesli olmayan kelime tanma
oranlar (Non-homophones word recognition rates in
noiseless environment) Konum
ekil 11. Gürültüsüz ortamda esesli olmayan kelime tanma
oranlar (Non-homophones word recognition rates in
noiseless environment)
oranlar (Homophones word recognition rates in
noiseless environment)
oranlar (Homophones word recognition rates in
noiseless environment)
kelimeler için geel yüzde ve ortalama kelime
tanma oranlar (Overall percentage and average
word recognition rates for homonyms and non-
homonyms in noiseless environments)
gürültüsüz ortamda genel yüzde ve ortalama kelime
tanma oranlar (Overall percentage and average
word recognition rates for homonyms and non-
homonyms in noiseless environments)
1200’e yakn ölçümle elde edilen sonuçlar genel olarak
incelendiinde, kelimeler neticede harflerden olutuu
için, bunlarn bir önceki aamada gerçekletirilen harf
temelli testlerin sonuçlar ile uyumlu olduu
düünülmektedir. Bu balamda, e sesli olmayan
kelimelerle gerçekletirilen ses tanmadaki baarnn,
ayn artlarda e sesli olan kelimelerle gerçekletirilen
tanmaya göre daha yüksek olmasnn temel sebebinin,
söylenileri birbirine benzer olan eitim verileri olduu
deerlendirilmektedir. Esesli olmayan kelimeler nerede
ise %100 orannda tannrken, e sesli olan kelimelerde
bu oran %55-%72 arasndadr. Genel olarak tannma
oran daha fazla olan harfleri barndran kelimelerin daha
yüksek dorulukla tannmas beklenmektedir [26,34,35].
Bu sonuçlar üzerinde eitim verilerinin farkl olmasnn
da etkili olduu düünülebilir.
seviyelerine sahip ortamda tannmalarna ait ölçümler,
ölçüm saylar ve elde edilen sonuçlar ayrntl olarak
Çizelge 8 ve 9 ile ekil 14 ve 15’ de verilmitir. Ayrca
bu testlerin karlatrmal sonuçlar Çizelge 10 ve ekil
16’da beraber sunulmutur. Bu testlerde Gürültü
ölçümleri için RION NL 21 cihaz kullanlmtr [33].
Konumac

Ses
Örnekleri
Topla
m
Örnek
Kelim
e
Says
Topla
m
Tekra
r
Says
Doru
Tannan
Örnek
Kelime
Says
Yanl
Tannan
Örnek
Kelime
Says
Baar

Yüzd
esi
Standart
Sapma
Koullar
Toplam
Tekrar
Says
Doru
Tannan
Örnek
Kelime
Says
Yanl
Tannan
Örnek
Kelime
Says
Baar
Yüzde
si
Standart
Sapma
Gürültüsüz
Ortam
Esesli
Olmayan
Kelimeler
Gürültüsüz
Ortam
0%
50%
100%
150%
Baar Yüzdesi
Standart Sapma
Baar Yüzdesi
Standart Sapma
Baar Yüzdesi
Standart Sapma
YERLEK VE GÖMÜLÜ UYGULAMALARDA KONTROL LEMLER VE PC’DE YAZI Y … Politeknik Dergisi, 2018; 21 (2) : 477-488
485
oranlar (Non-homonym word recognition rates in
noisy environment)
oranlar (Non-homonym word recognition rates in
noisy environment)
oranlar (Non-homonym word recognition rates
in noisy environment)
(Homonym word recognition rates in noisy
environment)
kelimeler için genel yüzde ve ortalama kelime
tanma oranlar (Overall percentage and average
word recognition rates for homonyms and non-
homonyms in noisy environments)
65-70
70-75
Esesli
Olan
Kelimeler
60-65
65-70
70-75
ekil 16. Esesli olan ve esesli olmayan kelimeler için
gürültülü ortamda genel yüzde ve ortalama kelime
tanma oranlar (Overall percentage and average
word recognition rates for homonyms and non-
homonyms in noisy environments)
gürültü seviyelerinde gerçekletirilmitir. Bu Çizelge ve
ekiller ve Çizelge 10 ve ekil 16’ da kyaslamal olarak
görüldüü gibi, esesli olmayan kelimeler için 60-65 dB
seviyelerinde gürültülü ortamda %95, 65-70 dB gürültülü
ortamda %86 ve 70-75 dB gürültülü ortamda %68 tanma
oranna ulalmtr. Esesli olan kelimeler için ise 60-65
dB seviyelerinde gürültülü ortamda %62, 65-70 dB
gürültülü ortamda %53 ve 70-75 dB gürültülü ortamda
%39 tanma oran salanmtr.
65-70dB
70-75dB
Esesli
Olan
Kelimel
65-
70dB
70-
75dB
0%
10%
20%
30%
40%
50%
60%
70%
80%
486
kelimeler 65 dB gibi daha düük gürültülü ortamlarda
%95 orannda tannrken, e sesli olan kelimelerde ayn
artlarda bu oran %62 seviyelerindedir. Bu durum
gürültülü ortamlarn tannma orannn dümesine neden
olduunu göstermektedir. Ayrca genel olarak tannma
oran daha fazla olan harfleri barndran kelimelerin daha
yüksek dorulukla tannmas beklenen bir durumdur
[26,34,35]. Bu sonuçlar üzerinde eitim verilerinin farkl
olmasnn da etkili olduu düünülebilir. Bu sebeple, bu
test sonuçlar genel olarak deerlendirildiinde, bunlarn
daha önceki aamalarda gerçekletirilen harf temelli
testlerin ve gürültüsüz ortamda elde edilen testlerin
sonuçlar ile uyumakta olduu görülmektedir. Bu
balamda çkarlan dier bir sonuç ise e sesli olmayan
kelimelerle gerçekletirilen ses tanmadaki baarnn,
ayn artlarda e sesli olan kelimelerle gerçekletirilen
tanmaya göre daha yüksek olmasnn temel sebebinin,
söylenileri birbirine benzer olan eitim verileri olduu
düünülebilir.
SUGGESTIONS)
uygulamalarnda kullanlabilecek, düük maliyetli, yeni
bir konumac baml ses tanma ve kontrol sistemi
tasarlanm, daha yüksek dorulukla konuma tanmay
etkileyebilen parametreler aratrlm ve PC’ de yaz
yazabilmek için veriler bir bilgisayara aktarlmtr. Veri
iletiimi için birer mikrodenetleyici (MCU) ile kontrol
edilen PS/2 ve RS232 veri iletiimi yöntemleri
kullanlmtr.
yaz yazma ilemi harf tanma temelli olduu için Harf
Tanma Temelli Testler ve dier testler olan Kelime
Tanma Temelli Testler gerçekletirilmitir. Testler
yaplrken Türkçe konuma seslerinin özellikleri
aratrlm ve elde edilen sonuçlar bu özellikler göz
önüne alnarak yorumlanmtr.
uramayan sesler olduu için tannma oranlarnn daha
yüksek olduu düünülmektedir. En düük %95, en
yüksek %100 ve ortalama %99.375 tannma oran elde
edilmitir. Ünsüz seslerin ise ses yolunda karlatklar
engeller nedeni ile tannma oranlarnn dütüü
deerlendirilmektedir (%93.4). Ünlü ve ünsüz harfler
için ortalama %95.2 dorulukla tanma gerçeklemitir.
Yine bu sonuçlara göre düzenli sesbirimi geçileri
olmayan, gürültü faktörünün hakim olduu patlamal
ünsüzler ve sürtünmeli ünsüzler için tannma oranlarnn
nispeten düük bulunduu, azn tamamen kapatlmas
ile oluan ünsüzlerde telaffuzun zorlamas nedeni ile
tannma doruluunun dütüü deerlendirilmektedir.
benzemesi sebebi ile ayrt etmede güçlüklerle
karlald düünülmektedir.
tarafndan daha yüksek performansta tanma
salanabilmesi için, kelimelerin sahip olmas gerekli olan
özelliklerine ilave olarak konumacnn ses özellikleri de
aratrlmtr. Bu testler ayn zamanda yeni çalmalarda
kullanlmas düünülen bu sistemin güvenilirliini
belirlemek için de yaplmtr.
olmayan ortamda esesli olan ve olmayan sesler için ayr
ayr yaplmtr.
veriler genel olarak incelendiinde, kelimeler neticede
harf temelli olduundan, bir önceki aamada
gerçekletirilen harf temelli testlerin sonuçlar ile
uyumakta olduu deerlendirilmektedir. Bu balamda,
e sesli olmayan kelimelerle gerçekletirilen ses
tanmadaki baarnn, ayn artlarda e sesli olan
kelimelerle gerçekletirilen tanmaya göre daha yüksek
olmasnn temel sebebinin, söylenileri birbirine benzer
olan eitim verileri olduu düünülmektedir. Esesli
olmayan kelimeler nerede ise %100 orannda tannrken,
e sesli olan kelimelerde bu oran %55-%72 arasndadr.
Esesli olan ve olmayan kelimelerin farkl gürültü
seviyelerine sahip ortamda tannmalarna ait ölçümler
60-65 dB, 65-70 dB ve 70-75 dB arasndaki gürültü
seviyelerinde gerçekletirilmitir. Esesli olmayan
%95, 65-70 dB gürültülü ortamda %86 ve 70-75 dB
gürültülü ortamda %68 tanma oranna ulalmtr.
Esesli olan kelimeler için ise 60-65 dB seviyelerinde
gürültülü ortamda %62, 65-70 dB gürültülü ortamda %53
ve 70-75 dB gürültülü ortamda %39 tanma oran
salanmtr.
kelimeler 65 dB gibi nispeten daha düük gürültülü
ortamlarda %95 orannda tannrken, e sesli olan
kelimelerde ayn artlarda bu oran %62 seviyelerindedir.
Bu durum gürültülü ortamlarn tannma orannn
dümesine neden olduunu göstermektedir.
Bu test sonuçlar hem e sesli olan ve olmayan eitim
verileri için ve hem de gürültülü ve gürültüsüz ortamn
sonuçlar için genel olarak deerlendirildiinde, genel
olarak tannma oran daha fazla olan harfleri barndran
kelimelerin daha yüksek dorulukla tannmas
beklenmektedir [26,34,35]. Ayrca bu sonuçlar üzerinde
eitim verilerinin farkl olmasnn da etkili olduu
düünülebilir. Bu balamda çkarlan dier bir sonuç ise
e sesli olmayan kelimelerle gerçekletirilen ses
tanmadaki baarnn, ayn artlarda e sesli olan
kelimelerle gerçekletirilen tanmaya göre daha yüksek
olmasnn temel sebebinin, söylenileri birbirine benzer
kelimelerin kullanld eitim verileri olduu
yorumlanabilir.
tanmadaki baary artrmak için yaplan testlere göre de
çkarm yaplan ve ayrca bunlardan bazlarnn
ölçümleri yaplmasna ramen açklamasnn çok uzun
olmas gerektii için zor olan durumlardan bazlar
aada sunulmaya çallmtr:
YERLEK VE GÖMÜLÜ UYGULAMALARDA KONTROL LEMLER VE PC’DE YAZI Y … Politeknik Dergisi, 2018; 21 (2) : 477-488
487
ortamna duyarll fazladr. Bu sebeple test örneklerinin
kaytlar srasnda oluan gürültü kelime tanma orannn
dümesine neden olmaktadr.
aamalarnda bozulabileceinden, gürültüsüz ortamda
tannmaktadr.
örneklerinin says azaldkça, performansn artt
gözlemlenmitir.
bir farkllk olumamaktadr.
çkarlamad için sesler arasnda farkl tanma oranlar
meydana geldii görülmütür.
performansn olumlu etkilemektedir.
orantldr.
nedeni ile sistemin performans azalmaktadr. Bu durum,
hafzaya yeni kelimeleri tekrar gerekli olan sra ile
yükleyerek belirli ölçülerde düzeltilebilir.
deiimlerinden dolay sistemde her kiide farkl tanma
oranlar meydana gelmektedir. Bunlar kontrol edilmeye
çallarak performans artrlabilir.
ekilde seçilmesinin tanma performansn olumlu
etkiledii düünülmektedir.
olmayan kelimeler için gürültüsüz ortamda %98, 60-
65dB gürültülü ortamda %95; esesli olan kelimeler için
ise gürültüsüz ortamda 67, 60-65dB gürültülü
ortamda %62 doruluk elde edilmitir. Bu duruma göre
sistem gürültülü ve gürültüsüz ortamda ortalama
olarak %80,5 tanma oran salamaktadr. Bu çalmann
temel konularndan birisi olan ünlü ve ünsüz harf tanma
ile PC’ye yaz yazma ilemleri için doruluk
ortalama %95.2 bulunmutur. imdiye kadar ifade
edilmeye çallan tanma performansna etki eden
snrlamalara dikkat edilmesinin olumlu etkileri olduu
gözlemlenmitir.
gibi gömülü sistemler ile dorudan tannabileceini ve
çeitli cihazlarn kontrolünde kullanlabileceini
Zeka veya Fuzzy Logic algoritmalar kullanlarak daha
doru tannma salanabilmesi için çalmalar yaplabilir
veya daha önceki konuma verileri kullalnlarak
kestirimler yaplmaya ve böylece daha akll ve örenen
bir sistem elde edilmeye çallabilir [36-38]. Ayrca
sistem müzik eitim setlerine adapte edilerek müzik
eitimin kalitesi artrlmaya çallabilir veya müzik
enstrümanlarnn akord ilemlerinde kullanlabilir. Ses
izi biyometrik bir özellik olduundan, sistem güvenlik
amaçl uygulamalarda kullanlabilir [26,14,15].
recognition for the speech and hearing impaired”,
Southeastcon '97. Engineering new New Century.,
Proceedings. IEEE, Blacksburg, VA, USA, 151-153,
(1997).
MCS51 microcontroller for controlling wheelchair”,
International Conference on Intelligent and Advanced
Systems, Kuala Lumpur, Malaysia, 1193-1198, (2007).
[5]. Mosbah B.B., “Speech recognition for disabilities
people”, Information and Communication
864-869, (2006).
Application”, Springer,_fulltext, pp:289-330.
J.L., “Speech recognition and in-vehicle telematics
devices: potential reductions in driver distraction”,
International Journal of Speech Technology, 7(1): 25–
33, (2004).
[8]. Lin P.C., Wang J.F., Lin S.C., Mo M.H., “An embedded
system design for ubiquitous speech interactive
applications based on a cost effective SPCE061a micro
controller”, UIC 2006, Ubiquitous Intelligence and
Computing, Springer-Verlag, Berlin Heidelberg, LNCS
4159: 83-92, (2006).
for game control”, IEEE, Poster Session I : System
Level Design, 0-7803-8322-2/04/$20.00 02004 IEEE,
97-99, (2004).
Proceedings of the 12th IEEE International Multitopic
Conference, 508-512, December, 23-24, (2008).
[11]. Ferrando F., Nouveau G., Philip B., Pradeilles P.,
Soulenq V., Van-Staen G., Courmontagne P., “A voice
recognition system for a submarine piloting”, OCEANS
2009 - EUROPE, Bremen, Germany, (2009).
[12]. Türk O., Arslan L.M., “Speech recognition methods for
speech theraphy”, Signal Processing and
Communications Applications Conference, 2004.
[13]. Fezari M., Salah M.B., “A voice command system for
autonomous robots guidance”, IEEE, AMC’06-Istanbul,
Turkey, pp:261-265, (2006).
elektronik nota eitim seti tasarm ve yapm”, IATS ’09,
5. International Advanced Technologies Symposium, Karabük, Türkiye, sayfa: 556 – 561, May 13-15, (2009).
[16]. Ruiz C.B., Tapias F.E.G., del-Brio B.M., Nuez A.B.,
Marques N.J.M., “Microcontroller implementation of a
voice command recognition system for human-machine
488
X/05/$20.00©, pp:587-591, (2005).
[20]. Chan F.Y., Khalid H.M., “Is talking to an automated
teller machine natural and fun?”, Ergonomics, 46(13-14):
1386–1407, (2003).
recognition system based on 8051 microcontroller core”,
IEEE Transactions on Consumer Electronics, 47(1):
149-153, (2001).
[22]. https://en.wikipedia.org/wiki/Data_transmission,
tanma düzeni tasarm ve yapm”, UMES’07, Kocaeli,
1: 395-398, (2007).
çalmalarnda kullanlabilecek düük maliyetli ve genel
amaçl bir veri toplama sisteminin (VTS)
gerçekletirilmesi”, Biliim Teknolojileri Dergisi, 4(3):
21-28, (2011).
[30]http://www.lima.com.tr/Support/Lima/PS2Keyboard_TR.
Japan.
http://www.noisemeasurement.com.au/downloads/NL-
sentezleyici”, DEÜ Müh. Fak. Fen ve Mühendislik
Dergisi, 3(1): 1-27, (2001).
ses olaylarnn snflandrlmas”, A.Ü. Türkiyat
Aratrmalar Enstitüsü Dergisi (TAED), Erzurum, 43:
121-143, (2010).
[36]. Goktas, H.H., Yucel, M., "A fuzzy logic based device for
the determination of temperature dependence of EDFAs",
Microwave and Optical Technology Letters, 50(9):
2331-2334, (2008).
[37]. Celebi, F. V.,Yucel, M., Goktas, H.H., “Fuzzy logic
based device to implement a single CAD model for a laser
diode based on characteristic quantities”, Optik, 123(6):
471-474, (2012).
“Intelligent modelling of alpha (α) parameter;
comparison of ANN and ANFIS cases”, Optoelectronics
and Advanced Materials – Rapid Communications,
7(5-6): 470–474, (2013).