Корпус-базирани лексиколошки и фразеолошки...

66
КОРПУС-БАЗИРАНИ ЛЕКСИКОЛОШКИ И ФРАЗЕОЛОШКИ ИСТРАЖУВАЊА: ТУРСКИТЕ ИСКУСТВА проф. д-р Октај Ахмед Универзитет Св. Кирил и Методиј Филолошки факултет „Блаже Конески“ Катедра за турски јазик и книжевност - Скопје

Upload: ukim

Post on 15-May-2023

0 views

Category:

Documents


0 download

TRANSCRIPT

КОРПУС-БАЗИРАНИ ЛЕКСИКОЛОШКИ И ФРАЗЕОЛОШКИ ИСТРАЖУВАЊА:

ТУРСКИТЕ ИСКУСТВА

проф. д-р Октај Ахмед

Универзитет Св. Кирил и МетодијФилолошки факултет „Блаже Конески“Катедра за турски јазик и книжевност

- Скопје

KRATOK ОСВРТ НА ИСТОРИЈАТОТ НА ТУРСКИТЕ ЛЕКСИКОЛОШКИ И ФРАЗЕОЛОШКИ ИСТРАЖУВАЊА

• Речниците се трудови кои имаат големо значење за утврдување на фондот на зборови на еден јазик во определено време.

• Најстарите турски записи датираат уште од 5. век, но првите комплексни текстови се Ѓоктурските натписи од 8. век.

• Во кинеските извори постојат и постари траги, но тие не се директно напишани на турски јазик, туку се преведени на кинески јазик.

KRATOK ОСВРТ НА ИСТОРИЈАТОТ НА ТУРСКИТЕ ЛЕКСИКОЛОШКИ И ФРАЗЕОЛОШКИ ИСТРАЖУВАЊА

• Почнувајќи од 11. век, постојат голем број на лексикографски трудови на турски јазик или кои се однесуваат на турскиот јазик. Во продолжение се дадени само на неколку вакви трудови.

• Турската лексикографска традиција започнува со делото „Dîvânü Lüġâti‟t-Türk“ (Речник на туркиските јазици) од Кашгарли Махмут, напишан меѓу 1072.-1074. година.

• Напишан е со цел да ги научи новите арапски пријатели од тоа време турски јазик.

• Авторот собрал богат дијалектен материјал од сите тогашни турски земји до кои можел да стигне.

KRATOK ОСВРТ НА ИСТОРИЈАТОТ НА ТУРСКИТЕ ЛЕКСИКОЛОШКИ И ФРАЗЕОЛОШКИ ИСТРАЖУВАЊА

• „Codex Cumanicus“ (Кодекс на Куманите): Непроценлив извор за северозападните туркиски јазици, а посебно куманскиот јазик.

• Речникот е поклонет на Венецијанската Република од страна на колекционерот на книги Петрарка во 1362. година.

• Единствениот примерок денес се наоѓа во библиотека на катедралата Св. Марко (Basilica Cattedrale Patriarcale di San Marco) во Венеција.

• Тоа е речник најверојатно напишан од страна на италијанските трговци и германските мисионери за полесна комуникација со Куманите (еден туркиски народ).

KRATOK ОСВРТ НА ИСТОРИЈАТОТ НА ТУРСКИТЕ ЛЕКСИКОЛОШКИ И ФРАЗЕОЛОШКИ

ИСТРАЖУВАЊА

• Италијанскиот дел на Кодексот се состои од 55 листа (110 страни) и е латинско-персиско-кумански речник. Првиот список е по азбучен ред, додека вториот список е тематски.

• Германскиот дел се состои од 27 листа (54 страни). Првиот список е куманско-германски, додека вториот е куманско-латински речник.

• Во делото дадени се и молитви, духовни песни, загатки, како и граматички податоци за наставките во куманскиот јазик.

• Самојлович тврди дека делото е напишано во 1294. година, но постојат и тврдења дека е напишан многу порано или дури нешто подоцна (1303).

KRATOK ОСВРТ НА ИСТОРИЈАТОТ НА ТУРСКИТЕ ЛЕКСИКОЛОШКИ И ФРАЗЕОЛОШКИ ИСТРАЖУВАЊА

• По доаѓањето на Турците во Мала Азија (Анадолија), најстариот двојазичен речник е „Lügat-ı Ferişteoğlu“ (Речникот на Фериштеоглу) од Фериштеоглу напишан во 14. век.

• Засега, тоа е најстар речник напишан во Анадолија и затоа е многу важен за филологијата.

• Речникот „Kâmûs-ı Türkî“ (Речник на турскиот јазик, http://www.kamusiturki.com) на Шемседдин Сами е прв турско-турски речник во кој наместо османо-турски или други имиња, се користи терминот „турски“. Првото издание датира од 1901. година. Содржи и многу архаизми и е важен за турската историска фонетика, морфологијата, а дадени се и етимолошки белешки.

KRATOK ОСВРТ НА ИСТОРИЈАТОТ НА ТУРСКИТЕ ЛЕКСИКОЛОШКИ И ФРАЗЕОЛОШКИ ИСТРАЖУВАЊА

• По основањето на Институтот за турски јазик (Türk Dil Kurumu) во Анкара во 1932. година од страна на Ататурк, издадени се голем број на речници и таа традиција трае сè до денес.

• Најновите верзии на речниците ги има на веб-страната на Институтот на адреса: www.tdk.org.tr

• Речникот на современиот турски јазик од страна на Институтот се објавува од 1945. год.

KRATOK ОСВРТ НА ИСТОРИЈАТОТ НА ТУРСКИТЕ ЛЕКСИКОЛОШКИ И ФРАЗЕОЛОШКИ ИСТРАЖУВАЊА

• На веб страната на Институтот за турски јазик може да се најдат следните речници:- Речник на современиот турски јазик- Речник на лични имиња- Речник на научните и уметничките термини- Фразеолошки речник

• Институтот издава и специјализирани речници за разни научни и други области, како и повеќејазични речници на туркиските јазици и други речници.

• Институтот организира и разни лексиколошки научни собири и финансиски подржува такви проекти.

КРАТОК ОСВРТ НА ИСТОРИЈАТОТ НА КОРПУСИТЕ

• Користењето на емпириски податоци секако дека има долга историја и пред појавата на компјутерите.- 1940’ите години: структурализам или користење на т.н. „корпуси во кутии за чевли“ (‘shoebox corpora’).- Во доцните 1950’и и 1960’и години: генеративна граматика, речиси и да нема корпус лингвистика.

- Како потсетување: Чомски имаше неколку аргументи против корпусите, насочени против „корпуси во кутии за чевли“.

- Важен исклучок: Браун корпусот (Brown University Standard Corpus of Present-Day American English) - 500 текстови, околу 1 милион зборови (1964, 1971, 1979).- 1980’и: се зголемува интересот за корпус лингвистиката.- 1990’и и потоа: се појавуваат големи компјутерски корпуси.

ШТО Е КОРПУС? ШТО Е КОРПУС ЛИНГВИСТИКА?

• Корпус е збир на текстови создадени на природен начин.

• Во лингвистиката и лексикографијата, корпус е збир на текстови, искази или други примероци кои го претставуваат јазикот, и кој обично е складиран електронски како база на податоци.

• Денес компјутерските корпуси може да содржат милиони и милијарди зборови, кои може да се анализираат преку тагирање (означување на класите на зборовите и други идентификатори) со употреба на програми за редење и усогласување на резултатите.

• Според тоа, корпус лингвистиката се занимава со податоците во овие корпуси.

ЗОШТО ДА СЕ КОРИСТАТ КОМПЈУТЕРИТЕ ПРИ ЛИНГВИСТИЧКИ ИСТРАЖУВАЊА?

• Компјутерите нудат повеќе различни придобивки при работата со текст:- лесно и брзо се манипулира со податоците (пребарување по разни основи, сортирање, итн.);- податоците се обработуваат точно и доследно;- податоците се обработуваат сигурно, без типичните грешки што човекот ги прави;- податоците автоматски се обележуваат и стануваат достапни за понатамошна обработка;- во интернет ерата: лесен пристап од било која страна на светот.

ЗОШТО КОМПЈУТЕРСКИТЕ КОРПУСИ СЕ КОРИСНИ?

• Неколку цели за кои служат корпусите:- нуди збирка на примероци за лингвистите;- извор на податоци за лексикографите;- наставен материјал за наставниците кои предаваат јазик и оние кои учат јазик;- материјал за компјутерски програми кои се бават со обработка на природни јазици;- материјали за препознавачите на говор;- материјали за статистички тагери и парсери на дел од говор;- помош при креирање на преведувачки системи;- и многу други.

КАРАКТЕРИСТИКИ НА КОРПУСИТЕ

• За да ги оправда претходните цели, корпусите мора ги имаат следните општи квалитети:- да се машински читливи;- да содржат автентични текстови;- мострите треба да ја образуваат основата на корпусот;- да го претставуваат јазикот или одреден дел на јазикот;- репрезентативноста треба да се темели на лингвистички или нелингвистички критериуми;- да се означени со јазична информација.

• Важно е да се напомене дека корпус-базираните истражувања се користат и поради вечните недостатоци на речниците.

• Денес постојат огромен број корпуси кои се достапни за истражувачите. Дадени се неколку, само како илустрација:

• Британскиот национален корпус (British National Corpus): 100 милиони зборови од различни текстови од крајот на 20. век. (http://www.natcorp.ox.ac.uk)

• Американскиот национален корпус (American National Corpus): 22 милиони зборови од различни текстови од 1990. година и потоа. (http://www.anc.org)

• Рускиот национален корпус (Национальный корпус русского языка): 350 милиони зборови. (http://ruscorpora.ru)

• Хрватски национален корпус (Hrvatski nacionalni korpus): околу 217 милиони токени. (http://hnk.ffzg.hr)

НЕКОЛКУ ВАЖНИ КОРПУСИ

КОРПУСИ НА ТУРСКИОТ ЈАЗИК

• Почнувајќи од 1990’ите години, образувани се повеќе компјутерски корпуси на турскиот јазик.

• Речиси сите корпуси на турскиот јазик се бесплатни за истражувачите.

• Ќе се набројат само поважните:

ТУРСКИ НАЦИОНАЛЕН КОРПУС

• Турскиот национален корпус:- 50 милиони зборови;- содржи 4438 текстови од различни области објавени меѓу 1990.-2009. година;- 2% од текстовите се транскрипти од говорниот јазик;- може онлајн да се пребарува по многу различни критериуми (потребно е регистрирање и логирање);- има еден од најдобрите интерфејси за пребарување.

ТУРСКИ НАЦИОНАЛЕН КОРПУС

• http://www.tnc.org.tr

МЕТУ ТУРСКИ КОРПУС

• Турскиот корпус на Техничкиот универзитет на средниот исток (Анкара):- 2 милиони зборови;- содржи различни текстови објавени во 1990. година и потоа;- текстовите се од 10 различни области;- од еден извор се земени максимум 2 примерока;- секој примерок содржи 2000 зборови или примерокот завршува кога последната реченица ќе заврши;- корпусот се дистрибуира со алатки за пребарување по различни основи.

МЕТУ ТУРСКИ КОРПУС

• http://ii.metu.edu.tr/corpus

ТС КОРПУС

• ТС Корпус е корпус изработен од Танер Сезер:- содржи 491 милиони токени;- се состои од различни поткорпуси, кои можат посебно да се пребаруваат, како корпуси на различни текстови, корпус на твитови на турски јазик, корпус на текстови од Википедија, корпус на вести за протестите за паркот Гези и многу други;- по корпусот може да се пребарува онлајн (не е потребна регистрација и логирање).

ТС КОРПУС

• http://tscorpus.com

КОРПУС НА ГОВОРНИОТ ТУРСКИ ЈАЗИК

• Корпус на говорниот турски јазик се состои од:- 18 избрани аудио снимки и архива од Радиото на Техничкиот универзитет на средниот исток од разговори лице в лице;- текстовите се транскрибирани, за да можат да се пребаруваат;- целта е да се создаде корпус од 1 милион зборови од говорниот јазик.

КОРПУС НА ГОВОРНИОТ ТУРСКИ ЈАЗИК

• http://std.metu.edu.tr

АНГЛИСКО-ШВЕДСКИ-ТУРСКИ КОРПУС

• Од странските корпуси кои го тангираат турскиот јазик, Англиско-шведско-турскиот корпус е изработен во 2010. година од страна на Универзитетот во Упсала (Шведска).- целта е да им се помогне на изучувачите на овие јазици, како би можеле да вршат контрастивни истражувања;- корпусот се состои од паралелни корпуси на трите јазици;- зборовите, речениците, пасусите и текстовите се поврзани еден со друг во паралелните корпуси;- не може да се пребарува онлајн.

АНГЛИСКО-ШВЕДСКИ-ТУРСКИ КОРПУС

http://stp.lingfil.uu.se/~bea/turkiska/home-en.html

ПОВЕЌЕЈАЗИЧЕН ГОВОРЕН КОРПУС НА ТУРСКИОТ ЈАЗИК

• Повеќејазичниот говорен корпус на турскиот јазик е развиен од страна на Универзитетот за надворешни студии во Токио во 2006. година.- мал корпус од 42000 зборови;- се состои од 10 дијалози водени околу различни теми;- не може да се пребарува онлајн.

ПОВЕЌЕЈАЗИЧЕН ГОВОРЕН КОРПУС НА ТУРСКИОТ ЈАЗИК

http://www.coelang.tufs.ac.jp/multilingual_corpus/tr/index.html?contents_xml=top&menulang=en

ИСТОРИСКИ КОРПУС НА СТАРОТУРСКИОТ ЈАЗИК И КАРАХАНЛИСКИОТ ТУРСКИ ЈАЗИК

(7.-13. ВЕК)• Со овој корпус се опфатени 38 ракописи од 6

века (7.-13. век).• Корпусот содржи 450000 зборови.• Сите зборови се тагирани.• Одлична база за создавање на уште

подобри историски речници на турскиот јазик.

• По корпусот може слободно да се пребарува онлајн (не е потребна регистрација и логирање).

ИСТОРИСКИ КОРПУС НА СТАРОТУРСКИОТ ЈАЗИК И КАРАХАНЛИСКИОТ ТУРСКИ ЈАЗИК

(7.-13. ВЕК)• http://derlem.cu.edu.tr

ПРОЕКТИ ЗА ТУРСКИ КОРПУСИ

• Список на проекти за турски корпуси:- содржи податоци и линкови за 13 проекти;- овие проекти се претежено финансирани од владиниот Турски совет за научни и технолошки истражувања (ТÜBİTAK);- корпусите се однесуваат од историскиот развој на турскиот јазик, преку онлајн речници за ученици, неологизми, инфинитни глаголски форми, па сè нови корпуси на стандардниот јазик.

ПРОЕКТИ ЗА ТУРСКИ КОРПУСИ

• http://turkcederlem.mersin.edu.tr

ИСКУСТВА СО ТУРСКИТЕ КОРПУСИ

• Првичниот интерес за компјутерска лингвистика се појавува меѓу истражувачите од одделите за компјутерски науки, потоа одделите за англиска лингвистика, за да дури на крајот се вклучат одделите за општа лингвистика, како и турска лингвистика.

• Првите трудови се објавени во 1980’ите години, додека помасовен интерес се забележува од почетокот на 1990’ите години.

• Овие први трудови се полни со компјутерски модели и теориски поставки за турскиот јазик.

ИСКУСТВА СО ТУРСКИТЕ КОРПУСИ

• Овие истражувања финансиски се поткрепени претежно од страна на владиниот Турски совет за научни и технолошки истражувања (ТÜBİTAK).

• По ставањето во употреба на компјутерските корпуси, забележлив е напливот на огромен број трудови кои како основа ги користат овие корпуси.

• Еден дел од истражувачите во своите истражувања користат и корпуси кои самите ги развиле за свои цели или свои истражувања.

• Во продолжение дадени се примери за трудови кои користат разни компјутерски корпуси.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ТУРСКИОТ НАЦИОНАЛЕН КОРПУС

• Во турската корпус лингвистика, најголем дел од трудовите го користат Турскиот национален корпус како основа за истражување.

• Овие трудови во најголем дел се на ниво на научни статии, но постојат и поголеми трудови.

• Како илустрација, може да се наведат следните трудови:

ТРУДОВИ СО РЕЗУЛТАТИ ОД ТУРСКИОТ НАЦИОНАЛЕН КОРПУС

• Yeşim Aksan, Mustafa Aksan (2009). Building a national corpus of Turkish: Design and implementation. Working Papers in corpus-based linguistics and language education No:3, 299-310. Tokyo: Tokyo University of Foreign Studies.

• Податоци за тоа како е дизајниран и имплементиран Турскиот национален корпус.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ТУРСКИОТ НАЦИОНАЛЕН КОРПУС

• Ümit Mersinli, Mustafa Aksan (2011). Türkçenin Biçimbirim ve Sözcük Türü İşaretlemesi. 24. Ulusal Dilbilim Kurultayı Bildiri Kitabı, 367-376, Ankara: ODTÜ Basım İşliği.

• Тагирање на морфемите и зборовните класи во турскиот јазик.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ТУРСКИОТ НАЦИОНАЛЕН КОРПУС

• Yeşim Aksan, Yılmaz Yaldır (2011). Türkçe Sözvarlığının Nicel Betimlemesi. 24. Ulusal Dilbilim Kurultayı Bildiri Kitabı, 377-387, Ankara: ODTÜ Basım İşliği.

• Квантитативен опис на турскиот вокабулар.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ТУРСКИОТ НАЦИОНАЛЕН КОРПУС

• Aygül Uçar, Özlem Kurtoğlu (2011). Eylemlerde Çokanlamlılık: Sözlük Verisinin Derlem Temelli Görünümleri. 24. Ulusal Dilbilim Kurultayı Bildiri Kitabı, 398-410, Ankara: ODTÜ Basım İşliği.

• Глаголска полисемантика, корпус базирани прикази на лексиколошките податоци.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ТУРСКИОТ НАЦИОНАЛЕН КОРПУС

• Aygül Uçar, Özlem Kurtoğlu, İpek Yıldız (2011). Sözcük Türlerindeki Belirsizlikler Üzerine Derlem Temelli Bağlam-İçi Gözlemler, 25. Ulusal Dilbilim Kurultayı Bildiri Kitabı, 5-7 Mayıs 2011, 227-236. Adana: Çukurova Üniversitesi.

• Yeşim Aksan, Ümit Mersinli, Yılmaz Yaldır, Umut Ufuk Demirhan (2012). Türkçe Ulusal Dil Derlemi Projesi Biçimbirim Çalışmalarında Belirsizliklerin Sınıflandırılması ve Dağılımı. 25. Ulusal Dilbilim Kurultayı Bildiri Kitabı, 219-226. Adana: Çukurova Üniversitesi.

• Класификација на неопределеноста во зборовните класи и нивната дистрибуција во рамките на морфолошките истражувата во Турскиот национален корпус.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ТУРСКИОТ НАЦИОНАЛЕН КОРПУС

• Yeşim Aksan, Mustafa Aksan, Ahmet Koltuksuz, Taner Sezer, Ümit Mersinli, Umut Ufuk Demirhan, Hakan Yılmazer, Gülsüm Atasoy, Seda Öz, İpek Yıldız (2012). Construction of the Turkish National Corpus (TNC). Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012). İstanbul.

• Конструкција на Турскиот национален корпус.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ТУРСКИОТ НАЦИОНАЛЕН КОРПУС

• Yeşim Aksan, Aygül Uçar (2012). Türkçe Sözvarlığının Öğretiminde Derlem Kullanımı: Türkçe Ulusal Derlemi Örneği, Türkçe Öğretiminde Güncel Çalışmalar, Mersin Üniversitesi, 103-112.

• Употребата на корпусите во учењето на турскиот вокабулар, со примери од Турскиот национален корпус.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ТУРСКИОТ НАЦИОНАЛЕН КОРПУС

• Ümit Mersinli, Mustafa Aksan (2012). Biçimbirim Açıklama ve Belirginleştirme, 25. Ulusal Dilbilim Kurultayı Bildirileri, Adana, 213-218.

• Дескрипција и појаснување на морфемите.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ТУРСКИОТ НАЦИОНАЛЕН КОРПУС

• Oktay Ahmed (2014). Türkçede Üst Üste Gelen Olumsuzluk Ekiyle Kurulmuş Yapılar: Türkçe Ulusal Derlemi (TUD) Örnekleri, Hikmet 23, Mayıs 2014, 10-41.

• Конструкции образувани со двојна наставка за негација. Сите примери се од Турскиот национален корпус.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ПОВЕЌЕ КОРПУСИ

• Yeşim Aksan, Ümit Mersinli ve Yılmaz Yaldır (2011). İlköğretim Türkçe Ders Kitapları Derlemi ve Türkçe Ulusal Dil Derlemi Örneklemindeki Sözcük Sıklıkları, Türkçe Öğretimi Üzerine Çalışmalar, 397-408. İzmir: Dokuz Eylül Üniversitesi Yayınları.- Фреквентност на зборовите во два корпуси: Корпус на учебници по турски јазик за основно образование и Турски национален корпус.

• Aygül Uçar, Özlem Kurtoğlu (2010). A Corpus-Based Account of Polysemy in Turkish: The Case of the Verb ver- `give`, The Szeged Conference - Proceedings of the 15th International Conference on Turkish Linguistics held on August 20-22, 2010 in Szeged, 539-551.- Корпус-базирано истражување за полисемијата во турскиот јазик, односно примерот со глаголот ver- (дава). Примерите се од Турскиот национален корпус, а областите што се опфатени се лексикографијата и фразеологијата.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ТУРСКИОТ НАЦИОНАЛЕН КОРПУС ЗА РАЗНИ

КОМПЈУТЕРСКИ ПРОГРАМИ• Mustafa Aksan, Ümit Mersinli (2011). A corpus based

Nooj module for Turkish. Proceedings of the Nooj 2010 International Conference and Workshop, 29-39. Komotini: Democritus University.

• Ümit Mersinli (2012). Disambiguating Turkish with NooJ. Automatic Processing of Various Levels of Linguistic Phenomena: Selected Papers from the NooJ 2011 International Conference, 134-141. Newcastle: Cambridge Scholars.

• Umut Demirhan, Mustafa Aksan (2012). Tagset for NooJ Turkish Module. Automatic Processing of Various Levels of Linguistic Phenomena: Selected Papers from the NooJ 2011 International Conference, 86-95. Newcastle. Cambridge Scholars.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ПОСЕБНИ / ПРИВАТНИ КОРПУСИ

• Aygül Uçar, Cezmi Koca (2011). Gülme Düzleminde Komedi Dükkânı ile Ortaoyunu Arasındaki Bağ ve Dilsel Komik (Söz Komiği) Açısından Bir Karşılaştırma, Dil ve Edebiyat Dergisi, 8:2, 39-63, 2011.

• Корпусот се состои од 713000 зборови, добиени со транскрипција видео материјал од пет сезони на серијалот „Продавница за комедија“.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ПОСЕБНИ / ПРИВАТНИ КОРПУСИ

• Bülent Özkan (2011), Türkiye Türkçesinde Belirteçlerle Fiillerin Birlikte Kullanılması ve Eş Dizimlilikleri: Derlem Temelli Bir Uygulama, Türk Dil Kurumu Yayınları, Ankara.

• Ова е прва монографија (467 страни) која е базирана на посебен корпус, во која се дадени резултатите од истражувањата за меѓусебниот однос на прилозите и глаголите.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ПОСЕБНИ / ПРИВАТНИ КОРПУСИ

• Bülent Özkan (2011). Türkiye Türkçesinde İkili Tekrarlar, Turkish Studies, Volume 6/1, 1572-1594.- Двојни редупликации во турскиот јазик. Користен е посебен корпус.

• Duygu Ak Başoğul, Cansu Aksu (2015). Türkçe Sözlü Söylemde “Kesin, Kesinlikle ve Mutlaka” Kiplik Belirteçlerinin Dilbilgisel Sıklık ve Kullanımı, Uluslararası Sosyal Ara tırmalar Dergisi, Cilt: 8 Sayı: 38, Haziran 2015, 7-20.- Фреквентност и употреба на модалните прилози Kesin, Kesinlikle и Mutlaka во турскиот говорен јазик. Користен е посебно креиран корпус, добиен со транскрипција на 15 часа аудио материјал.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ПОСЕБНИ / ПРИВАТНИ КОРПУСИ

• Özlem Kurtoğlu, Aygül Uçar (2012). İlköğretim Türkçe Ders Kitaplarında Yer Alan Sözvarlığının Derlem Temelli İncelenmesi, Türkçenin Eğitimi-Öğretimi Üzerine Çalışmalar, 93-102. Ankara: Pegem Akademi.

• Вокабуларот во учебниците по турски јазик од основното образование. Употребен е корпус од 431637 зборови кој се состои од објавени учебници меѓу 2006.-2010. година од страна на 29 издавачки куќи.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ПОСЕБНИ / ПРИВАТНИ КОРПУСИ

• Yasemin Yalçın, Aygül Uçar (2014). Muhafazakarlık Söyleminde Aile: Değerlendirme Kuramıyla Derlem Temelli Bir Inceleme, 27. Ulusal Dilbilim Kurultayı Bildirileri, Hacettepe Üniversitesi Yayınları, 339-350.

• Семејството во говорите на конзервативците. Корпусот е создаден од електронските изданија на 5 дневни весници објавени меѓу 12 јуни 2011 и 30 јуни 2012, со пребарување по клучен збор „семејство“.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ПОСЕБНИ / ПРИВАТНИ КОРПУСИ

• Oktay Ahmed, Türkçe’de “Değil” Edatının Pek Ele Alınmayan Bir Özelliği Üzerine, Hikmet 21, Mayıs 2013, 10-25.

• Резултати за партикулата „değil“ кои не се многу опфатени со досегашните истражувања. Истражувањето е базирано на приватен корпус на авторот.

ТРУДОВИ СО РЕЗУЛТАТИ ОД ПОСЕБНИ / ПРИВАТНИ КОРПУСИ

• Освен овие неколку примери, објавени се стотици трудови од областа на корпус базираните лексиколошки и фразеолошки истражувања на турскиот јазик.

• Поради ограниченото време, не се дадени примери за трудови за другите корпуси.

• Зошто се дадени овие трудови со толку различни истражувања? - За да се даде идеја и импулс на научниците во Македонија за корпус-базирани истражувања.

ПРИМЕР ЗА ПРИВАТЕН КОРПУС

• Корпусот на авторот во овој момент се состои од 608 книги во електронски формат.

• Најпрвин, електронските книги од PDF, DOC, ЕPUB, MOBI, RTF или друг формат се преформатирани во TXT формат.

• Кодирањето е со UTF-8 верзијата на Unicode.• По потреба, текстовите се рачно обработени.• Сите текстови се складирани во еден фолдер, кој

има резервна копија (backup) и на интернет (Dropbox).

КОРИСТЕНА АПЛИКАЦИЈА

• За пребарување се користи апликацијата AntConc 3.2.0u (Linux) од ноември 2006, на авторот: Laurence Anthony, School of Science and Engineering, Waseda University, Japan.

• Постои и понова верзија на апликацијата: AntConc 3.4.3u (Linux) од септември 2014.

• Последната верзија за Windows e: AntConc 3.4.4 (Windows).

• Адреса од каде може да се симне:http://www.laurenceanthony.net/software/antconc

ПРИМЕРИ ЗА ПРЕБАРУВАЊЕ ВО ТУРСКИОТ НАЦИОНАЛЕН КОРПУС

• Празен интерфејс (1):

ПРИМЕРИ ЗА ПРЕБАРУВАЊЕ ВО ТУРСКИОТ НАЦИОНАЛЕН КОРПУС

• Празен интерфејс (2):

ПРИМЕРИ ЗА ПРЕБАРУВАЊЕ ВО ТУРСКИОТ НАЦИОНАЛЕН КОРПУС

• Термин за пребарување: göz

ПРИМЕРИ ЗА ПРЕБАРУВАЊЕ ВО ТУРСКИОТ НАЦИОНАЛЕН КОРПУС

• Термин за пребарување: göz kulak ol

ПРИМЕРИ ЗА ПРЕБАРУВАЊЕ ВО ANTCONC 3.2.0u

• Термин за пребарување: başı?ı belaya sok*

ПРИМЕРИ ЗА ПРЕБАРУВАЊЕ ВО ANTCONC 3.4.3u

• Термин за пребарување: göz ardı et*

ПРИМЕРИ ЗА ПРЕБАРУВАЊЕ ВО GOOGLE BOOKS

• Воведна страна:

ПРИМЕРИ ЗА ПРЕБАРУВАЊЕ ВО GOOGLE BOOKS

• Термин за пребарување: “aşağı yukarı”

ДРУГИ РЕСУРСИ ЗА ЛЕКСИКОЛОШКИ И ФРАЗЕОЛОШКИ ИСТРАЖУВАЊА

• Покрај корпусите, постојат и други ресурси за пребарување, кои на прв поглед не изгледаат како корпуси, но може да се користат за истражување:- Google- Google Books- Google Scholar- Google Desktop- Academia.edu- Twitter- сајтови на печатени и електронски медиуми- програми за тагирање, парсирање, анализа- листи на зборови- програми за обработка на природни јазици- и др.

ЗАКЛУЧОК

• Компјутерските корпуси се започнати како компјутерски модели со рамките на компјутерските науки, како дел од обработката на природните јазици.

• Првин се започна на ниво на научни статии (преку моделирање), за потоа преку проекти се реализираат како готови корпуси.

• Објавени се огромен број на статии и книги како резултат на овие корпуси, кои се значајна придобивка за лингвистиката.

ЗАКЛУЧОК• Резултатите од корпус-базираните лексиколошки и

фразеолошки истражувања придонесуваат кон подобри, поквалитетни, покомплетни и посовремени речници, кои го следат природниот развој на јазикот.

• Во Турција, многу е значајно што најголем број од проектите за корпус лингвистиката се поддржани со државни пари, преку владиниот Турски совет за научни и технолошки истражувања (ТÜBİTAK).

• Треба сериозно да се размислува за креирање и финансирање на разни компјутерски корпуси во Македонија.

ВИ БЛАГОДАРАМ НА ВНИМАНИЕТО

www.OktayAhmed.com

[email protected], [email protected]