| Proje Ismi: |
|
||
| Kuruluşlar: | * ODTÜ Enformatik Enstitüsü | ||
| Proje Grubu: | * Yard. Doç. Dr. Bilge Say
(Proje Yürütücüsü)
* Prof. Dr. Wolf Konig * Prof. Dr. Deniz Zeyrek * Araş. Gör. Umut Özge | ||
| Projeye Geçmişte Katkıda Bulunanlar | * Doç. Dr. Cem Bozşahin
* Yard. Doç. Dr. Ümit Deniz Turan * Dr. Ayşenur Birtürk * Araş. Gör. Barış Çağrı Genç * Devrim Saran (kodlayıcı) * Aygün Boduroğlu (kodlayıcı) * Sedef Akgül (kodlayıcı) * Deniz Canturk(kodlayıcı) * Barış Şara (kodlayıcı) |
||
| Özet: | Günümüzde gerek dilbilim gerekse bilgisayarlı doğal dil işleme programlarının geliştirilmesinde elektronik ortamda bulunan ve dilbilimsel ve dilbilimötesi ön işlemlerden geçirilmiş, bir dilin yazılı ve sözlü kullanımlarını içeren derlem (İng. corpus) gibi kaynakların geliştirilmesi ve kullanılması hız kazanmıştır. Elektronik sözlük dışında Türkçe için günümüzdeki kullanımı ve yapıyı sağlıklı olarak yansıtan büyüklükte ve çeşitlilikte, üzerinde çalışma yapılmasını kolaylaştırıcı dilbilimsel ön işlemlerden geçmiş, konuyla ilgili araştırıcılara açık bir derlem yoktur ve eksikliği çekilmektedir. Böyle bir derlemin geliştirilmesi değişik disiplinlerden araştırıcı ve geliştiricilerin çalışmaları için bir temel olacaktır. Bunlar arasında bilgisayarlı çeviri, otomatik metin özetleme, ses tanıma gibi bilgisayar mühendisliği uygulamalarının yanısıra bilişsel bilimler ve dilbilim açısından dilin sözdizimsel, anlam ve söylembilimsel öğelerinin incelenmesi ve teorik tezlerin desteklenmesi için deneysel veri toplanması; cinsiyet, yazın türü gibi öğelere göre kullanım farklılıklarının araştırılması ve elde edilen verilerin dil eğitiminde kullanılması gibi alanlar vardır. Bütün bu araştırmalarda eldeki derlemin elektronik ortamda tutulması dilbilimsel (her sözcüğün sözdizimsel kategorisi vb.) ve dilbilimötesi (seçkinin türü, yazarı vb.) işaretlerle işlenmiş olması ve bilgisayar programcılığı deneyimleri olmayanların da kullanabileceği şekilde kimi Türkçe’ye özel yazılımlarla sunulması zaman kazanımı ve sağlıklı veriler elde edebilme açısından cazip olacaktır. Yapılan çalışmanın kapsamı Türkçenin 90lı yıllardaki yazılı kullanımlarından (gazete ve dergi makale ve haberleri, akademik makaleler, edebi eserler, radyo oyunları ve konuşmaları vb.) oluşturulan 2 milyon kelimelik bir seçkiyi uluslararası standartlara uygun bir şekilde dilbilim-ötesi ve dilbilimsel işaretlerle kodlayarak uygun erişim yazılımlarıyla beraber bir CDlik bir derlem olarak araştırma ve geliştiricilere sunmaktır. | ||
| Projenin
Son Durumu: Mayıs, 2003 |
* Derlem içeriği 2.000.000 kelimeye ulaşmıştır.
* İşaretleme işleminin yarı otomatik yapılması için yazilim geliştirilmiştir. * İşaretleyicilerin daha verimli çalışmasına olanak veren XML tabanlı bir editor/cözümleyici bir yaz projesi olarak geliştirilmiştir. * Kullanıcılara yönelik arama ve sonuçların değerlendirilmesine olanak sağlayan derlem kullanıcı yazılımı geliştirilmiştir. * Bu proje şu an sonlanmıştır. Resmi bitiş, düzeltmeler ve derlem ile birlikte verilecek olan yazılım tamamlandığında duyurulacaktır. Eger Türkçe Ağaç Yapılı Derlem'i veya Türkçe Derlem'i akademik amaçlar için kullanmak istiyorsanız lütfen Bilge Say ile temasa geçiniz. |
||
| İlgili Linkler: | * Türkçe İçin Biçimbirimsel ve Sözdizimsel
Olarak İşaretlenmiş Ağaç Yapılı Derlem Projesi
* SGML Araçları * Diğer Linkler * Proje Grubu Özel Bölümü |
||
| Destekleyen Kuruluşlar: | METU-AFP |