GENSYS

Bilgisayar ve Yazılım

 

Home Yukari GenSys

 

Home
Yukari
GenSys
GenSys

 




Not: Aşağıdaki proje şimdilik askıya alınmıştır. Bu konudaki çalışmalarımıza ara verip çalışmalarımızı Düşünen Bilgisayar projesine kaydırmış bulunmaktayız.
   

Tanıma Oranının %95 olması bekleniyor

   Konuşma Tanıma (Voice Recognition) tüm dünyada birçok uzmanın çalıştığı, yeni gelişmeye çalışan bir teknoloji. Geçmişte Microsoft Speech SDK, Microsoft Dictation, Dragon Dictate gibi programlar piyasaya çıktı fakat üstün bir tanıma becerisine sahip olamadılar. Bunlardan başka da dünyada yaygın olarak kullanılan program pek olmadı. Genelde Hidden Markov Model (HMM) tekniğine dayanan programlarda tanıma yüzdesi kelime olarak %75 civarında olmaktadır. Bizim konuşma tanıma alanında 17 yıllık bilgi birikimimiz mevcut olup, 1 yıldan uzun bir süredir konuşma tanıma üzerine yoğun çalışmalarımız sürmektedir. Türkçe'nin konuşma tanımaya yatkın sistematik bir dil oluşu bizim işimizi kolaylaştırmaktadır. Kendi geliştirdiğimiz bir yöntemle (HMM değil) şu ana kadar yaptığımız denemelerden kaynaklanarak düzgün konuşmalarda kelime olarak %95 civarında doğru tanıma yüzdesi hedeflemekteyiz.

Bu ne anlama geliyor: %95 doğru tanıma: 20 kelimede 1 hata düzeltme demek. Yani klavyeden daha iyi olabilir ve klavyenin yerini alabilir. Bütün konuşma tanıma programlarında kişiye özel tanıma oranı daha yüksektir. Yani kullanıcı önce saatlerce gırtlak patlatır ve kendi sesini programa tanıtır. Bu bazen gırtlak ve baş ağrısı bile yapar. Biz şu anda bu engelleri aşmak ve tanımayı genelleştirmek için uğraşıyoruz. Bu amaçla bol miktarda ses örneğine ihiyacımız oluyor. Eğer programımız sizin sesinizi de başarılı biçimde tanısın istiyorsanız bize aşağıda açıklandığı gibi ses örneği gönderip bize yardımcı olabilirsiniz.

Hayal gücü kuvvetli olanlar bu teknolojiyi ve neler yapılabileceğini herhalde çoktan hayal etmiştir. Biz öncelikle bu konuda çalışmak isteyen yazılım konusunda uzman kişilere teknik destek vermek istiyoruz. Konuşma tanıma teknolojisini kullanarak ürün geliştirmek isteyenler bizimle ICQ'dan veya email ile irtibata geçebilirler. Konuşma tanıma teknolojisine dayanan elektronik cihaz veya yazılım geliştirme konusunda bizimle irtibata geçebilirsiniz.

Neler Yapılabilir:
  •  Programlarda veri giriş,çıkışı için kullanılabilir.
  •  Oyunlarda kullanılabilir. Mesela bir askeri birliği sesle komuta edebilirsiniz.
  •  Bilgisayarla sohbet programı yapılabilir.
  •  Eğer Türkçe'nin ve diğer dillerin yapısı çıkarılırsa konuşmadan konuşmaya bir tercüme programı yapılabilir.
  •  Bir kişinin konuşmasını başka bir kişinin sesine çevirmek mümkün olabilir.
  •  İletişim araçlarında bir konuşmanın karşı tarafa sadece harfler dizisi şeklinde aktarılmasında kullanılabilir.
  •  Giyilebilir bilgisayarlarda kullanılabilir.
    Mesela parkta gezerken aklınıza bir fikir geldi. Kablosuz olarak merkez bilgisayarınıza radyo bağlantısı ile bağlantılı giyilebilir bilgisayarınıza konuşarak merkezdeki bilgisayarınıza bunu kaydedebilirsiniz veya programları kullanabilirsiniz. Veya deniz kıyısındayken konuşarak İnternet aracılığı ile Arjantin'deki biriyle İspanyolca bilmediğiniz halde sohbet edebilirsiniz.
  •  Özürlü vatandaşlarımızın yardımcısı olabilir. Mesela işitme engelliler için karşıdaki kişinin söylediğini yazıya döker (şu anda arka-plan seslerden ayırt etme problemi bütün ASR'lerde mevcuttur fakat ileride çözülebilir). Görme engelliler veya yazma özürlüler için hem konuşarak yazmak ve kumanda etmek hem de yazılanın bilgisayar tarafından okunması mümkün olabilir.
  •  Bilgisayarlarla doğal yolla iletişime geçeceğimiz için gelecekte daha doğal bilgisayar sistemleri yapılacaktır. Bunun sonucunda daha akıllı bilgisayarlar ortaya çıkacaktır. Gelin bu treni kaçırmayalım.
  •  Microsoft,IBM,Philips,AT&T ve daha benzeri birçok dünya devi kuruluş ve üniversite bu konuda büyük çabalar sarfetmektedir. Mart 2003 de ELSNET'e (speech org.) kayıtlı 1472 Amerikan organizasyonu bulunmakla birlikte Türkiye'den sadece 3 organizasyon kayıtlıdır. Demek istediğim; Dünya'da birçok teknolojik kuruluş bu konuda çaba sarfettiğine göre gelişme sağlanması kaçınılmazdır. Ama Türkiye bu konuda geri kalmamalıdır. Biz GenSys olarak, henüz hiçbir kişi veya kuruluştan destek almadık ve tamamen kendi çabamızla bir sistem geliştirmekteyiz. Gerekli olan konuşma örneklerini bile bulmakta zorlanıyoruz. Türkiye'deki üniversitelerin hiçbirinde, yararlanabileceğimiz halka açık bir kaynak yok (Uludağ Ünversitesinden Figen Ertaş ve Ömer Eskidere'nin bir yazısı hariç). Türkiye veya Türkçe konuşan ülkelerin kuruluşlarının da bu konuda faydalı olacak, bizim gibi çalışmalarda bulunanlara destek olacak birşeyler yapması gerektiğini düşünüyorum.
  •  Bunlar hemen aklıma geliverenler. Daha birçok şey yapılabilir.



Yukarıdaki LPC spektrogramında "pu tu ku" denilmiş.

 





Kendi sesinizi bize nasıl göndereceksiniz?


  •  Herhangi bir ses kaydetme programı ile 11025-22050 arasında (16000 Hz tercih edilir) PCM formatında kayıt yapın.(8 bit olabilir)
  •  Dalga yüksekliğini orta seviyede tutmaya çalışın. Yani dalga grafiğine bakılınca yukarıdan kesilmesin ve ortalarda olsun.
  •  Arka planda başka bir ses veya gürültü olmasın.
  •  Mikrofona nefesiniz gitmeyecek şekilde yanda tutun.
  •  Tane tane, yavaş, düzgün, anlaşılır (biraz yüksek sesle) konuşun.
  •  Önce tek bir dosya içinde a,e,ı,i,o,ö,u,ü seslerini kaydedin.
  •  Sonra her bir sesli için ayrı dosyada alfabedeki sessiz harfleri kaydedin.
    Örn: alf-a.wav dosyasında aba,aca,aça,ada,afa,aga,ağa...aza şeklinde.
    alf-e.wav'da ebe,ece,eçe,ede...eze şeklinde.
    alf-ı.wav'da ıbı,ıcı,ıçı,ıdı...ızı şeklinde kaydedin.
  •  Dosyaları sıkıştırıp, mail veya ICQ ile adınızı soyadınızı ve yaşınızı belirterek bize gönderin.



Ses örneği gönderenler

  •  Suat Esen
  •  Meriç Şentunalı
Kendilerine teşekkür ediyoruz.




Home Yukari GenSys