• Sonuç bulunamadı

Ses ‹çinde Kelime Aramak

N/A
N/A
Protected

Academic year: 2021

Share "Ses ‹çinde Kelime Aramak"

Copied!
1
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

Bilgisayar üzerinde metin tabanl› uygulama-larla s›kça hafl›r neflir olan ve zaman zaman bil-gisayarda kay›tl› onca sayfan›n içinde özel bir ko-nuyu bulmak isteyenler, Find (Bul) komutunun de¤erini gayet iyi bilirler. Bu komut sayesinde, binlerce sayfa metin aras›nda ilgilendi¤iniz bir veya birkaç kelimeyi kolayca aratmak ve sonuçla-r›n saniyeler içinde karfl›n›za dizilmesini sa¤la-mak mümkün.

Ancak kelime bazl› arama ifllemini metinler üzerinde uygulamak ne kadar kolaysa, ayn› fleyi sesli olarak kaydedilmifl arflivler üzerinde uygula-mak da bir o kadar zor ve zahmetli. Oysa dünya üzerinde ses ve video olarak arflivlenen bilgilerin ulaflt›¤› ak›l almaz boyutlar göz önüne al›nd›¤›n-da, bu arflivlerin içeri¤inde kelime bazl› arama yapabilecek h›zl› ve güvenilir bir yöntemin gerek-lili¤i aç›kça ortaya ç›k›yor. Televizyon ve radyola-r›n yay›n arflivlerinin taranmas›ndan flirketlerin ça¤r› merkezi kay›tlar›n›n kontrolüne, hatta söz-cük bazl› otomatik yönlendirme sitemlerine ka-dar böyle bir teknolojinin hayat› kolaylaflt›rabile-ce¤i bir çok uygulama alan› saymak mümkün.

‹flte bu nedenle araflt›rmac›lar, yaklafl›k 10 y›l-d›r ses kay›tlar› içinde sözcük bazl› arama yapabil-menin kolay uygulanabilir ve h›zl› bir yolunu bul-mak için çaba harc›yorlar. Bundan k›sa bir süre öncesine kadar, bu iflin gerçeklefltirilebilmesi için uygulanan geçerli tek yolun LVCSR (Large Vocabu-lary Continuous Speech Recognition–Genifl Sözlük Yard›m›yla Devaml› Ses Tan›ma)

te-melli uygulamalar oldu¤u kabul edili-yordu. LVCSR, ya da bilinen di¤er ad›yla Speech to Text (Sesten Metne Dönüfltürme), gerçek zamanl› olarak veya belli bir arflive ait olan konuflma-lar› veritaban›nda yer alan sözcüklerle sürekli olarak karfl›laflt›rarak konufl-may› metin haline dönüfltüren ve ar-d›ndan gerekli yerlere indeks ve za-man etiketleri yerlefltiren bir teknolo-ji. LVCSR teknolojisi uzun süredir gün-demde oldu¤undan dolay›, bu teknolo-jiyi temel alan uygulamalara günü-müzde yayg›n olarak rastlan›yor. Hat-ta bu ifl için kullan›lan ticari gelifltirme araçlar›n›n yan›nda, ‹ngiltere’deki Cambridge Üniversitesi’nin HTK (http://htk.eng.cam.ac.uk/) ve Ame-rika’daki Mississippi State Üniversite-si’nin ISIP

(http://www.isip.mssta-te.edu/projects/speech/) ad›n› verdikleri gelifltir-me araçlar›ndan ücretsiz olarak faydalanmak da mümkün.

Ancak uzun zamana ve güçlü donan›m profille-rine ihtiyaç duyan bu ifllemin gerektirdi¤i yüksek maliyet, büyük ses arflivlerinde aranan verinin bu-lunmas› için gereken uzun süre ve kullan›lan siste-me göre %50’ye kadar düflebilen do¤ruluk derece-si, tercih edilebilirli¤ini önemli ölçüde k›s›tl›yor. Bu nedenle Fast-Talk Communications (http://www.fast-talk.com) adl› flirket, LVCSR ad› verilen yönteme karfl› ciddi bir alternatif niteli¤in-de olan Phonetic Searching (Fonetik Arama) yön-temini gelifltirmekle ve yayg›nlaflt›rmakla u¤rafl›-yor.

Fonetik Arama yöntemi, konuflma içeren ses-lerdeki fonetik unsurlar› ay›rmak ve alg›lamak için konuflma içeren veriyi önce detayl› bir ön iflleme tabi tutuyor. Daha sonra akustik modeller ve fone-tik gramerler yard›m›yla ses içeri¤i taranarak bir phonetic search track (fonetik arama izi) oluflturu-luyor. Fonetik arama izi, içeri¤inde ait oldu¤u ses dosyas›n›n yüksek oranda s›k›flt›r›lm›fl fonetik ka-rakterlerini, yani söylenifl biçimlerini bar›nd›ran bir dosya ve kolayca depolanabilme, paylafl›labil-me ve farkl› uygulamalar taraf›ndan kullan›labilpaylafl›labil-me özelli¤ine sahip. Fonetik arama izi bir kez olufltu-rulduktan sonra ait oldu¤u ses dosyas›ndan ba¤›m-s›z olarak saklanabildi¤i için, herhangi bir arama yapmak istendi¤inde arama gerçek ses dosyas›n›

iflin içine kar›flt›rmadan bu iz üzerinden gerçek-lefltiriliyor. Kullan›lan bu yöntem sayesinde, arama ifllemi ortalama h›za sahip bir masaüstü bilgisayar sistemiyle bile gerçek zamanl› iflle-min yaklafl›k 36.000 kat› h›z›nda gerçeklefltiri-lebildi¤i söyleniyor. Daha somut bir flekilde ifa-de etmek gerekirse; 30 saatlik bir ses kayd›n-da arad›¤›n›z kelimeleri bulmak sadece 1 sani-ye al›yor. Bir saatlik ses kayd›n›n benzer sis-temle fonetik arama izinin ç›kar›lmas› için ge-reken süreyse ayn› sistemle yaklafl›k 6 dakika. Sistem, arama ifllemi s›ras›nda kelime baz-l› olarak veya fonetik eflde¤erli¤e göre arama yap›labiliyor. Örne¤in bir ses kayd›n›n içinde beyin anlam›na gelen “brain” kelimesini kolayca aratma-n›z mümkün, ancak iflletmeden iflletmeye anlam›-na gelen ve Business to Business kelimesinin k›-saltmas› olan B2B’yi aramak için ne yapacaks›n›z? Bu durumda B2B’nin okunufluna dair fonetik ka-rakterleri sisteme tan›tman›z yeterli. Örne¤in “[B IY T UW B IY]” fleklinde yap›lacak olan ve ard›fl›k dizildi¤inde B2B’nin okunuflundaki fonetik ö¤ele-re uygun ses veö¤ele-ren bir aramayla, uygun sonuçlar›n karfl›n›za gelmesini sa¤layabiliyorsunuz. Bu yön-tem geleneksel sesten metne çevrim yönyön-temlerinin karfl›laflt›¤› sözlükte bulunmayan kelime sorununa çözüm getirirken, ayn› zamanda normal sözcükle-rin fonetik karakterlesözcükle-rinin yans›t›lmas›yla daha do¤ru sonuçlara ulafl›lmas›n› da sa¤layabiliyor. Üs-telik gelifltiricilerinin söyledi¤ine göre bu yöntemin bir di¤er avantaj› da sadece kelimelerin de¤il; m›-r›ldan›lan müzik parçalar›n›n veya tan›mlanm›fl seslerin de ses kay›tlar› içinde aranmas›na olanak sa¤layacak bir yap›da olmas›.

Tabii Fonetik Arama sisteminin getirdi¤i bu de¤iflik ve yenilikçi yaklafl›ma ra¤men henüz her fley mükemmel de¤il. Fast-Talk Communicati-ons’un Web sitesindeki aç›klay›c› PDF dosyalar›na bak›l›rsa, özellikle çoklu kelimelerin aranmas›nda her iki yöntemin de performans› -her ne kadar Fo-netik Arama yöntemi sonuçlar› itibariyle önde de olsa- ciddi oranda düflüyor. Özellikle de eflsesli ola-rak telaffuz edilen sözcükleri birbirinden do¤ru bi-çimde ay›rabilmek hala, bu ifli yapan yaz›l›mlar için bafll› bafl›na bir prob-lem.

Ancak yine de ortaya koyulan bu yeni yöntem, ses arflivlerinin içeri¤in-de arama yapabilmek için ortaya ko-yulan çal›flmalar›n mükemmel sonuca ulaflabilmek için geleneksel kelime bazl› düflüncenin ötesine geçmeleri gerekti¤i fikrini güçlendiriyor. Fakat en dibe de flu notu düflmek laz›m: ‹s-ter LVCSR olsun is‹s-ter Fonetik Arama yöntemi, desteklenen diller aras›nda maalesef flimdilik Türkçe’nin ad› bile geçmiyor. L e v e n t D a fl k › r a n Kaynaklar http://www.fast-talk.com http://www.technologyreview.com/articles/wo_har-ney043003.asp 75 Haziran 2003 B‹L‹MveTEKN‹K

Ses ‹çinde Kelime Aramak

Fast-Talk Communications

firmas›, gelifltirdi¤i Fonetik

Arama teknolojisi sayesinde

konuflma içeren ses

kay›tlar›ndaki sözcük tabanl›

aramalar›n›z› çok daha kolay

ve h›zl› gerçeklefltirebilme

imkan› sunuyor.

Referanslar

Benzer Belgeler

Palm çekirde¤i ya¤›n›n iyot say›s›n›n bu derecede düflük olmas›n›n nedeni, iyot ba¤layabilecek özellikteki doymam›fl ya¤ asitleri (oleik, linoleik ve

Baskıcı tutumda Anne baba çocuğun söyleneni yapması için çocuk üzerinde güç kullanır ve istediğini zorla yaptırır.. Aşırı koruma, kontrol etme, sürekli akıl

Ekibin lideri Christer Höög’e göre yeni mekanizma, difli yumurta hücrelerinde kromozom bozukluklar›n›n neden bu kadar yayg›n oldu¤unu aç›klamada yard›mc›

(‹ki tip iletifli- min birlikte kullan›ld›¤› durumlar da var.) Bu farkl› iletiflim tiplerininin daha çok hangi durumlarda kullan›ld›¤›n› da kay- deden

Mitolojide kimera, tek bedende çok kimlikli yarat›k, a¤z›ndan alevler püskürten bir aslana benzeyen yarat›¤›n bafl› aslan, gövdesi keçi ve kuyru¤u y›lan fleklinde

Elde edilen her iki karstik model için iyi çözüm verdi¤i düflü- nülen Wenner ve dipol-dipol dizilimlerine göre elde edilen sonuçlar fiekil 12’de üç-boyutlu ola-

In Turkey, in this context, the citizens of other countries, in exchange for making direct investments over a certain amount, purchasing real estate, holding or

UX is a broad umbrella term that can be divided into four main disciplines: Experience Strategy (ExS), Interaction Design (IxD), User Research (UR), and