• Sonuç bulunamadı

Ses kodlayıcılarının kodlama niteliklerine göre tek ve iki kere kodlanmış seslerden tespiti

N/A
N/A
Protected

Academic year: 2021

Share "Ses kodlayıcılarının kodlama niteliklerine göre tek ve iki kere kodlanmış seslerden tespiti"

Copied!
70
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

SES KODLAYICILARININ KODLAMA NTELKLERNE GÖRE TEK VE K KERE KODLANMI“ SESLERDEN TESPT

SAMET HÇSÖNMEZ

YÜKSEK LSANS TEZ BLGSAYAR MÜHENDSL‡

TOBB EKONOM VE TEKNOLOJ ÜNVERSTES FEN BLMLER ENSTTÜSÜ

A‡USTOS 2013 ANKARA

(2)

Fen Bilimleri Enstitü onay

Prof. Dr. Necip CAMU“CU Müdür

Bu tezin Yüksek Lisans derecesinin tüm gereksinimlerini sa§lad§n onaylarm.

Prof. Dr. Erdo§an DO‡DU Anabilim Dal Ba³kan

SAMET HÇSÖNMEZ tarafndan hazrlanan SES KODLAYICILARININ KODLAMA NTELKLERNE GÖRE TEK VE K KERE KODLANMI“ SESLERDEN TESPT adl bu tezin Yüksek Lisans tezi olarak uygun oldu§unu onaylarm.

Yrd. Doç. Dr. Hüsrev Taha SENCAR Tez Dan³man

Tez Jüri Üyeleri

Ba³kan : Yrd. Doç. Dr. Murat ÖZBAYO‡LU

Üye : Yrd. Doç. Dr. Hüsrev Taha SENCAR

(3)

TEZ BLDRM

Tez içindeki bütün bilgilerin etik davran³ ve akademik kurallar çerçevesinde elde edilerek sunuldu§unu, ayrca tez yazm kurallarna uygun olarak hazrlanan bu çal³mada orijinal olmayan her türlü kayna§a eksiksiz atf yapld§n bildiririm.

(4)

Üniversitesi : TOBB Ekonomi ve Teknoloji Üniversitesi

Enstitüsü : Fen Bilimleri

Anabilim Dal : Bilgisayar Mühendisli§i

Tez Dan³man : Yrd. Doç. Dr. Hüsrev Taha SENCAR Tez Türü ve Tarihi : Yüksek Lisans  a§ustos 2013

Samet HÇSÖNMEZ

SES KODLAYICILARININ KODLAMA NTELKLERNE GÖRE TEK VE K KERE KODLANMI“ SESLERDEN TESPT

ÖZET

Bu çal³mada sunulan ara³trma, kodlanm³ bir ses verisinin kode§ini tespit etmeye yönelik özgün bir yöntem önermektedir. Önerilen yöntem herhangi bir kod çözümü içermedi§i, kodlama üstverisinden faydalanmad§ ve bir kode§in bit dizisi formatna ait bilgileri göz önüne almad§ için basit ve hzldr. Yöntemin temel ald§ dü³ünce, kodek tasarmna etki eden sk³trma oran, ses kalitesi ve karma³klk gibi faktörlerin kodlanm³ ses üzerinde etkilerini gösterecek olmasdr. Bu etkileri aç§a çkarmak amacyla, önerilen yöntem, kodlanm³ verinin rasgele yerlerinden ald§ 2 ile 4 KB uzunlu§undaki bayt dizilerinin kaotik ve rasgelelik niteliklerini analiz ederek farkl kodeklere ait kodlama süreçlerini ifade eden istatistiksel modeller kurmaktadr. Yöntemin kodek tespit etme ba³armn ölçmek adna, testlerde, PSTN, GSM ve VoIP ileti³im ortamlarnda kullanlan konu³ma kodekleri ile yüksek kaliteli ses sk³trma amacyla kullanlan toplam 16 farkl ses kodlayc, en sk kullanlan kodlama parametreleri ile kullanld. Ses içeri§inin olu³turabilece§i etkilerden kurtulmak için testler hem konu³ma hem de müzik veri kümeleri üzerinde yapld. Sonuçlar incelendi§inde, bir kere kodlanm³ bir ses verisinin kode§i %95'ten yüksek bir ba³arm ile tespit edilmi³tir. kili kodlama senaryolarn da içeren birçok deney yaplm³tr. kili kodlama test sonuçlarna göre, önerilen yöntem, iki kere kodlanm³ seslerin ilk kode§ini %80'den daha yüksek bir ba³arm ile tespit edebilmektedir. Bu testlere ait tek kst; ikinci kodlaycnn ilk kodlaycdan daha yüksek bir bit hzna sahip olmas gerekmektedir.

Anahtar Kelimeler: Ses kodlayclar, Kodek tespit etme, PSTN, VoIP, GSM, Sk³trma.

(5)

University : TOBB University of Economics and Technology

Institute : Institute of Natural and Applied Sciences

Science Programme : Computer Engineering

Supervisor : Asst. Prof. Hüsrev Taha SENCAR

Degree Awarded and Date : M.Sc.  AUGUST 2013 Samet HÇSÖNMEZ

IDENTIFICATION OF AUDIO CODECS FROM SINGLE CODED AND TRANSCODED AUDIOS BASED ON ENCODING

PROPERTIES

ABSTRACT

The research presented in this paper provides a novel technique to identify the codec of an encoded auido. Since the technique does not perform decoding, utilize any coding metadata, or assume information about the structure describing the bit stream format of a codec, it is simple and fast. The main idea of the technique is that design principles of a codec such as compression level, audio quality and complexity will reveal themselves on the coded audio. To exploit this, the technique samples 2-4 kilobytes of data from a coded audio and analyzes the randomness and chaotic nature of the sampled data to build statistical models that represent encoding process associated with dierent codecs. To evaluate the eectiveness of the technique in identication of the codec, in experiments we use 16 of the most popular audio codecs used for high quality audio compression and in PSTNs, cellular networks, and VoIP networks by setting encoding parameters of each codec to its most commonly used values. Tests are performed on both speech and music data sets to eliminate any eect which may stem from contents of audios. Results show that the codec of a singly encoded audio can be identied with an accuracy of more than %95. Several transcoding scenarios were also performed. Those results show that the scheme can even identify the rst encoder of a doubly-encoded audio with an accuracy range of around %80 to %90 or more as long as the second codec operates on higher bit rates than the rst one.

Keywords: Audio codecs, Codec identication, PSTN, VoIP, GSM, Compres-sion.

(6)

TE“EKKÜR

Bu tez kapsamnda yaplan çal³malarda görü³lerini ve deste§ini esirgemeyen tez dan³manm Yrd. Doç. Dr. Hüsrev Taha SENCAR'a ve bu tezi yazmama telkinleri ile katkda bulunan aileme ve arkada³larma te³ekkür ederim.

(7)

ÇNDEKLER

1 GR“ 1

2 TEORK ALTYAPI 3

2.1 Konu³ma Kodlama Yöntemleri . . . 6

2.1.1 Dalga Biçimi Kodlayclar . . . 6

2.1.2 Model Tabanl Kodlayclar . . . 10

2.2 Müzik Kodlama Yöntemleri . . . 14

2.3 Çal³mada Kullanlan Kodekler . . . 16

3 BENZER ÇALI“MALAR 18 3.1 Alley'in Konu³ma Kode§i Tespiti . . . 18

3.2 Scholz'un Konu³ma Kode§i Tespiti . . . 19

3.3 Jenner'in Konu³ma Kode§i Tespiti . . . 20

3.4 Memon'un Dosya Tipi Tespiti . . . 21

3.5 PinDr0p . . . 22

4 ÖNERLEN YÖNTEM 24 4.1 Yöntem . . . 24

(8)

4.2 Öznitelikler . . . 26 4.2.1 Kaotik Öznitelikler . . . 27 4.2.2 Rasgelelik Öznitelikleri . . . 31

5 TESTLER 36

5.1 Tekli Kodlama Testleri . . . 37 5.2 kili Kodlama Testleri . . . 41 5.2.1 Kar³la³trma . . . 44

6 SONUÇLAR VE ANALZ DE‡ERLENDRME 50

7 GELECEK ÇALI“MALAR 52

(9)

“EKLLERN LSTES

2.1 DPCM kodlama i³lemine ait alc ve verici taraftaki i³lem admlar 10

2.2 LPC modelinde kodlama i³lemine ait ak³ diyagram . . . 12

2.3 AbS modelinde kodlama i³lemine ait ak³ diyagram . . . 13

2.4 Psiko-akustik bir modele ait ak³ diyagram . . . 15

2.5 MP3 kode§inin kodlama i³lemine ait ak³ diyagram . . . 15

4.1 Sistemin çevrim d³ evredeki çal³ma admlar . . . 25

4.2 Sistemin çevrim içi evredeki çal³ma admlar . . . 26

4.3 Farkl kodekler ile kodlanm³ ses örnekleri için 5. gömme boyutuna ait kom³ulu§un büyüklü§ünün ortalama de§eri . . . 28

4.4 Farkl kodekler ile kodlanm³ ses örnekleri için 5. gömme boyutuna ait kom³ulu§un büyüklü§ünün karesinin ortalama de§eri . . . 29

4.5 Farkl kodekler ile kodlanm³ ses örnekleri için ilk iterasyona ait germe etmeninin logaritmasnn ortalama de§erleri . . . 30

4.6 Farkl kodekler ile kodlanm³ ses örneklerine ait ortalama varyans de§erleri . . . 32

4.7 Farkl kodekler ile kodlanm³ ses örneklerine ait öz-ilinti fonksiy-onun 11. katsaysnn ortalama de§erleri . . . 33

(10)

4.8 Farkl kodekler ile kodlanm³ ses örneklerine ait ortalama entropi de§erleri . . . 33

(11)

ǝZELGELERN LSTES

2.1 Ses kodlayclarnn kar³la³trmas . . . 17

3.1 Alley'in konu³ma kodlaycs belirleme testi sonuçlar . . . 19 3.2 Scholz'un konu³ma kodlaycs belirleme testine ait do§ruluk

ma-trisi (640 pencere) . . . 20 3.3 Jenner'in konu³ma kodlaycs belirleme testine ait do§ruluk

ma-trisi (160 pencere) . . . 21 3.4 Memon'un ak³ çeri§i belirleme testine ait do§ruluk matrisi(4KB) 22

5.1 Örnekleme Boyutunun Ba³arm Üzerine Etkisi . . . 38 5.2 Tüm Veri Kümeleri çin Kodek Grup çi Test Sonuçlar . . . 40 5.3 GSM'den PSTN a§na geçi³ senaryosunda a-law kode§i kullanlan

teste ait do§ruluk matrisi (Müzik veri kümesi) . . . 42 5.4 GSM'den PSTN a§na geçi³ senaryosu test sonuçlar . . . 42 5.5 GSM'den VoIP a§na geçi³ senaryosu test sonuçlar . . . 43 5.6 GSM'den PSTN a§na geçi³ senaryosunda G.729 kode§i kullanlan

teste ait do§ruluk matrisi (Konu³ma veri kümesi) . . . 43 5.7 VoIP'den PSTN a§na geçi³ senaryosunda u-law kode§i kullanlan

teste ait do§ruluk matrisi (Müzik veri kümesi) . . . 44 5.8 VoIP'ten PSTN a§na geçi³ senaryosu test sonuçlar . . . 44

(12)

5.9 [35] ile önerilen yöntemin tüm veri kümeleri üzerinde yaplan 17 snf snandrma testleri ile ortalama ba³arm açsndan kar³la³trl-mas . . . 46 5.10 [35] ile önerilen yöntemin Müzik-I veri kümesi üzerinde yaplan ikili

kodlama testleri ile kar³la³trlmas . . . 46 5.11 [35] ile önerilen yöntemin Konu³ma-I veri kümesi üzerinde yaplan

ikili kodlama testleri ile kar³la³trlmas . . . 46 5.12 Konu³ma-I veri kümesi üzerinde yaplan 17 snf snandrma

testine ait do§ruluk matrisi . . . 48 5.13 Müzik-I veri kümesi üzerinde yaplan 17 snf snandrma testine

(13)

1. GR“

Günümüzde ses kodlamas ve kod çözümü için birçok kodlayc mevcuttur. Bu kodlayclar farkl amaçlar için kullanlmaktadr. Bu amaçlarn öne çkanlar olarak, yüksek kaliteli sesin ya da müzi§in daha efektif saklama imkan için sk³trlmas, internet üzerinden ses yayn (örn.internet üzerinden yayn ya-pan radyolar), ve sabit telefon hatlar, GSM veya VoIP (Voice over Internet Protocol) a§larnda ses ileti³iminin sa§lanmas gösterilebilir. Belirtildi§i gibi farkl amaçlarda kullanlmalarna ra§men ses kodlayclar, belirli saydaki dizayn prensiplerinde yaptklar seçimlere göre birbirlerinden ayrlmaktadr. Bu pren-siplere örnek olarak, kodlaycnn sk³trma ve ses kalitesi arasnda gözetti§i denge, kodlaycnn gürbüzlü§ü ile a§ hatalarna ve gürültüye kar³ duyarll§, ve ileti³im ortamnn bant geni³li§indeki de§i³imlere gösterdi§i uyum verilebilir. Bu çal³mada, ses kodlayclarnn öncelik verdi§i tasarm prensiplerinin ses üzerinde brakt§ izler kullanlarak kodlayclarn tespit edilmesi amaçlanm³tr.

Ses kodlamasnda kullanlan kodlaycnn kodlama üstverisine (metadata) ba§l kalnmadan ve hzl bir ³ekilde tespit edilmesi, mevcut baz problemlerin çözülme-sine katk sa§layabilir. Bunlardan birinciçözülme-sine, günümüzde a§ tra§inin büyük ço§unlu§unu multimedya uygulamalarnn almas ile beraber, a§ içindeki ses tra§inin hzl ve do§ru karakterize edilmesinin (örn. internet yayn, dosya transferi, VoIP uygulamas) önem kazanmas verilebilir [35]. A§ tra§inin hzl bir ³ekilde snandrlmas, bant geni³li§inin daha etkin kullanlmasna büyük oranda katk sa§layacaktr.

Ses kodlaycsnn tespit edilmesinin büyük önem ta³d§ bir ba³ka problem ise bir aramann kayna§nn tespit edilmesidir. Arama kayna§nn tespit edilmesi spam ve dolandrclk gibi saldrlarn önüne geçebilmek açsndan son derece önemlidir

(14)

[11]. Bunun yannda arama kayna§nn tespiti, reklam gibi hedefe yönelik içerik da§tmnda da önemli bir veridir. Arama kayna§nn tespiti durumu için günümüzün merkezi olmayan telefon altyaps (örn. PSTN, GSM, VoIP a§lar) göz önüne alnd§nda, aramalar ço§unlukla birden fazla a§ üzerinden geçmektedir. Bu durumda son kodlaycnn tespitinin yannda, daha önceki kodlayclarn belirlenmesi, aramann hangi tür a§lardan geçti§inin tespit edilmesinde son derece kritiktir. Örne§in, ilk önce AMR (Adaptive Multi-Rate) ses kode§i ile, daha sonra ise SILK ses kode§i ile kodlanm³ bir ses verisi, bir GSM hattndan bir VoIP a§na (muhtemelen Skype kullancsna) yaplm³ bir aramay belirtmektedir.

Bunlara ek olarak, INMD'ler (in-service non-intrusive measurement device) için ses kodlayclarnn çabuk bir ³ekilde tespit edilmesi son derece kritiktir. Bu cihazlar ileti³im a§larna yerle³tirilerek, konu³ma kalitesini dü³ürebilecek konu³ma ve gürültü seviyesi (speech and noise level), yank kayb (echo loss) ve konu³ma yank yolu gecikmesi (speech echo path delay) gibi faktörleri gözlemlemektedir [25]. Konu³mann kalitesinde kullanlan ses kodlaycnn önemli bir etkisi oldu§u göz önüne alnd§nda, bu bilginin INMD'lere bir ek bilgi olarak verilmesi son derece kritiktir.

Bütün bu problemler ve uygulama alanlar göz önüne alnd§nda, ses kodlaycs tespit edilirken sadece elimizdeki yani çk³ terminalindeki verilerin kullanlarak bu i³lemin gerçekle³tirilmesi, elde edilecek bilginin etkin kullanlmasna olanak sa§layacaktr. Bunun yannda ço§u zaman elimizdeki tek bilgi ileti³im ortamn-dan alnan belli uzunluktaki bit dizisi olmaktadr. Bu bit dizilerinde kodlayc hakknda birçok bilgi içeren üst veriler (metadata) ise sadece belirli paketlerde, ço§unlukla bir ses dizisi için ilk paket, bulunmaktadr. Ayrca bu pakete ula³lsa bile üst veri bilgisine ula³abilmek için en alt katmandan itibaren paketin çözülmesi gerekmektedir. Sunulan problemlerin gerçek zamanl olmas, çözümün de benzer ³ekilde olmasn gerektirmektedir. Dolaysyla böyle bir i³lem, problemlere çözüm olmaktan uzaktr.

Bu çal³mada, farkl kodlama yöntemleri kullanan kodlayclarn ses üzerinde brakt§ izler istatistiksel ve kaotik olarak incelenerek, kodlayclar tespit edilm-eye çal³ld. Önerilen yöntem, belirtilen problemlerin çözümünde hem tek ba³na hem de ba³ka yöntemler ile kullanlabilir. Yöntem herhangi bir kod çözümü içermedi§i için gerçek zamanda sonuç verebilmektedir.

(15)

2. TEORK ALTYAPI

Ses kodlayclarnn hem daha rahat analiz edilebilmesi hem de kodlama sonucu olu³an ses üzerinde braktklar etkilerin anla³labilmesi için kullanlan kodlama yöntemlerinin incelenmesi gerekmektedir. Bu ksmda öncelikle kodeklerin tasarm prensipleri hakknda genel bilgiler aktarlacak, ardndan konu³ma ve müzik kodlamasnda kullanlan temel yöntemler hakknda detayl bilgi verilecek, daha sonra ise çal³mada kullanlan kodeklere ksaca göz atlacaktr.

Bir ses kodlaycs üç tasarm prensibi göz önüne alnarak de§erlendirilebilir. Bunlar kodlanm³ sesin kalitesi, kodlaycnn sk³trma oran ve kodlayc/kod çözücünün karma³kl§dr [13]. Pratikte ise kodek tasarm bant geni³li§i kstlar dü³ünülerek yaplmaktadr. Bu sebeple kodlaycnn sk³trma oran ve de§i³en ko³ullara uyumu önemli bir faktördür. Burada de§i³en ortam ko³ullarna uyuma, internet bant geni³li§inin dü³tü§ü ve paket kayplarnn artt§ bir durumda kodlaycnn kendi bit hzn dü³ürmesi ve paketleri yedekli bir ³ekilde göndermesi örnek olarak verilebilir. Sk³trma oran olarak da ifade edilen kodlayc bit hz ya da veri hz, örnekleme frekansnn her örne§i kodlamak için gereken bit says ile çarpmna e³ittir. Genellikle konu³ma kodekleri 8 KHz, müzik kodekleri ise 44.1 KHz ya da dü³ük bir örnekleme frekansnda çal³maktadr. Seçilen kodlama yöntemine göre her bir örnek birkaç bit ya da bayt ile kodlanabilmektedir. Ses kodlayclar müzik ya da konu³ma kodlamaya yönelik olarak optimize edilmi³lerdir. Müzik kodlamann göz önünde tuttu§u temel sorun müzik dosyalarnn efektif saklanmasna yönelik yüksek kaliteli sk³trma iken, konu³ma kodlama için gerçek zamanl ileti³im uygulamalardr. Konu³ma ile kar³la³trld§nda müzik daha geni³ bir frekans bandna sahiptir. Ayn zamanda müzik kod-layclarnn daha yüksek bir duyarllk sunmas beklenmektedir. Bu iki durum

(16)

müzik kodlayclarnn daha yüksek bir örnekleme frekansna ve bit hzna sahip olmalarna sebep olmu³tur. çerik d³nda, ileti³im ortamnn bant geni³li§i isterleri de kodlayc seçimine etki eden bir ba³ka faktördür. GSM ileti³iminde kullanlan kodekler, kablosuz veri ileti³iminin dü³ük bant geni³li§ine sahip olmas sebebiyle en dü³ük bit hzna sahiptirler. Buna kar³n PSTN a§larnda kullanlan kodekler di§er konu³ma kodekleri ile kyasland§nda, en büyük bit hzna, en yüksek ses kalitesine ve en dü³ük karma³kl§a sahiptirler. VoIP ileti³iminde kullanlan kodekler ise hem ses kalitesi hem de bit hz olarak bu iki grubun arasnda yer almaktadr.

Teorik olarak, kodek tasarmnn en ayrt edici özelli§i, kullanlan kodlama tekni§i ile ilgilidir. Zaman içerisinde ba³arl birçok teknik geli³tirilmi³ ve çok sayda bilimsel çal³maya konu olmu³tur. Bu yöntemler, müzik ve konu³ma kodlamasna göre temelde birkaç yakla³m üzerine kurulmu³tur. Genel olarak konu³ma kodlayclar dalga formu kodlayclar ve model tabanl kodlayclar olmak üzere iki grupta incelenebilir. Bu iki grup arasndaki temel fark, ikinci grup insan konu³ma modelini göz önüne almaktadr ve bu sebeple daha yüksek bir sk³trma oran sa§lamaktadr. Darbe kod modülasyonu (Pulse Code Modulation - PCM) en basit ve oturmu³ dalga formu kodlama tekni§idir. Bu yöntemin bir türü olan, adaptif fark darbe kod modülasyonu (Adaptive Dierantial PCM - ADPCM) [13], yüksek kaliteli konu³ma kodlamasnda sklkla kullanlmaktadr. En ba³arl model tabanl kodlama yöntemi olarak lineer öngörümlü kodlama (Linear Predictive Coding - LPC) [14] söylenebilir. Pratikte konu³ma kodlayclarnn büyük ço§unlu§u darbearttrlm³ lineer öngörüm (CodeExcited Lineer Prediction -CELP) [34] kullanmaktadr. Bu yöntem konu³mann LPC modelini kullanmakta ve daha yüksek bir ses kalitesi sa§lamaktadr.

Konu³ma kodeklerinden farkl olarak, konu³ma d³ndaki sesleri kodlamada kullanlan temel yöntem, zaman frekans e³le³tirmesi yaparak ses üzerindeki tekrarlar ortadan kaldrma üzerine kurulmu³tur [13]. Sinyali tam olarak tekrar olu³turabilme yetene§ine sahip olduklar için blok tabanl dönü³türme teknikleri ses kodlamas için önerilmi³tir. Bunlar arasnda çok yüksek bir kodlama oran sa§lad§ için modiye edilmi³ ayrk kosinüs dönü³ümü (Modied Discrete Cosine Transform - MDCT) en yaygn olandr. Bu sebeple MDCT, MP3, AAC, OGG, WMA ve AC-3 gibi popüler kodeklerde kullanlmaktadr. Müzik ve konu³ma kodlama için belirtilen yöntemler 2.1 ve 2.2 ksmlarnda daha detayl

(17)

anlatlacaktr.

Ses kodlayclarn birbirinden ayran bir ba³ka özellik ise kodlanm³ sesin, kodlanmam³ orijinal haline kyasla sahip oldu§u kalitedir. Ses kodlamasnn, müzik ve konu³ma kalitesi üzerindeki etkilerini tespit edebilmek amacyla birçok nesnel ve öznel ses kalitesi de§erlendirme yöntemleri önerilmi³tir. En kapsaml kullanlan öznel konu³ma kalitesi de§erlendirme ölçütü ortalama karar puandr (Mean Opinion Score - MOS) [28]. Bir sesin MOS puan 1 ile 5 arasnda de§er almaktadr ve 4 puan ile üzeri sabit telefon ses kalitesi (toll quality) olarak tanmlanm³tr. Öznel yöntemleri nesnel yöntemler ile de§i³tirmek amacyla, ses kalitesinin alglasal de§erlendirmesi (Perceptual Evaluation of Audio Quality - PEAQ) [18] adl yöntem öne sürülmü³tür. PEAQ yönteminin çkts nesnel fark puan (Objective Dierence Grade - ODG) olarak ifade edilmekte ve -4 ile 0 arasnda de§er almaktadr. Burada yüksek puan yüksek ses kalitesini ifade etmektedir.

Kode§in karma³kl§, MIPS (millions of instructions per second) olarak hesaplan-makta, kodlaycnn gecikmesi ise toplam algoritmik gecikme olan ses örneklerinin kodlama ve kod çözümü için geçen toplam süre olarak ifade edilmekte olup kodekleri de§erlendirirken kar³mza çkan di§er faktörlerdir. Burada gecikme faktörünün gerçek zamanl ileti³im için çok kritik oldu§u göz önüne alnmal ve bu sebeple GSM, VoIP ve PSTN kodeklerinin dü³ük gecikme de§erine sahip olmas gerekmektedir.

Kodlayc tasarmna etkisi olan tüm bu faktörler direk ya da dolayl yoldan kodlanm³ ses üzerinde kendilerini göstermektedir. Bütün faktörler arasnda kodlama tekni§i, sk³trma orann, bit hzn ve ses kalitesini belirledi§i için en ciddi etkiye o sahip olacaktr. Karma³klk ve gecikme daha çok modüllerin kodlanmas ve kod çözümü ile ilgili oldu§u için, kodlanm³ ses üzerindeki etkileri sadece bit dizisi pencereleme ve formatlama i³lemleri ile snrl kalacaktr. Bu tezin temeli, bu etkilerin tutarl olaca§, sesin içeri§ine ba§l olmayaca§ ve kodlanm³ sesin istatistiksel nitelikleri ile modellenebilece§i üzerine kurulmu³tur.

(18)

2.1 Konu³ma Kodlama Yöntemleri

Konu³ma kodlamada sklkla kullanlan yöntemler bu ksmda fazla detaya girmeden açklanacaktr. Bunlardan ilk ikisi PCM tabanl kodlama yöntemleri olan Companding ile DPCM/ADPCM'dir. Bu yöntemler insan konu³ma modelini göz önüne almadan örnekleme, kuantalama ve kodlama i³lemlerini yapmaktadr-lar. kinci grup yöntemler ise insan konu³ma modelini göz önüne alarak ses kalitesinden az miktar feragat ile yüksek oranda sk³trma elde etmektedirler. Bu yöntemler Lineer Öngörümlü Kodlama ve Sentezden-Analiz (Analysis-by-Synthesis - AbS) olarak ana iki grupta incelenebilir. nsan konu³ma modelini temel alan birçok kodlama yöntemi olmasna ra§men ço§unlukla kullanlan iki tanesi burada açklanacaktr.

2.1.1 Dalga Biçimi Kodlayclar

Bir sinyali analogtan dijitale dönü³türürken yaplan ilk i³lem sinyalin içindeki yük-sek frekans elemanlarnn ltrelenmesidir. Konu³ma sinyallerinin ço§unlu§unun 200-300 Hz ile 2700-2800 Hz. arasnda oldu§u göz önüne alnd§nda yakla³k 4000 Hertz ltre bant geni³li§i için yeterli olacaktr. Tabiki bu de§erler dar bant konu³ma (narrowband speech) için geçerlidir. Geni³ bant konu³ma kodekleri için frekans aral§ 50 ile 7000 Hz. arasnda olmaktadr. Filtreleme i³leminden sonraki adm ltrelenmi³ sinyalin belirli bir frekansta örneklenmesidir. Örnekleme i³leminin frekans ise Nyquist Teoremi ile belirlenmektedir. Analog sinyaldeki en büyük frekans de§erinin iki katndan büyük bir frekans ile örnekleme yaplmas gerekti§i için dar bant için bu de§er 8 KHz. olarak seçilirken, geni³ bant kodekler için ise bu de§er 16 KHz. olarak belirlenmi³tir.

Bu i³lemden sonraki son adm ise kuantalama ve kodlama admdr. Kuantalama i³lemi, örneklenen her bir analog sinyali bir saysal de§ere dönü³türme sürecidir. Tek tip kuantalamada (uniform quantization) analog sinyalin genlik spekturumu e³it aralklara bölünmü³tür. Kuantalama i³lemine giren her bir örnek için genlik de§eri bu kuantalama aralklarndan hangisine en yakn ise alaca§ de§er o aralk için belirlenen saysal de§er olacaktr. Burada bir sinyal kendi genli§ine tam olarak e³it olmayan bir aralk ile e³le³tirildi§inde, bu durum birçok örnek için

(19)

geçerlidir, PCM sürecine gürültü kar³m³ olmaktadr.

Ses kalitesine etki eden en önemli faktör Sinyal Gürültü Oran (Signal to Noise Ratio - SNR) olarak tanmlanan, sinyalin gücünün gürültünün gücüne oran ³eklinde hesaplanan bir de§erdir. Kuantalama gürültüsünü dü³ürmenin bir yolu, kuantalama aralklarn arttrmaktr. Kuantalama aralklar artt§nda sinyalin genli§i ile kuantalama aral§ arasndaki fark azalaca§ için gürültü miktar da azalacaktr. Ancak bu durumda kodlama için kullanlacak bit saysnn da arttrlmas gerekmektedir. Tek tip kuantalama ile ilgili en önemli sorun, kuantalama aralklarnn e³it seçilmesidir. Bu durum dü³ük genlikteki sinyallerin daha küçük, yüksek genliktekilerin ise daha büyük bir SNR de§erine sahip olmalarna neden olmaktadr. nsan konu³mas ile üretilen sinyallerin bir ço§unun dü³ük genlikte oldu§u göz önüne alnd§nda, yüksek genlikli seslerin kalitesini arttran bir yöntem son derece verimsiz olacaktr. Bunun yannda insan i³itme sistemi dü³ük genliklerdeki ufak dalgalanmalara, yüksek genlikteki dalgalanmalara göre daha duyarldr. Dü³ük genliklerdeki ses kalitesini arttrmak amacyla tek tip kuantalama yerine düzensiz (non-uniform) kuantalama i³lemleri kullanlmaktadr. Bunlardan ilki companding ad verilen i³lemdir.

2.1.1.1 Companding

Companding sinyalin öncelikle kaynakta sk³trlmas (compression), daha sonra çk³ terminalinde ise ilk haline geni³letilmesi (expanding) i³lemidir [17]. Com-panding kelimesi, bu iki i³lemi ifade eden terimlerin birle³tirilmesi ile olu³tu-rulmu³tur. Sk³trma admnda sinyaller logaritmik bir sk³trma fonksiyonuna tabi tutulurlar. Örne§in, kaynakta ADC ile 14 bit hassasiyetinde örneklenen bir analog sinyal, bir ara logaritmik fonksiyon ile 8 bite dü³ürülmektedir. Logaritmik ölçekleme fonksiyonu dü³ük genlikli örneklerin, yüksek genlikli olanlara nazaran daha yüksek hassasiyete sahip olmasna imkan sa§lamaktadr. Bir ba³ka ifade ile genli§i büyük sinyaller daha çok sk³trlmakta, genli§i küçük olanlar ise daha az sk³trlmaktadr. Bu sayede, dü³ük genlikli örneklerin sahip oldu§u gürültü miktar da azalmakta ve ayn zamanda SNR bütün örnekler için sabit bir seviyeye çekilmi³ olmaktadr.

(20)

Her iki G.711 kode§i, 8 KHz örnekleme frekans ile çal³makta ve örneklenmi³ sinyalleri 8 bit ile ifade etmektedir. Bunun sonucunda her iki kodek te 64 kbps kodlama bit hzna sahip olmaktadr. A-law 13 bit hassasiyetindeki örnekleri girdi olarak almakta ve ço§unlukla Avrupa ktasnda kullanlmaktadr. U-law ise 14 bit hassasiyetindeki örnekleri alp bunlar 8 bite dü³ürmekte ve ço§unlukla Amerika ve Japonya'da kullanlmaktadr. Burada a-law ve u-law kullanan iki farkl grup ileti³ime geçece§i zaman kullanlan ortak standart a-law kode§idir ve bu dönü³ümden u-law kullanan taraf sorumludur. Bu iki kode§in sk³trma oranlar dü³ük olsa da kodlama ve kod çözümünün son derece basit olmas (karma³l§ çok dü³ük) ve kodlama sonucu olu³an ses kalitesinin çok yüksek olmas bu kodeklerin halen kullanlyor olmalarnn temel sebepleridir. A-law kode§ine ait sk³trma ve geni³letme fonksiyonlar 2.1 ve 2.2'de verilmi³tir [23]. 2.1 ve 2.2 fonksiyonlarndaki A de§eri 87.7 (Avrupa) olarak seçilmektedir [23].

F (x) = (x)              A|x| 1 + ln(A), |x| < 1 A 1 + ln(A|x|) 1 + ln(A) , 1 A ≤ |x| ≤ 1, (2.1) F−1(y) = (y)              |y|(1 + ln(A)) A , |y| < 1 1 + ln(A) exp(|y|(1 + ln(A)) − 1)

A ,

1

1 + ln(A) ≤ |y| < 1.

(2.2)

U-law kode§ine ait sk³trma ve geni³letme fonksiyonlar ise 2.3 ve 2.4'te verilmi³tir [23]. 2.3 ve 2.4 fonksiyonlarndaki µ de§eri 255 (Amerika ve Japonya) olarak seçilmektedir [23].

F (x) = sgn(x)ln(1 + µ|x|)

ln(1 + µ) − 1 ≤ x ≤ 1 (2.3)

(21)

2.1.1.2 DPCM/ADPCM

Ço§unlukla konu³ma esnasnda bir önceki ses sinyali ile bir sonraki arasndaki fark son derece küçük olmaktadr. Diferansiyel PCM olarak tanmlanan DPCM, tüm sinyali göndermek yerine bu ufak fark göndererek bant geni³li§ini dü³ürmeyi amaçlamaktadr [17]. ki sinyal arasndaki farkn, sinyalin kendi genli§inden her zaman ufak olaca§ a³ikardr. Bu fark iki farkl ³ekilde hesaplanabilir. Bunlardan ilki ve en basiti, sinyalin ³u anki de§erini elimizde bulunan bir önceki örne§in de§erinden çkartmaktr. Bu aradaki fark kuantalama i³lemine sokulur ve PCM i³lemine göre daha az bit ile ifade edilebilir. Ancak bu i³lem gürültü anlamnda son derece verimsizdir. Bunun ilk sebebi kuantalama i³lemindeki gürültünün ard³k örnekler için sürekli büyümesidir [8]. Herbir sinyalin kendi de§erinin kuantaland§ durumda, bu de§er önceki örneklerin üzerindeki gürültüden etk-ilenmemektedir. Ancak DPCM i³leminde, sinyalin alaca§ de§er önceki örneklere ba§l olaca§ için gürültünün sürekli artmas ihtimali mevcuttur. Buna ek olarak iletim ortamnn sinyale ekleyece§i gürültünün de benzer sebepler ile ard³k örnekler için sürekli artmas ihtimali de vardr.

Burada kullanlan ikinci yöntem bu iki gürültüyü azaltma ya da ortadan kaldrmak amacyla bir tahmin algoritmas kullanmaktr. Bu tahmin algoritmas ile eldeki sinyal ile bir önceki sinyalin fark yerine, eldeki sinyal ile tahmin algoritmasnn üretti§i de§erin fark alnarak, bu de§er kar³ tarafa iletilmektedir. Burada belirli saydaki geçmi³ sinyal üzerinden ³u anki sinyalin alabilece§i de§er do§rusal tahmin (linear prediction) ile belirlenmeye çal³lmaktadr [17]. Bu sayede bir sinyal üzerinde olu³an kuantalama gürültüsü sonraki örneklere etki etmemekte sadece o sinyali etkilemektedir. letim ortamnn sisteme ekleyece§i gürültüyü dü³ürmek amacyla bu yönteme ek olarak, sinyal daha küçük alt parçalara ayrlr ve her parçann gönderimi tamamlandktan sonra alc ve verici taraf sfrlanr. Bu sayede iletim ortamnn gürültüsü sadece ufak parçalar içinde etkisini gösterir ve gürültünün sürekli büyümesi de engellenmi³ olur [8]. Bu tahmin algoritmal DPCM i³lemine ait verici (encoder) ve alc (decoder) taraftaki blok diyagramlar “ekil 2.1'de verilmi³tir.

(22)

“ekil 2.1: DPCM kodlama i³lemine ait alc ve verici taraftaki i³lem admlar

DPCM üzerine geli³tirilen Adaptif DPCM yöntemi, fark sinyaline göre kuan-talama aralklarn de§i³tirmektedir. E§er fark sinyalinin de§eri küçük ise kuantalama aralklar arttrlmakta, fark sinyali büyük ise kuantalama aralklar dü³ürülmektedir. Yöntem kuantalama aralklarn giri³ fark sinyaline göre adaptif bir ³ekilde ayarlamaktadr. Bu sayede SNR de§eri de tüm sinyal için sabit bir de§erde tutulmaya çal³lm³tr. G.726 kodlaycs bu yöntem ile çal³makta ve 16, 24, 32 ve 40 kbps bit hzlarnda çal³abilmektedir.

2.1.2 Model Tabanl Kodlayclar

Model tabanl kodekler (vocoders), dalga biçimli kodlayclar gibi giri³ sinyalini alc tarafta tekrartan olu³turmak yerine, bu giri³ sinyalini alc ve verici tarafn bildi§i bir konu³ma modeli ile ifade etmeye çal³maktadr. Bu kodekler her örneklenmi³ sinyali ayr ayr kodlamak yerine, belirli uzunluktaki (ço§unlukla 20 ms) bir pencereyi (frame) analiz ederek, bu pencere içindeki sesi tekrardan sentezleyebilecek model parametrelerini bulmaktadr. Uygun model parametreleri bulunduktan sonra ise kod çözücü tarafa sadece bu parametreler iletilir. Alc tarafta da alnan bu parametreler bir ses sentezleyicisine (speech synthesizer) verilerek orijinal sese benzer bir ses üretilmektedir. Bu yöntem ile büyük

(23)

oranda sk³trma elde edilmektedir. Ancak bu yöntemlerin karma³kl§ fazladr. Örne§in Tablo 2.1'den görülece§i üzere dalga biçimli kodlayclar olan a-law ve u-law kodeklerinin MIPS de§eri 0.01 iken, vocoder kodlayclarndan G.729'un MIPS de§eri 20 olarak hesaplanmaktadr. Ayrca dalga biçimli kodlayclar ses içeri§inden ba§msz olduklar için müzik kodlamada da kullanlabilmektedir. Buna kar³n model tabanl kodekler bir insan konu³ma modelini baz aldklar için konu³ma d³ndaki seslerin, müzik gibi, kodlanmasnda yetersiz kalmaktadr. nsan sesini modelleyen birçok yöntem mevcuttur. Bunlardan en çok kullanlan kaynak ltre (source lter) modelidir. Bu modelin popüler olmas basit ve ba³arl olmasndan kaynaklanmaktadr. Di§er insan sesi sentezleme mekanizmalar gibi bu model de bir uyarm kayna§ (excitation source) ve bir spektral zarf ltesinin (spectral envelope lter) birle³iminden olu³maktadr [25]. Sesli konu³ma (voiced speech) için uyarm sinyali, analiz edilen konu³ma penceresinin ses seviyesine (pitch) e³it periyotta bir grtlak darbesi benzetimidir. Sessiz konu³ma için ise uyarm sinyali bir gürültü kayna§ndan, ço§unlukla beyaz gürültü (white noise), gelmektedir. Daha sonra ise bu uyarm sinyalleri, orijinal sinyalin spektral zarfna benzer ³ekilde cevap veren ltreden (örn. vocal tract lter) geçmektedir. Burada uyarm sinyali ve ltre iyi seçildi§inde bu model son derece kaliteli ses üretebilmektedir.

Kaynak ltre modelini kullanan en önemli uygulamalardan bir tanesi do§rusal öngörümlü kodlama üzerine kuruludur. LPC vocoder, uyarm kayna§ olarak sesli konu³ma için bir darbe katar (impulse train), sessiz konu³ma için ise rastgele gürültü kullanmaktadr. Konu³mann temel niteliklerinden olan dudak yaylmas, baz geniz ve burun hareketlerini göz önüne alan birçok ba³arl konu³ma modeli geli³tirilmi³ olsa da, bu yöntemde kullanlan model zamanla de§i³en tüm kutup ltre (time-varying all-pole lter) ³eklinde basitle³tirilmi³tir [25][14]. Basitle³tirilmi³ bir LPC modeli “ekil 2.2'de verilmi³tir.

(24)

“ekil 2.2: LPC modelinde kodlama i³lemine ait ak³ diyagram

“ekil 2.2'de de görüldü§ü üzere, kod çözücü tarafa ltre katsaylar, ses seviye periyodu (pitch period), uyarm kazanc ve sesli/sessiz bilgisi aktarlmas gereken bilgilerdir. Bu bilgilerin her ses penceresi için iletilmesi yeterli olacaktr. Bu sayede LPC kodlayclar son derece dü³ük bit hzlarnda kodlama yapabilmekte-dir.

LPC kodekleri çok yüksek sk³trma oranlarnda çal³malarna ra§men ileti³im ortamlarnda nadiren kullanlmaktadrlar. Bunun sebebi sadece LPC üzerine kurulu kodlayclarn dü³ük kalitede ses üretmesidir. Bu kodlayclarn üretti§i ses, uyarm sinyalinin darbe katar ile tanmlanmasnn yetersizli§inden dolay u§ultulu olmaktadr. Bu sebeple LPC kodekleri ses kalitesinin çok önemli olmad§, ama bant geni³li§inin kritik oldu§u alanlarda, ço§unlukla askeri ileti³imde, sklkla kullanlmaktadr. LPC modelini geli³tiren sentezden-analiz yöntemi popüler kodeklerin birço§unda kullanlmaktadr.

Bu yöntemde, kodlayc taraf hesaplad§ model parametreleri ile yeni bir konu³ma sentezlemektedir. Daha sonra ise sentezledi§i ses ile orijinal sesi kar³la³trmakta ve hata oran minimuma gelene kadar model parametrelerini düzeltmektedir. En uygun model parametreleri bulundu§unda ise bu de§erler kod çözücü yani alc tarafa iletimekte ve dü³ük hatal ses tekrardan sentezlenmektedir. Yöntemin adnn sentezden-analiz olmas, kodlayc tarafn da alc taraf gibi ses sentezlemesi ve uygun parametre de§erlerini üretti§i sesi analiz ederek hesaplamasndan dolaydr.

(25)

model parametre de§erlerinin test edilmesi mümkün de§ildir. Bu yöntemde model parametreleri yerine uyarm sinyalleri test edilmektedir. LPC kodlamasnda kullanlan modelin ba³arl oldu§u ancak uyarm sinyallerinin kötü modellendi§i belirtilmi³ti. Bu sebeple sentezden-analiz yönteminde LPC modeli ayn ³ek-ilde kullanlmakta, ancak uyarm sinyali, hata oran minimuma dü³ürülene kadar de§i³tirilmektedir. Hatta uyarm sinyali ³ekil (shape) ve kazanç (gain) olarak iki parçaya ayrlabilir. Burada kazanç de§eri, ³ekilden ba§msz olarak hesaplanabilmektedir ve bu sayede sentezden-analiz admnda kazanç de§erinin de§i³tirilmesi yeterli olacaktr. Sentezden-analiz yönteminin blok diyagram “ekil 2.3'te verilmi³tir [25].

“ekil 2.3: AbS modelinde kodlama i³lemine ait ak³ diyagram

Sentezden-analiz yönteminin en ba³arl uygulamalarndan bir tanesi CELP (Code-excited linear prediction) kodlama yöntemidir. Günümüzde GSM ve VoIP a§larnda kullanlan birçok kodlayc Tablo 2.1'den de görülece§i üzere CELP ve ACELP (Algebraic CELP) yöntemlerini kullanmaktadr.

(26)

2.2 Müzik Kodlama Yöntemleri

Konu³ma kodeklerinde temel amaç insan konu³malarn, ses kalitesini belirli bir seviyenin altna dü³ürmeden en yüksek miktarda sk³trmaktr. Bu amaçla temel aldklar yöntemler ço§unlukla bir insan konu³ma modelinin gerçeklenmesi ³eklindedir. Müzik ya da yüksek kaliteli ses kodlayclarnn amac da benzer ³ekilde hem yüksek sk³trma hem de yüksek ses kalitesi sa§lamaktr. Ancak buradaki ses kalitesi bir konu³madakinden farkldr. Bu kodlayclar algsal kodlama (perceptual coding) olarak ta tanmlanan psiko-akustik (psychoacoustic) modeller kullanmaktadr. Bu modeller insan i³itme sisteminin çal³masn baz almaktadr.

Burada algsal modelleri anlayabilmek için iki kavramn açklanmas gerekmekte-dir. Bunlardan ilki olan gereksizlik (redundancy), insan i³itme limitlerinin d³nda kalan frekanslarn atlmasn ifade etmektedir. CD kalitesi olarak ifade edilen ses kaytlar bu sebeple 44.1 KHz örnekleme frekansna sahiptir. nsan i³itme sistemi 20 KHz'dan yüksek frekanstaki sesleri duyamad§ndan 22.05 KHz üzerindeki sesler atlmaktadr. kincisi ise yersizlik (irrelevancy) olarak tanmlanmaktadr. nsan i³itme snrlar içerisinden yer alan ancak ortam ³artlar vb. sebepler ile birçok insan tarafndan alglanamayan baz seslerin kodlama esnasnda tamamen atlmas ya da daha az bit ile ifade edilmesini belirtmektedir.

Algsal kodlamann en önemli admlarndan bir tanesi, irrelevancy konsepti ile ilgili olarak, maskelemedir. Maskeleme insan i³itme sisteminin ayn anda gerçek-le³en baz seslere di§erlerinden daha fazla öncelik vermesi olarak tanmlanabilir. Örne§in bir müzik grubunun provasnda davul çalnmaya ba³layana kadar elektro gitar baskn sestir. Ancak davul çalnmaya ba³lad§nda gitarn sesi arka planda kalmaya ba³lamaktadr. Maskeleme algsal kodlama kullanan kodlayclarn çok yüksek oranda sk³trma, MP3 için 11 kat, yapabilmelerine imkan vermektedir. Psiko-akustik bir modele ait ak³ diyagram “ekil 2.4'te verilmi³tir [2].

(27)

“ekil 2.4: Psiko-akustik bir modele ait ak³ diyagram

Bu ksmdaki kodeklerin hemen hemen hepsi zaman-frekans e³le³tirimi (time-frequency mapping) kullanmaktadr. Bu i³lemi yaparken kullanlan dönü³üm ço§unlukla MDCT olmaktadr. MDCT'nin bu kadar popüler olmasnn sebebi ard³k bloklarn belirli ksmlarnn örtü³mesi ile bloklar arasnda bozukluklarn (artifacts) olu³mamasdr [13]. Mp3 kodlamasna ait bir ak³ ³emas “ekil 2.5'te verilmi³tir [13].

“ekil 2.5: MP3 kode§inin kodlama i³lemine ait ak³ diyagram

Bu ³ema incelendi§inde, PCM formatndaki ses dosyalar MDCT ltre bankasna ve psiko-akustik modele ayn anda girmektedir. Bir yandan zaman-frekans dönü³ümü yaplrken bir yandan da ses dosyalarnn akustik nitelikleri in-celenmektedir. Bu i³lemlerden sonra kuantalama ve kodlama gelmektedir. Burada kullanlan kodlama opsiyonlarna uygun ³ekilde örnekleme ve bit atama yaplmaktadr. MP3 ve di§er yüksek kaliteli ses kodlayclar farkl örnekleme ve bit hzlarnda kodlama yapabilmektedir.

(28)

2.3 Çal³mada Kullanlan Kodekler

Çal³mada kullanlan kodekleri belirlerken bu ksmda anlatlan farkl kodlama yöntemlerine sahip ve farkl alanlarda ya da ileti³im ortamlarnda kullanlan popüler kodlayclar seçilmeye çal³ld. Bu kodlayclar, PSTN, GSM ve VoIP ileti³im ortamlarnda ve yüksek kaliteli ses sk³trmasnda kullanlan kodekler olmak üzere dört grupta inceleyebiliriz. Bu kodeklere ait ayrc nitelikler Tablo 2.1'de verilmi³tir. Tablonun ikinci sütunu kodlaycnn en çok kullanlan bit hzn, üçüncü sütun ise ideal ko³ullar altnda ses kalitesini MOS (konu³ma kodekleri için) ve ODG (müzik kodekleri için) skorlar olarak göstermektedir. Dördüncü sütun kodlaycnn kulland§ kodlama tekni§ini, be³inci sütun da kodlaycnn kompleksli§ini MIPS de§eri olarak belirtmektedir. Son sütun ise varsa kodlaycnn gecikme zamann ifade etmektedir.

(29)

Çizelge 2.1: Ses kodlayclarnn kar³la³trmas

Tanml

Kodek Kodek Bit hz MOS1 Kodlama MIPS Gecikme

Grubu (Kbps) ODG2 Tek. (ms)

a-law[6] 64 4.44 PCM 0.01 0.125 PSTN u-law 64 4.45 PCM 0.01 0.125 PCM 32 N/A ADPCM ∼ 0 ∼ 0 AMR [19] 12.2 4.14 ACELP 20 25 GSM AWB[24] 12.65 4.20 ACELP 40 25 RPE-GSM[20] 13 3.5 LTP 5 20 GSM 18 3.9 RPE- 6 20 (WAV) LTP CS-G.729[27] 8 4.1 ACELP 20 15 VoIP G.726[37] 32 4.3 ADPCM 2 0.125 iLBC[10] 13.33 4.1 LPC 18 40 Speex[4] 22 3.84 CELP 40 30 AAC[15] 128 -0.975 MDCT N/A N/A Yüksek MP3[15] 128 -1.179 MDCT N/A N/A Kaliteli OGG 128 -0.485 MDCT N/A N/A Sk³trma FLAC kaypsz N/A Linear N/A N/A

Pred.

WMA 128 -0.661 MDCT N/A N/A 1 MOS de§erlerinin alnd§ adres

http://www.vocal.com/speech_coders/psqm_data.html

(30)

3. BENZER ÇALI“MALAR

Her ne kadar ses kodlama uzun bir geçmi³e sahip olsa da bir sesin kodlamasnda kullanlan kodlaycnn belirlenmesine yönelik snrl sayda çal³ma mevcuttur. Bu ksmda bu çal³maya ilham kayna§ olmu³ birkaç çal³ma hakknda bilgi verilecektir. Bu çal³malarn bazlar birincil hedef, bazlar ise yardmc adm olarak ses kodlaycsn tespit etmeyi amaçlamaktadr.

3.1 Alley'in Konu³ma Kode§i Tespiti

Ses kodlaycs belirleme alannda yaplan ilk çal³ma, Alley tarafndan bir telefon kanalndaki kodlama tipini bulmaya yönelik olarak gerçekle³tirilmi³tir [9]. Metod, daha sonra yapay sinir a§larn e§itmek için kullanlmak üzere, ileti³im ortamna adaptif en küçük ortalama kareler ltresi (least mean squares adaptive lter) yerle³tirerek ltre katsaylarndan istatistikler elde etmektedir. Kullanlan nitelikler olarak en büyük ltre katsaysnn varyans, giri³ sinyal gücü ve ltre hatasnn olaslk da§lm histogram seçilmi³tir. Çal³mada kullanlan yapay sinir a§ modeli ise çok katmanl perceptron yapsdr.

Tablo 3.1'de yaplan testlere ait sonuçlar verilmi³tir. Sonuçlar incelendi§inde, farkl ö§renme oranlar için birçok test yüksek ba³arm göstermi³tir. Ancak bu çal³mann en büyük eksi§i snrl sayda ses kodlaycsnn kullanlm³ olmasdr. Burada çal³mann yapld§ dönemdeki (1993) en büyük ve belkide tek ileti³im altyapsnn sabit telefon hatlar (ilk GSM aramas tarihi 1991) oldu§u göz önüne alnmaldr. Bunun yannda böyle bir snandrma için yapay sinir a§larndan ziyade daha basit snandrclar ile de benzer sonuçlar elde edilebilirdi.

(31)

Çizelge 3.1: Alley'in konu³ma kodlaycs belirleme testi sonuçlar Ö§renme Oran Kanal Tipi Ba³arm(%)

0.025 Linear 95 A-law 86 ADPCM 91 0.050 Linear 97 A-law 86 ADPCM 92 0.075 Linear 91 A-law 83 ADPCM 97 0.100 Linear 94 A-law 83 ADPCM 87

3.2 Scholz'un Konu³ma Kode§i Tespiti

Konu³ma kodlaycs tespit etme alannda farkl ileti³im ortamlarna ait kod-layclar içeren önemli çal³malardan biri de Scholz'a aittir [33]. Scholz'un çal³masnda kulland§ tespit yöntemi çok bandl uyarm (multi-band excitation) ses modeli içerisinde geli³tirilmi³ harmonik ve gürültü ayr³trmna (harmonc-plus-noise decomposition) dayanmaktadr [21].

Bu çal³mada öncelikle ses örneklerinin sesli ksmlar bulunmu³ ve bu sesli ksmlar (voiced frames) harmonik ve gürültü ayr³mna tabi tutulmu³tur. Bu i³lem sonucunda iki farkl spektrum ortaya çkm³tr. Bunlardan ilki sadece sesli parçalardan olu³an harmonik spektrum ve gürültü spektrumu olarak adlandrlan ses örneklerine ait konu³ma spektrumu ve harmonik spektrum arasndaki farkllklar ortaya koyan ikinci bir spektrumdur. Bu ikinci spektrumun da büyük oranda giri³ ses örneklerine ba§l oldu§u öngörülmektedir.

Bu öngörüden yola çkarak farkl konu³ma kodlayclarna ait ses örnekleri belirtilen i³lemlerden geçirilmi³ ve bir e§itim kümesi olu³turulmu³tur. Ayn ³ekilde test edilmek istenen konu³ma örneklerinden de gürültü spekturumu çkarlm³ ve çkartlan gürültü spekturumu daha önce e§itilmi³ kümedeki gürültü spekturumlarna en çok benzeyen ile e³le³tirilmi³, bu ³ekilde kodlayc tespiti

(32)

yaplm³tr. Buradaki e³le³tirme normalize edilmi³ çapraz ilinti (normalized cross-correlation) ile yaplm³tr.

Farkl uzunluktaki ses örnekleri üzerinde deneyler yaplm³tr. Yakla³k 30 sn. (640 pencere) uzunlu§undaki ses örnekleri üzerinde yaplan testlere ait do§ruluk matrisi Tablo 3.2'de verilmi³tir. Her ne kadar baz kodlayclar yüksek ba³arm ile tespit edilse de ortalama ba³armn %80'den dü³ük oldu§u görülmektedir. Özellikle EFR (Enhanced Full Rate) ve ADPCM (G.726) kodekleri di§erleri ile ciddi oranda kar³trlm³tr. Bunun yannda 30 saniyelik bir ses örne§i üzerinde belirtilen i³lemlerin yaplmas da son derece maliyetlidir.

Çizelge 3.2: Scholz'un konu³ma kodlaycs belirleme testine ait do§ruluk matrisi (640 pencere)

Ses Snandrma Sonucu

Kodlaycs ADPCM AMR EFR G.723.1 G.729 HR G.711

16kbit/s %100 - - - -ADPCM 24kbit/s %95.35 - %3.49 %1.16 - - -32kbit/s %74.12 - %0.32 - %3.19 - %22.36 40kbit/s %16.82 - %0.47 - %8.88 - %73.88 4.75kbit/s - %92.41 - - %3.63 - %3.96 AMR 5.9kbit/s - %88.44 - - %2.51 - %9.05 10.2kbit/s - %82.01 - - %5.02 - %12.97 EFR %7.06 %28.24 %51.76 %7.06 - - %5.88 G.723.1 6.3kbit/s - - %19.32 %77.27 - %3.41 -HR - - - %15.93 - %84.07 -G.711 u-law - - - - %9.64 - %90.36

3.3 Jenner'in Konu³ma Kode§i Tespiti

Jenner, Scholz'un çal³masn geli³tirerek daha ba³arl bir snandrc olu³tur-may amaçlam³tr. Önerdi§i yöntem, Scholz'un kulland§ frekans alan niteli§ine (gürültü spekturumu) ek olarak giri³ sinyalinin zaman alanndaki niteliklerini de göz önüne alan bir genlik histogram içermektedir [26].

Yöntem kod çözümü yaplm³ ses örneklerinden çkartlan gürültü spekturumu ve genlik histogramnn, daha önce e§itilmi³ örnekler ile normalize edilmi³ çapraz ilinti (normalized cross-correlation) yardmyla kar³la³trp, en yakn prol ile e³le³tirme yaparak ses kodlaycsn tespit etmektedir.

(33)

Önerilen yöntemin ba³arm TIMIT veri tabanndan alnan konu³ma örnekleri ile test edilmi³tir. Örneklerden 160 pencere uzunlu§u (3.94 sn.) üzerinde nitelik çkartma i³lemi yaplm³ ve 3 kodek hariç tam ba³arm elde edilmi³tir. Scholz'un yöntemine kyasla daha ksa ses örnekleri kullanmalarna ra§men çok daha yüksek ba³arm elde edilmi³tir. Testlere ait do§ruluk matrisi Tablo 3.3'de verilmi³tir. Dü³ük ba³arm elde edilen kodekler olarak iLBC ve Silk göze çarpmaktadr. Çizelge 3.3: Jenner'in konu³ma kodlaycs belirleme testine ait do§ruluk matrisi (160 pencere)

Ses Snandrma Sonucu

Kodlaycs G.711 G.726 G.728 G.729 iLBC AMR Silk

G.711 u-law %100 - - - -40kbit/s - %100 - - - - -G.726 32kbit/s - %100 - - - - -24kbit/s - %100 - - - - -16kbit/s - %100 - - - - -G.728 16kbit/s - - %100 - - - -11.8kbit/s - - - %96.43 %0.60 - %2.98 G.729 8kbit/s - - - %100 - - -6.4kbit/s - - - %100 - - -iLBC 15.2kbit/s - - - %11.90 %88.10 - -13.33kbit/s - - - %14.29 %85.71 - -12.2kbit/s - - - %100 -10.2kbit/s - - - %100 -7.95kbit/s - - - %100 -AMR 7.4kbit/s - - - %100 -6.7kbit/s - - - %100 -5.9kbit/s - - - %100 -5.15kbit/s - - - %100 -4.75kbit/s - - - %100 -Silk VBR - - - %21.43 - - %78.57

3.4 Memon'un Dosya Tipi Tespiti

Memon'un a§lardaki kaynaklarn istismarn tespit edebilmek amacyla önerdi§i yöntem bu çal³mann da ilham kayna§ olmu³tur. Yo§un ak³ tra§inin oldu§u a§larda kaynaklarn hem adil kullanmn sa§lamak hem de amac d³nda kullanlmasn engellemek son derece zor bir i³tir. Bu tespit i³leminin a§daki tüm ak³larn takip edilip, her ak³taki paketlerin tek tek açlp içerdi§i bilgiye

(34)

baklmadan yaplmas, önerilecek yöntemin kullanlabilir olmasn sa§layacaktr. Memon'un önerdi§i yöntem, a§daki ak³lardan belirli uzunlukta paketler(payload) alnp, bu paketler üzerinde istatistiksel analiz yaplarak ak³n içerdi§i dosya tip-ini, örne§in text, html ya da jpeg, belirlemeyi amaçlam³tr [35]. statistiki analiz için kullanlan öznitelikler 3 ksmda incelenebilir. Bunlardan ilki zaman alannda çkartlan ortalama de§er, varyans, entropi ve öz-ilinti gibi basit istatistiklerden olu³maktadr. kinci grup frekans alannda olu³turulan güç spekturumu üzerinden hesaplanan ortalama de§er, varyans ve çarpkl§[3] içermektedir. Son grup ise bicoherence [30], basklk[1] ve çarpkl§ içeren yüksek dereceli istatistikler grubudur. Bu istatistikler de zaman alannda hesaplanm³tr.

Testlerde 8 farkl dosya tipini snandrmay amaçlam³lardr. Her dosyadan 4KB veri alnarak yaplan testlere ait do§ruluk matrisi Tablo 3.4'de verilmi³tir. Sonuçlar incelendi§inde ortalama ba³armn %80 civarnda oldu§u görülmektedir. Bunun yannda Zip ve Jpeg tipindeki dosyalarn tespitinde dü³ük ba³arm elde edilmi³tir. Her dosyadan 16KB veri alnd§ durumda yaplan testlerde ba³armn büyük oranda yükseldi§i berlirtilmi³tir ancak a§daki herhangi bir ak³a ait 16 paket toplamak için bir anda çok fazla paket alnmas gerekti§i de belirtilmi³tir. Çizelge 3.4: Memon'un ak³ çeri§i belirleme testine ait do§ruluk matrisi(4KB)

Dosya Tipi Snandrma Sonucu(%)

Txt Bmp Wav Zip Jpg Mp3 Mpg Enc

Txt 96.83 2.5 0 0.67 - - - -Bmp 3.17 91.67 3.33 0.5 0.67 0.17 0.50 -Wav 0.5 6.67 82.17 0.67 2 7.5 0.5 -Zip 0.67 0.33 1.33 53 12 3.83 1.17 27.67 Jpg - 0.33 0.67 12.50 77.67 4.33 3.33 1.17 Mp3 0.33 0.17 0.33 3.17 3.17 90.50 2.33 -Mpg 0.67 2 1.5 1 4.67 6 84.17 -Enc 0.17 - - 12.67 - 0.33 - 86.83

3.5 PinDr0p

Asl amac arama do§rulama olan PinDr0p adl çal³ma, kodek tespitini ara-malarn kayna§n ve geçtikleri ileti³im ortamlarn (Örn. VoIP, GSM, PSTN) belirlemede kullanmaktadr [11]. leti³im ortamlarnda kullanlan kodekleri

(35)

genelleyerek; VoIP için G.711, iLBC, Speex veya G.729, GSM için GSM-FR ve PSTN için G.711 aday kodekler olarak belirtilmi³tir.

Farkl ileti³im ortamlarna ait kodekleri tespit ederken, kodeklerin ve ileti³im ortamlarnn kendilerine özgü nitelikleri kullanlm³tr. VoIP a§larnda paket kayplarn ve varsa paket kayb gizleme yöntemlerini göz önüne alarak VoIP kode§inin tipini belirlemeyi amaçlam³lardr. Bunlara ek olarak, ses üzerinde gürültü prolleme yaplm³ ve tüm kodekler için spektral açklk (spectral clarity), spektral seviye aral§ ve spektral seviye sapmas hesaplanarak kodek tespitinde kullanlm³tr. Spektral açkl§ hesaplamada P.563 tek tara arama kalite tespit arac kullanlm³tr.

Her bir ses örne§i her kode§in varl§n ya da yoklu§unu belirten be³ etikete sahip olmaktadr. Örne§in bir arama, sabit telefon hattndan ba³layp, Speex kullanan bir VoIP a§ndan geçerek bir GSM kullancsna ula³yorsa, bu arama G.711, Speex ve GSM-FR etiketleri için 1, iLBC ve G.729 etiketleri için ise 0 de§erine sahip olacaktr. Hesaplanan etiketler daha sonra çoklu snandrcya girdi olarak verilerek her bir arama için bir a§ ak³ geçmi³i (Örn. GSM -> PSTN veya PSTN -> VoIP -> GSM) tespit edilmi³tir. Bu çal³mada aramalarn kaynaklar %90 ile %100 arasnda ba³arm ile tespit edilmi³tir. Her ne kadar bu çal³mann asl amac kodek tespit etmek olmasa da kodek tespitinin kritik oldu§u bir uygulamay göstermesi açsndan önemlidir.

(36)

4. ÖNERLEN YÖNTEM

Önceki ksmlarda bu çal³mann arkasndaki motivasyona ve uygulama alan-larna, konu³ma ve müzik kodlamada kullanlan temel yöntemlere ve kodek tespit etme alannda yaplm³ çal³malara de§inildi. Bu ksmda ise kodek tespit etme için önerdi§imiz hzl ve yüksek ba³arma sahip yöntem anlatlacaktr.

4.1 Yöntem

Önerilen yöntem kodek tespit ederken, kodlama üst bilgisini(metadata) ve kodlanm³ verinin yapsn dikkate almamaktadr. Bunlarn yerine kodlanm³ sesi, kodlama süreci ile ili³kili olan istatistiksel nitelikler ile karakterize etmeye çal³maktadr. Bilindi§i gibi kodlama, sk³trma oran, ses kalitesi ve kodlama süresi gibi nitelikler arasnda bir denge gözetmeye çal³maktadr. Örne§in sk³trma oran çok yüksek olan kodlayclar ses kalitesinden feragat etmektedir. PSTN'lerde kullanlan kodlayclar (a-law, u-law), ileti³im ortamnda kullanlan cihazlarn basitli§i ve band geni³li§inin geni³ olmas sebebiyle dü³ük kodlama süresi ve yüksek ses kalitelerine sahip olmalarnn kar³l§nda, son derece dü³ük bir sk³trma oranna sahiptirler. Burada farkl ileti³im ortamlarnda kullanlan kodekler için örnekler ço§altlabilir.

Görüldü§ü üzere kodlanm³ sesin içeri§i ile alakal olmayan, tamamen kodlaycnn tasarm prensiplerine dayanan karakteristikler ortaya çkartlabilir. Yöntem, bu karakteristikleri ortaya çkartmak amacyla, kodlanm³ sesin rasgelelik ve kaotik niteliklerini ölçmekte ve bu ölçümleri bir snandrma sisteminde kullanarak istatistiksel bir model olu³turmaktadr.

(37)

Sistem çevrim d³ (oine) ve çevrim içi (online) olmak üzere iki evreden olu³maktadr. Çevrim d³ evrede sistem e§itim ad verilen süreç ile sfrdan kurulmaktadr. Bu süreçteki admlar dört ksmda inceleyebiliriz. lk admda, veri kümelerindeki kodlanmam³(raw) ses örnekleri, seçilmi³ kodekler ile kod-lanmaktadr. Bu adm sonucunda her orijinal ses dosyasnn farkl kodekler ile kodlanm³ versiyonlar elde edildi. Daha sonra ikinci admda, tüm kodlanm³ ses dosyalar örnekleme i³lemine tabi tutuluyor. Örnekleme i³lemi ses dosyalar üzerinde belirlenmi³ bir noktadan ba³layarak belirli bir uzunluktaki verinin alnmas olarak özetlenebilir. Burada ses dosyalarnn yapsnn sonuçlara etki etme ihtimalini ortadan kaldrmak amacyla örneklemenin ba³layaca§ nokta her ses örne§i için rasgele belirlenmektedir. Üçüncü admda ise ses dosyalarndan alnan bit dizisi, her sekiz bitin i³aretsiz tam say olarak (0 - 255 de§erlerinde) ifade edilmesi ile bayt vektör olarak organize edilmektedir. Son admda, istatistiksel karakterize etme için gerekli öznitelikler bayt vektör üzerinden hesaplanmakta ve çok sn snandrma sistemi kurulmaktadr. Sistemin çevrim d³ evredeki çal³ma admlar “ekil 4.1'de gösterilmi³tir.

(38)

Çevrim içi evrede ise çevrim d³ evreden farkl olarak ilk adm hiç gerçekle³tir-ilmemekte, son admda ise sadece öznitelik hesaplamas yaplmaktadr. Bu evrede verilen ses dosyalar olu³turulan snandrc üzerinde test edilmektedir. Sistemin ba³arm, do§ru tespit edilen ayn kodek ile kodlanm³ seslerin ortalamas alnarak hesaplanmaktadr. Sistemin çevrim içi evredeki çal³ma admlar “ekil 4.2'de sunulmu³tur.

“ekil 4.2: Sistemin çevrim içi evredeki çal³ma admlar

4.2 Öznitelikler

Sistemin en önemli admnn, istatistiksel snandrma i³leminde kullanlacak özniteliklerin belirlenmesi oldu§u görülmektedir. Snandrma modelini olu³-tururken kulland§mz öznitelikleri iki grupta inceleyebiliriz. lk grup kodlama i³lemlerinin sesin kaotik yaps üzerinde brakt§ etkileri incelemektedir. kinci grup ise sesin istatistiksel niteliklerini incelemektedir. Bu iki kategoriye ait öznitelikler alt ba³lklarda detayl bir ³ekilde açklanacaktr.

(39)

4.2.1 Kaotik Öznitelikler

Ses üzerinde lineer modeller ile aç§a çkartlamayan kaotik fenomenlerin varl§na dair teorik ve deneysel kantlar mevcuttur [29]. Bir ses sinyalinin kaotik bir sistem ile olu³turuldu§u varsayld§nda, farkl kodlayclarn ses sinyalinin kaotik yaps üzerinde farkl etkileri olacaktr. Kaotik niteliklerin temel konsepti, ses sinyal vektörlerinin faz uzayndaki kom³uluklarna dayanmaktadr. Bir sinyalin faz uzay vektörü olan s(n) = [x(n), x (n+T) ... x(n+(DE-1)T)], Taken'n

gömme teoremine (embedding theorem) [7] göre tekrar olu³turulmaktadr. Bu ifadede x(n) sinyalin ninci örne§i, T zaman gecikmesi ve DE faz uzaynn gömme

boyutu olarak tanmlanm³tr. Taken'n zaman gecikmeli gömme teoremi, faz uzaynn, sinyalin orijinal bilinmeyen kaotik dinamikleri hakknda faydal bilgiler aç§a çkartabilece§ini belirtmektedir. Ancak bunun için uygun bir DE de§eri

seçilmelidir. Hatal kom³ular oran yöntemi uygun de§erin (gömme boyutu) bulunmasnda sklkla kullanlmaktadr [36]. Bu yöntem belirtilen boyut, D, için Hatal Kom³ular Oran (False Neighbors Fraction - FNF) sa§lamakta ve uygun DE de§erini, boyutu (D), FNF sfr olana kadar arttrarak bulmaktadr.

Bir kom³ulu§u do§ru ya da hatal olarak i³aretleme kriteri, en yakn kom³u noktalar arasndaki uzakl§n kyaslanmas ile olu³turulmu³tur. Bu iki kom³uluk noktasnn, s(n) ve s(m), ard³k artan boyutlarda gömülü olmas gerekmektedir. D boyutlu uzaydaki; dD(s(n), s(m)) = v u u tD−1 k=0 (x(n + k× T ) − x(m + k × T ))2

uzakl§, (D+1) boyutlu uzaydaki; dD+1(s(n), s(m)) = ( (x(n + T.D)− x(m + T × D))2+ D−1 k=0 (x(n + k× T ) − x(m + k × T ))2 )1/2

uzakl§ndan ciddi oranda farkl ise bunlar hatal kom³u çifti olarak de§er-lendirilmektedir [7]. Her kom³uyu do§ru ve hatal olarak i³aretledikten sonra, FNF hatal kom³ularn tüm kom³ulara oran olarak tanmlanmaktadr. lk be³ boyut için en yakn hatal kom³ular oran, kom³ulu§un büyüklü§ünün

(40)

ortalamas ve kom³ulu§un büyüklü§ünün karesinin ortalamas hesaplanm³ ve bu 15 de§er nitelik vektörüne eklenmi³tir. Boyut uzay arttrldkça FNF'lerin hesaplanma süresi her yeni boyut için giderek artmaktadr. Burada sadece ilk be³ boyutun hesaplanma sebebi i³lem zaman ve ba³arm oran dengelemesinden kaynaklanmaktadr. Testlerde kullanlan iki farkl müzik ve konu³ma veri kümesi üzerinde hesaplanan FNF de§erleri “ekil 4.3 ve “ekil 4.4'de sunulmu³tur. lk ³ekil farkl kodlayclar ile kodlanm³ ses örnekleri için 5. boyuta ait kom³ulu§un büyüklü§ünün ortalamasn göstermektedir. kinci ³ekil ise gene 5. boyut için kom³ulu§un büyüklü§ünün karesinin ortalamasnn farkl kodlayclara ait ortalama de§erini belirtmektedir.

0 5 10 15 20 25 aac mp3 ogg wma wav alaw ulaw pcm amr awb gsm gsmwav g729 g726 ilbc speex

“ekil 4.3: Farkl kodekler ile kodlanm³ ses örnekleri için 5. gömme boyutuna ait kom³ulu§un büyüklü§ünün ortalama de§eri

Lyapunov üsleri (Lyapunov Exponents - LE) kaotik bir sinyalin tahmin edilebilir-li§ini ölçmektedir [22]. LE faz uzaynda yakn yörüngeler arasndaki uzakla³-malar(divergence) belirten genel bir ölçüttür. Pozitif üs ba³langçta birbirine yakn olan yörüngelerin zaman içinde uzakla³tklarn belirtmektedir. Pozitif üssün genli§i bu iki yörüngenin birbirinden ne kadar hzl uzakla³tklarn göstermektedir. LE genli§i büyük olan sistemler tahmin edilemez olarak ifade

(41)

0 5 10 15 20 25 aac mp3 ogg wma wav alaw ulaw pcm amr awb gsm gsmwav g729 g726 ilbc speex

“ekil 4.4: Farkl kodekler ile kodlanm³ ses örnekleri için 5. gömme boyutuna ait kom³ulu§un büyüklü§ünün karesinin ortalama de§eri

edilmektedir. Herbir gömme boyutu DE için LE

λ = lim N→+∞ 1 N Nn=1 lnd(s(n + 1), s(m + 1)) d(s(n), s(m))

formülü ile hesaplanmaktadr. Burada s(n) referans noktasn, s(m) ise s(n)'nin yakn yörünge üzerindeki en yakn kom³usunu belirtmektedir. Lyapunov üsleri iki kom³u yörüngenin arasndaki uzakla³mann (yada yaknla³mann) ortalama orandr. Azalan sra ile λ1, λ2, ..., λDE olmak üzere toplam DE adet Lyapunov

Üsleri mevcuttur. λDE en büyük LE olarak bilinmektedir ve pozitif en büyük

LE kaosun varl§na i³arettir. Farkl yörüngelerdeki her en yakn kom³u çiftleri için LE'ler hesaplandktan sonra, tüm sinyalin LE'si bütün hesaplanm³ LE'lerin ortalamas ³eklinde belirlenir. Testlerde kullanlan iki farkl müzik ve konu³ma veri kümesi üzerinde hesaplanan ortalama LE de§erleri “ekil 4.5'de sunulmu³tur. Bu ³ekilde gösterilen de§erler ilk iterasyon için ortalama germe etmeninin (stretching factor) logaritmasna aittir.

Sk³trma algoritmalar sinyalin içindeki tekrarlar aç§a çkarmaktadr ve per-formanslar çktlarnn ilintisizle³mesi (decorrelation) ile do§rudan alakaldr.

(42)

−6 −5 −4 −3 −2 −1 0 aac mp3 ogg wma wav alaw ulaw pcm amr awb gsm gsmwav g729 g726 ilbc speex

“ekil 4.5: Farkl kodekler ile kodlanm³ ses örnekleri için ilk iterasyona ait germe etmeninin logaritmasnn ortalama de§erleri

Pratikte mükemmel bir sk³trma algoritmas olmad§ için aç§a çkartla-mam³ ilintiler (correlations) çkt sinyalinde kalmaktadr. Bu noktadaki temel öngörümüz her sk³trma algoritmas için bu niteliklerin istatistiksel olarak farkl olaca§ ve kodlanm³ verideki arta kalan ilintilerin ba³arl snandrclar kura-bilmek adna yeterli oranda benzersiz oldu§udur. Bu farkllklar yakalayakura-bilmek adna sinyallerin FNF ve LE de§erleri TISEAN [31] yazlm paketi kullanlarak hesapland. FNF niteli§inin nitelik vektörü FDE üç elemandan olu³maktadr;

hatal kom³ularn oran, kom³ulu§un ortalama boyutu ve kom³ulu§un karelerinin kare kök ortalama (root mean squared) boyutu.

FDE= [F N F, mean(dDE(s(n), s(m)), RM S(dDE(s(n), s(m))]

Toplam kaotik nitelik vektörü, F, 26 elemandan olu³maktadr; F ={FDE|DE = 1, 2, 3, 4, 5} ∪ {λi|i = 1, 2, ..., 11}

(43)

4.2.2 Rasgelelik Öznitelikleri

Bu öznitelikler, NIST tarafndan kriptograk bile³enlerin rasgelelik özellik-lerini de§erlendirmek amacyla düzenlenmi³ rasgelelik testlerinden esinlenerek kullanlm³lardr [32]. Örneklenmi³ bayt vektörlerinin rasgelelik özniteliklerini karakterize etmek amacyla bu testlerde kullanlan niteliklerin bir alt kümesini kullandk. Kullanlan nitelikleri zaman ve frekans alan olmak üzere iki kategoride inceleyebiliriz.

Zaman alannda, ortalama de§er, varyans, öz-ilinti, entropi gibi basit istatistikler ve bicoherence, çarpklk, basklk gibi yüksek dereceli istatistikler hesaplanm³tr. Her kode§in farkl kodlama tekni§i kulland§, birçok bit hz opsiyonuna sahip oldu§u ve farkl örnekleme frekanslarnda çal³t§ göz önüne alnd§nda, bu farkllklarn kodlanm³ ses üzerinde ciddi etkileri olaca§ a³ikardr. Örne§in varyans, de§i³kenlik ya da verideki de§erlerin da§lm ile ilgilidir. Bu sebeple veri üzerindeki baz paternlerin tekrar ölçülen varyans de§erini etkilemektedir. Sk³trma i³leminin ses üzerindeki mevcut yaplar ya da patternleri ortadan kaldrd§ dikkate alnd§nda, kodlanm³ ses örneklerinden alnan örneklerin e³it oranda bir da§lma sahip olaca§ öngörülebilir.

Testlerde kullanlan müzik ve konu³ma örneklerinden olu³an iki farkl veri kümesinden alnan örnekler üzerinde hesaplanan varyans de§erleri “ekil 4.6'da verilmi³tir. Bu ³ekil incelendi§inde PCM tabanl kodekler olan G.726 ve ADPCM ile WAV formatndaki dosyalarn varyans de§erleri di§erlerine göre ciddi oranda fazla çkm³tr. PCM i³leminin herhangi bir sk³trma adm içermemesi bu duruma sebep olmu³tur.

(44)

0 2000 4000 6000 8000 10000 12000 aac mp3 ogg wma wav alaw ulaw pcm amr awb gsm gsmwav g729 g726 ilbc speex

“ekil 4.6: Farkl kodekler ile kodlanm³ ses örneklerine ait ortalama varyans de§erleri

Öz-ilinti, kodlanm³ veri üzerindeki tekrar eden paternlerin tespit edilmesinde kullanlabilecek ba³ka bir niteliktir. Bu sebeple öz-ilinti fonksiyonunun ilk 21 katsaysn nitelik vektörümüze ekledik. Entropi, veri üzerindeki rasgeleli§i ve belirsizli§i ölçen bir niteliktir. Bu sebeple entropi, kodlayclar sesi sk³trma yeteneklerine göre ayrt edebilen bir faktör olarak kullanlabilir. Entropy fonksiyonunun formülü ³u ³ekilde ifade edilebilir:

H(X) =−

n

i=1

p(xi) log p(xi) (4.1)

“ekil 4.7 ve “ekil 4.8 müzik ve konu³ma içeren veri kümelerinden alnan ses örneklerine ait sras ile öz-ilinti fonksiyonunun 11. katsaysnn ve entropi de§erlerinin ortalamasn göstermektedir.

(45)

−0.05 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 aac mp3 ogg wma wav alaw ulaw pcm amr awb gsm gsmwav g729 g726 ilbc speex

“ekil 4.7: Farkl kodekler ile kodlanm³ ses örneklerine ait öz-ilinti fonksiyonun 11. katsaysnn ortalama de§erleri

0 0.5 1 1.5 2 2.5 aac mp3 ogg wma wav alaw ulaw pcm amr awb gsm gsmwav g729 g726 ilbc speex

“ekil 4.8: Farkl kodekler ile kodlanm³ ses örneklerine ait ortalama entropi de§erleri

(46)

Yüksek dereceli istatistiklerden olan ve 0 ile 1 arasnda de§erler alabilen bicoher-ence, byte vektör üzerindeki do§rusalszl§ (non-linearity) ve non-Gaussianity'i tespit etmekte ve miktarn ölçmekte kullanlmaktadr. Bu sayede farkl seviyel-erdeki sk³trmalar ayrt etmede yardmc olmaktadr. Farkl kodlayclarn etkilerini yakalayabilmek amacyla hesaplanan ortalama bicoherence, nitelik vektörüne eklenmi³tir.

Çarpklk (Skewness) ve Basklk (Kurtosis) verinin da§lm ile ilgili iki farkl yüksek dereceli istatistiktir. Bu istatistikler, verinin da§lmnn normal da§lm-dan ne derece sapt§nn belirlenmesinde kullanlmaktadr. Benzer ³ekilde bu iki istatistik verinin da§lmnn ³ekilsel olarak incelenmesine de olanak sa§lamaktadr. Bu iki nitelik örneklenmi³ bayt vektörüne ait olaslk kütle fonksiyonu kullanlarak hesaplanm³tr.

Çarpklk bir olaslk da§lmnn simetrik olmay³nn ölçülmesidir. Pozitif çarpklk da§lmn kütlesinin gra§in sol tarafnda yo§unla³t§, tersine negatif çarpklk ise da§lmn kütlesinin gra§in sa§ tarafnda yo§unla³t§ durumlar ifade etmektedir. Çarpklk üçüncü standardize edilmi³ moment olup ³u ³ekilde ifade edilmektedir:

γ1 =

µ3

σ3 (4.2)

Bu ifadede µ3 üçüncü ortalama etrafndaki moment ve σ standart sapma olarak

ifade edilmektedir.

Basklk bir olaslk da§lmdaki dorukluluk (peakedness) miktarnn ölçümü olarak tanmlanmaktadr. Baskl§ ald§ de§erlere göre üç gruba ayrabiliriz. Sfr basklk de§eri normal da§lma aittir. Basklk de§erinin pozitif olmas, da§lmn ortalama de§erinde sivri ve kuyruklar daha ³i³man bir görüntüye sahip oldu§unu göstermektedir. De§erin 0 ile -2 arasnda olmas ise da§lmn ortalama de§erinde normal da§lma göre daha az sivri ve kuyruklar daha zayf bir görüntüsünün oldu§unu belirtmektedir. Basklk, bir olaslk da§lmnn "dördüncü kümülant de§eri bölü varyans karesi" olarak ³öyle tanmlanr:

γ2 = κ4 κ2 2 = µ4 σ4 − 3 (4.3)

Bu ifadede µ4 dördüncü ortalama etrafndaki moment ve σ standart sapma olarak

ifade edilmektedir. Buradaki -3 de§eri normal da§lmn baskl§n 0 yapmak için yaplm³ bir ayarlama olarak açklanmaktadr.

(47)

Frekans alannda hesaplanan nitelikler daha basit olmakla beraber enerjinin birkaç spektral banddaki da§lm ile ilgili istatistikler vermektedir. Bu alandaki nitelikleri hesaplamak için örneklenmi³ bayt vektörlerinin FFT'leri (Fast Fourier Transform) alnm³tr. Daha sonra ise frekans spektrumu dört e³it frekans bandna bölünmü³tür. Her frekans band için ortalama de§er, varyans ve çarpklk hesaplanarak nitelik vektörüne eklenmi³tir. Rasgelelik nitelikleri olarak 27 tanesi zaman alannda, 12 tanesi ise frekans alannda olmak üzere toplam 39 adet nitelik hesaplanm³tr.

(48)

5. TESTLER

Testlerde dört farkl veri kümesi kullanld. lk veri kümesi farkl müzik türlerine ait CD kalitesindeki (1411 Kbps) 500 ³arkdan alnan 1000 örnekten olu³maktadr. Her örnek be³ saniye uzunlu§unda olup, bir ³arkdan alnan iki örnek ³arknn örtü³meyen ve ard³k olmayan ksmlarndan alnm³tr. kinci veri kümesi ise VoxForge konu³ma veri tabanndan alnan 2000 farkl konu³ma örne§ini içermektedir [5]. Bu konu³ma örnekleri 1 ile 13 sn. arasnda de§i³en uzunlukta olup 256 Kbps bit hzna sahiptirler. Tezin ileriki ksmlarnda ilk veri kümesine Müzik-I, ikincisine ise Konu³ma-I ³eklinde atf yaplacaktr. Sonuçlarn güvenilirl§ini tesis etmek amacyla her biri 4000 örnekten olu³an iki büyük müzik ve konu³ma veri kümesi daha olu³turuldu. Müzik veri kümesi önceki ile ayn yöntemle olu³turuldu ancak tek fark bu küme içindeki her örnek farkl ³arklardan alnd. kinci konu³ma veri kümesi ise ayn ³ekilde VoxForge konu³ma veri tabannda alnan örnekler ile olu³turuldu. Bu konu³ma örnekleri Konu³ma-I ile tamamen farkl örneklerdir. Bu son iki veri kümesi de bundan sonra Müzik-II ve Konu³ma-II ³eklinde belirtilecektir.

Tüm veri kümelerindeki örnekler öncelikle Tablo 2.1'de verilen kodekler ve bit hzlar ile kodland. Kodlama admndan sonra, kodlanm³ her örnekten belirli uzunluktaki byte dizileri rastgele konumlardan ba³lanarak alnd ve 65 boyutlu nitelik vektörü hesapland. Snandrma için standart bir makine ö§renme yöntemi olan destek vektör makine (support vector machine - svm) kullanld. SVM için Libsvm [16] paketi radial basis kernel (rbs) ile kullanld. Tüm testlerde veri kümesindeki örneklerin yars e§itim için di§er yars ise test için kullanld. Burada Müzik-I veri kümesindeki bir ³arkdan alnan iki örne§in ayn grup (e§itim ya da test) içinde kalmas sa§land.

(49)

Yaplan testleri iki grupta inceleyebiliriz. lk gruptaki testlerde, kodlanm³ bir sesin kodlanmasnda kullanlan kode§i, örneklerden farkl boyutlarda byte dizileri alarak tespit etmeyi amaçladk. kinci grup testlerde ise ikili kodlama senaryolar incelendi. Bu testlerde kodlanp kod çözümü yaplm³ sesler bir kez daha kodlama i³lemine tabi tutuldu ve ilk kodlamada kullanlan kodek tespit edilmeye çal³ld.

5.1 Tekli Kodlama Testleri

Dört veri kümesi üzerinde birçok deney yapld. Testlerin tümünde kodlanmam³ ses örnekleri de testlere ayr bir snf olarak eklenmi³ ve 17 snk bir snandrma problemi ortaya çkm³tr. Yöntemin en kritik admlarndan bir tanesi örnekleme boyutunun (bayt dizisi uzunlu§u) belirlenmesidir. Bu uzunlu§un, ba³arm ve çal³ma zamann göz önünde bulundurarak, belirlenmesine yönelik 1 KB, 2 KB, 4 KB ve 8 KB bayt uzunluklar için çok sayda test gerçekle³tirildi. Tablo 5.1 Müzik-I ve Konu³ma-I veri kümeleri için farkl bayt dizisi uzunluklarna ait ba³armlar göstermektedir. Müzik-I veri kümesine ait sonuçlar incelendi§inde, ba³armn 1 KB'tan 8 KB'a kadar art³ gösterdi§i görülmektedir. Ancak programn çal³ma zaman göz önüne alnd§nda, 8 KB'lk bayt dizileri üzerinden niteliklerin çkartlmas 4 KB'a göre ciddi oranda uzun sürmektedir. Konu³ma-I veri kümesindeki ses örneklerinin boyutlar ksa oldu§undan, bu örneklerin baz kodekler ile kodlanmas sonucu 4 KB'tan daha küçük boyutlarda ses örnekleri olu³tu. Bu sebeple Konu³ma-I veri kümesi üzerinde sadece 1 ve 2 KB örnekleme boyutlar için testler yapld. Bu iki testin ba³arm oranlar Müzik-I'e kyasla daha yüksek gelmi³tir. Hesaplama zaman ve ba³arm arasnda bir denge gözetmek amacyla bundan sonraki testlerde örnekleme boyutu Müzik-I veri kümesi için 4 KB, Konu³ma-I veri kümesi için ise 2 KB olarak alnacaktr.

Önerilen yöntemin farkl kodlayclar ayrt etme yetene§i Konu³ma-I ve Müzik-I veri kümeleri için srasyla Tablo 5.12 ve Tablo 5.13'de do§ruluk matrisleri ³eklinde verilmi³tir. Konu³ma veri kümesine ait sonuçlar incelendi§inde birçok kode§in tam ba³arm ile tespit edildi§i, birbirleri ile kar³trlan kodeklerin ise benzer kodlama tekni§ine sahip kodlayclar oldu§u görülmektedir. Örne§in,

Şekil

Çizelge 2.1: Ses kodlayclarnn kar³la³trmas
Çizelge 3.1: Alley'in konu³ma kodlaycs belirleme testi sonuçlar Ö§renme Oran Kanal Tipi Ba³arm(%)
Çizelge 3.2: Scholz'un konu³ma kodlaycs belirleme testine ait do§ruluk matrisi (640 pencere)
Çizelge 5.1: Örnekleme Boyutunun Ba³arm Üzerine Etkisi Ba³arm(%)
+6

Referanslar

Benzer Belgeler

Metabolik sendrom olarak da bi- linen bu de¤ifliklikler, kalp hastal›¤›, tip 2 diyabet ve kanser dahil pek çok hastal›k ris- kini art›r›yor.. Araflt›rmac›lar

GEZİNTİ

‹ki grup aras›nda TNF-α de¤erle- rinde ameliyat öncesi dönemde anlaml› fark izlenmez- ken (p=0.576), ameliyat sonras› dönemdeki TNF-α de- ¤erleri grup II’de anlaml›

‹nfek- siyon ve atefle yönelik tedavisi düzenlenen hastada üçüncü günde kar›n a¤r›s› geliflmesi üzerine dördüncü günde intravenöz ranitidine baflland› ve

Bu nedenle myopatiye neden olan ilaçla- r›n kullan›m› s›ras›nda mutlaka hastan›n myopati aç›s›n- dan da aral›kl› kontrolü, flüpheli durumlarda myopati

Tezyinî sanatların her şubesinin eski ve çok zengin bir mazisi olan bizde kumaşları dokuyacak eleman ve dahilî de- korasyonda çalışacak dekoratör ve dekoratör yetiştiren G ü

Bugün, vatan gençliği, bu büyük T ü r k san'atkârma karşı saygı, sevgi dolu kalbini açarak onun ölümünün 346 m c ı yıldönümünü anarken biz de bu gece kooa

Bunun içindir ki, bu stadyumun ilk esas kısmını teşkil eden, asıl müsabaka yeri, diğer ikinci kısımlık temrin ve spor yerlerinden yüksek olarak inşa edilmiş ve bu