• Sonuç bulunamadı

Ses delillerinin içerik önincelemesi ve tahrifinin tespiti için yeni yöntemler

N/A
N/A
Protected

Academic year: 2021

Share "Ses delillerinin içerik önincelemesi ve tahrifinin tespiti için yeni yöntemler"

Copied!
69
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

SES DELLLERNN ÇERK ÖNNCELEMES VE TAHRFNN TESPT ÇN YEN YÖNTEMLER

ERKAM UZUN

YÜKSEK LSANS TEZ

BLGSAYAR MÜHENDSL‡ ANABLM DALI

TOBB EKONOM VE TEKNOLOJ ÜNVERSTES FEN BLMLER ENSTTÜSÜ

ARALIK 2013 ANKARA

(2)

Fen Bilimleri Enstitü onay

Prof. Dr. Necip Camu³cu Müdür

Bu tezin Yüksek Lisans derecesinin tüm gereksinimlerini sa§lad§n onaylarm.

Doç. Dr. Erdo§an DO‡DU Anabilim Dal Ba³kan

ERKAM UZUN tarafndan hazrlanan SES DELLLERNN ÇERK ÖN-NCELEMES VE TAHRFNN TESPT ÇN YEN YÖNTEMLER adl bu tezin Yüksek Lisans tezi olarak uygun oldu§unu onaylarm.

Yrd. Doç. Dr. Hüsrev Taha SENCAR Tez Dan³man

Tez Jüri Üyeleri

Ba³kan : Yrd. Doç. Dr. Tansel ÖZYER

Üye : Yrd. Doç. Dr. Hüsrev Taha SENCAR

(3)

TEZ BLDRM

Tez içindeki bütün bilgilerin etik davran³ ve akademik kurallar çerçevesinde elde edilerek sunuldu§unu, ayrca tez yazm kurallarna uygun olarak hazrlanan bu çal³mada orijinal olmayan her türlü kayna§a eksiksiz atf yapld§n bildiririm.

(4)

Üniversitesi : TOBB Ekonomi ve Teknoloji Üniversitesi

Enstitüsü : Fen Bilimleri

Anabilim Dal : Bilgisayar Mühendisli§i

Tez Dan³man : Yrd. Doç. Dr. Hüsrev Taha SENCAR Tez Türü ve Tarihi : Yüksek Lisans  Aralk 2013

Erkam UZUN

SES DELLLERNN ÇERK ÖNNCELEMES VE TAHRFNN TESPT ÇN YEN YÖNTEMLER

ÖZET

Ses i³leme teknolojisindeki geli³meler ve ses tabanl uygulamalardaki büyük art³, saysal seslerden adli kant toplama alannda yeni yöntemler geli³tirilmesi ihtiyacn da beraberinde getirmi³tir. Bu amaçla geli³tirilen ilk yöntem ses delillerinin önincelemesine yöneliktir. Bir veri depolama cihazndaki seslerden konu³ma içerenleri di§er seslerden ayr³trmak üzere geli³tirilen yöntem, adli bili³im uzmanlarnn daha efektif çal³malarn sa§lamay hedeemektedir. Di§er faaliyet alan ise ses tahrinin tespiti alanndadr. Geli³tirilen yöntem ses üstünde çift-sk³trma ve sklkla kullanlan ses efektlerinin izlerini ayr³trarak i³lem görmü³ veya tahrif edilmi³ sesleri tespit etmeyi sa§lamaktadr.

Anahtar Kelimeler: ses delillerinin ön incelemesi, konu³ma ve konu³ma d³ seslerin ayr³trlmas, objektif konu³ma kalitesi de§erlendirme, ses kodlama, ses efektleri, ses tahrif tespiti, ses içerik bütünlü§ü.

(5)

University : TOBB University of Economics and Technology

Institute : Institute of Natural and Applied Sciences

Science Programme : Computer Engineering

Supervisor : Asst. Prof. Hüsrev Taha SENCAR

Degree Awarded and Date : M.Sc.  December 2013

Erkam UZUN

NEW TECHNIQUES FOR PRELIMINARY ANALYSIS AND TAMPER DETECTION OF AUDIO EVIDENCE

ABSTRACT

The advances in the digital audio processing technology and the increasing number of audio applications have led to a need for novel approaches in audio forensics. The rst one concerns on the search and organization of the audio evidence. Our primary application focus is the preliminary examination of large amount of audio evidence in a storage device by clustering them into speech and non-speech classes, thereby reducing the work load of a forensic expert. We introduced a new technique that can improve the state-of-the-art in audio content classication. Another area is about authentication of audio signals. Techniques developed towards this goal aim at detecting double compressed audio and identifying traces of commonly used audio eects to ultimately distinguish between unmodied and tampered audio signals.

Keywords: preliminary analysis of audio evidence, speech vs non-speech discrimination, objective speech quality assessment, audio encoding, audio eects, audio tamper detection, audio content integrity.

(6)

TE“EKKÜR

Bu tez kapsamnda yaplan çal³malarda görü³lerini ve deste§ini esirgemeyen tez dan³manm Yrd. Doç. Dr. Hüsrev Taha SENCAR'a ve bu süreçte benden manevi deste§ini esirgemeyen aileme te³ekkür ederim.

(7)

ÇNDEKLER

1 Giri³ 1

2 Objektif Konu³ma Kalitesi Ölçütleri 4

2.1 Algsal Ses Kalite Ölçütleri . . . 4

2.1.1 Bark Spektral Bozulmas . . . 4

2.1.2 Güncellenmi³ Bark Spektral Bozulmas . . . 5

2.1.3 Geli³tirilmi³ Güncellemeli Bark Spektral Bozulmas . . . . 6

2.1.4 A§rlkl E§im Spektral Mesafesi . . . 6

2.1.5 Normalize Blok Ölçümü . . . 7

2.1.6 Algsal Konu³ma/Ses Kalitesi De§erlendirme . . . 7

2.2 Spektral Tabanl Ölçütler . . . 7

2.2.1 Itakura-Saito ve COSH Mesafesi . . . 7

2.2.2 Kepstral Mesafe Ölçütü . . . 8

2.2.3 Ksa Zamanl Fourier-Radon Dönü³ümü . . . 8

2.2.4 Spektral Faz (Büyüklü§ü) Bozulmas . . . 8

2.2.5 Log-Olabilirlik Oran . . . 9

(8)

2.3 Zaman Alanl Ölçütler . . . 10

2.3.1 Sinyal-Gürültü Oran . . . 10

2.3.2 Czekanowski Uzakl§ . . . 10

3 Ses Delillerinde çerik Önincelemesi 11 3.1 Benzer Çal³malar . . . 13

3.2 çerik Snandrmada Objektif Konu³ma Kalitesi Ölçütlerinin Kullanm . . . 16

3.2.1 Yaygn Ölçütler (CF) . . . 19

3.3 Deneyler . . . 22

3.3.1 Veri Kümesi . . . 22

3.3.2 Testler ve Ba³arm Sonuçlar . . . 26

3.4 Sonuçlar . . . 35

4 Ses Delilerinde Tahrif Tespiti 37 4.1 Tahrif Yöntemleri . . . 38

4.2 Metodoloji . . . 39

4.3 Deneyler . . . 40

4.3.1 Onaylama Deneyi . . . 42

4.3.2 Ortak Sinyal Deneyi . . . 44

4.3.3 Farkl Kayt Deneyi . . . 45

4.3.4 Ortak Kaynak Deneyi . . . 47

(9)

4.4 Sonuçlar . . . 49

(10)

“EKLLERN LSTES

3.1 Farkl kodlayclar ile kodlanm³ veriler üzerinde yaplan genel snandrc testlerine ait SQF sonuçlar . . . 31 3.2 Orijnal ve farkl seviyelerde kodlanm³ dosyalarn homojen da§lm

ile olu³turulmu³ e§itim modeli (sa§lam genel snandrc) üz-erinden yaplan snandrma sonuçlar . . . 32

(11)

ǝZELGELERN LSTES

2.1 Objektif Konu³ma Kalitesi Ölçütleri (SQF) . . . 5

3.1 Eski Çal³malar . . . 13

3.2 Çizelge-3.1'de Verilen Öznitelikler ve Ksaltmalar . . . 17

3.3 Yaygn Ölçütler . . . 20

3.4 Konu³ma ve Müzik Ayrt Etmeye Yönelik Ortak Alan Testleri . . 26

3.5 Konu³ma ve Konu³ma D³ Sesleri Ayrt Etmeye Yönelik Ortak Alan Testleri . . . 27

3.6 Alan D³ Test Sonuçlar . . . 28

3.7 Genel Snandrc Testleri . . . 29

3.8 A³amal E§itim (AE) Seti Güncelleme Testleri . . . 29

3.9 Ses Efektleri Eklenmi³ Dosyalarn Snandrlmas . . . 33

3.10 Veri Kümeleri Üzerinden Yaplan Kar³la³trma Deneyleri . . . 34

3.11 Öznitelik Tabanl Yaplan Kar³la³trma Testleri . . . 35

3.12 CF ve SQF için Öznitelik Hesaplama Süreleri . . . 35

4.1 Zaman Alanl Tahrif Yöntemleri . . . 39

(12)

4.3 Veri Kümesi . . . 41 4.4 kili Snandrc Sonuçlar . . . 43 4.5 Çok Sn Snandrc Sonuçlar . . . 44 4.6 Test Sinyallerine Uygulanan Rastgele Seçilmi³ Tahrif Yöntemleri . 45 4.7 Rastgele Seçilmi³ Çoklu Efekt ile Tahrif Edilen Sinyallerin Tespiti 45 4.8 Bir Ki³iye Ait Ses Sinyalinde Farkl Konu³ma Kaytlar Üzerinden

Tahrif Tespiti . . . 46 4.9 Bir Ki³iye Ait Ses Sinyalinde Ayn Kaynak Kaytlar Üzerinden

Tahrif Tespiti . . . 47 4.10 Zaman Alanl Tahrif Testleri Sonuçlar . . . 49

(13)

1. Giri³

Bir ara³trma alan olarak saysal adli bili³im, dört temel sorunun çözümüne yönelik yeni yöntem ve tekniklerin geli³tirilmesini hedeemektedir. Bunlar:

• delil saylabilecek verilerin tespiti ve elde edilmesi,

• delillerin düzenlenerek aranabilir ve incelenebilir hale getirilmesi, • delillerin kayna§nn nitelendirilmesi,

• delillerin orijinalli§inin tespitidir.

Günümüze kadar bu ara³trma alannda de§erlendirilebilecek çal³malar büyük ço§unlukla iki alanda yo§unla³m³tr. Bunlarn ilki ses kayna§nn tespiti alanna giren konu³mac tanma konusundadr. Di§er alan ise ses verisinin orijinalli§inin tespitine yöneliktir. Bu alanda yaplan çal³malar ço§unlukla seslerin gürültü-den arndrlarak zengi³le³tirilmesi ve konu³ma tanma ile ses kaytlarndaki anomalilerin spektral yöntemler kullanlarak tespit edilmesi konular üzerine olmu³tur. Ancak geli³en teknolojiler ve ses tabanl uygulamalardaki art³, önceden öngörülmemi³ yeni problemler ve ihtiyaçlar ortaya çkarm³tr. Bu çal³ma kapsamnda yukarda verilen problemlerden delillerin ön incelemesi ve orijinalli§inin tespitine yönelik yeni yakla³mlar önerilmi³ ve özgün yöntemler geli³tirilmi³tir.

Bu ba§lamda yaplan ilk çal³ma delil ön incelemesi alanndadr. Adli bili³im uzmanlarnn günlük faaliyetlerinde kar³la³tklar en büyük zorluk yüksek hzla artan veri miktar ile ilgilidir. Bu durum delil toplama ve analizi i³leminin büyük oranda uzman merkezli, manuel yöntemlerle gerçekle³iyor olmas gerçe§iyle bir-le³tirildi§inde, bu i³lemlerde uzmanlara yardmc olabilecek otomatik hesaplama

(14)

yöntemlerinin geli³tirilmesi ihtiyacn daha da acil klmaktadr. Bu ihtiyaca yönelik olarak geli³tirilen yöntem bir veri depolama cihazndaki konu³ma içeren seslerin hzl bir ³ekilde ayrdedilmesini sa§lamaktadr. Bu amaçla önerilen yakla³mn yenilikçi yani konu³ma sinyallerinin kalitesinin insan algs faktörlerine ba§l olarak nicelendirilmesi için geli³tirilen objektif konu³ma kalitesi ölçütlerinin (SQF), konu³ma sinyalinin genel manada karekterize edilmesinde kullanlmasdr. Farkl özelliklere sahip 10 veri kümesi üzerinde yaplan testler, tekni§in konu³ma içeren sesleri %99 ba³armla ayr³trabildi§ini gösterdi§i gibi yöntemin performan-snn (farkl veri kümeleri üzerinde de) genellenebilir oldu§u da belirlenmi³tir. Mevcut çal³malarla yaplan performans kar³la³trmalar önerilen yöntemin ses içeri§inin snandrlmasnda daha yüksek ba³arm elde etti§ini göstermektedir. Çal³ma kapsamnda cevap aranan ikinci problem ise delillerin orijinalli§inin tespitidir. Seslerin kesip-kopyalanmasndan, sesin bir ksmnn özel bir ³ekilde i³lenmesine kadar geni³ bir tanm olan ses tahrini saptamak için yeni bir yöntem önerilmi³tir. Yöntemin özü tahrif srasnda uygulanmas beklenen ses i³leme i³lemlerinin brakt§ izlerin tespit edilmesi üzerine kuruludur. Bu amaçla ses düzenleme için yaygnlkla kullanlan Adobe Audition yazlm aracnda da var olan ses efektleri incelenerek ses i³lemede sklkla kullanlan 21 efekt belirlenmi³tir. Bu tür efektler uygulanm³ sesleri, hiç bir düzenlemeye tabi tutulmam³, orijinal seslerden ayrdedebilmek için ise konu³ma seslerin temel niteliklerini tanmlayan objektif konu³ma kalitesi ölçütlerinin yan sra bir sese ait ziksel efektleri temsil eden zaman ve frekans alanl ölçütler de kullanlarak 50 boyutlu bir öznitelik kümesi belirlenmi³tir. Bu öznitelikler kullanlarak efektli ve orijinal sesleri temsil eden snandrc modelleri olu³turulmu³ ve testler yaplm³tr. lk a³amada her bir efektin yanlz ba³na uyguland§ durum göz önünde tutularak efekt uygulanm³ sesler tespit edilmeye çal³lm³tr. Her bir efektin %100'e yakn bir ba³arm ile ayrt edilebildi§ini gösteren test sonuçlar, olu³turulan öznitelik kümesinin efekt tespitinde kullanlabilece§ini göstermi³tir. Birden çok efektin (3-4) uygulanabilece§i pratik durumlar göz önünde bulunduran tahrif testlerin tümünde çoklu efekt uygulanm³ seslerin ayrmnn %90'nn üstünde bir ba³arm ile gerçekle³tirilebildi§i görülmü³tür. Di§er yandan gerçek hayatta kar³la³labilecek kesme, yer de§i³tirme, sinyal ekleme gibi zaman alanl tahrif senaryolar kar³snda önerilen yöntemin %85 civarnda bir ba³arm gösterdi§i gözlenmi³tir.

(15)

Takip eden bölümlerde srasyla bu çal³malara temel olu³turan objektif konu³ma kalitesi ölçütleri tantlm³ ve ilk ara³trma konusu olan konu³ma ve konu³ma d³ seslerin ayrt edilmesi anlatlm³tr. Sonraki bölümlerde ise ses tahrinin tespitine yönelik yöntem ve deney sonuçlar verildikten sonra son bölümde genel bir de§erlendirme yaplm³tr.

(16)

2. Objektif Konu³ma Kalitesi

Ölçütleri

Bu bölümde ses içeri§i snandrlmasnda ve ses tahrif tespitinin belirlenmesinde kullanlacak objektif konu³ma kalitesi ölçütleri sunulmu³tur. Objektif konu³ma kalitesi ölçütleri i³lenmek üzere verilen orijinal sinyal (x(t)) ve bu sinyalden üretilen referans sinyal (y(t)) üzerinden hesaplanrlar. Referans sinyal üretilirken verilen orijinal sinyal gürültüden arndrlmaktadr. Bir sinyali gürültüden arndrmak için dalgack büzülme, ba§msz bile³en analizi, maksimum olabilirlik ve ayrk dalgack dönü³ümü gibi yöntemler kullanlmaktadr. Bu çal³ma kapsamnda yaygn olarak kullanlan bir dalgack tabanl gürültüden arndrma yöntemi kullanlarak referans sinyaller üretilmi³tir[15].

Her bir kalite ölçütü 20-100 ms. arasnda de§i³en bölütler üzerinden hesaplanarak bunlarn ortalamas ³eklinde de§erlendirilmektedir. Çizelge-2.1' de verilen algsal, spektral ve zaman alanl toplam 21 adet konu³ma kalitesi ölçütlerine dair detayl açklama takip eden bölümlerde verilmi³tir. E³itliklerde geçen N toplam bölüt saysn vermektedir.

2.1 Algsal Ses Kalite Ölçütleri

2.1.1 Bark Spektral Bozulmas

Bu ölçüt konu³ma kalitesinin konu³ma sinyaline ait, i³itsel hassasiyet olarak tanmlanan, ses yüksekli§i ile orantl oldu§u varsaymna dayanmaktadr. Bark

(17)

Çizelge 2.1: Objektif Konu³ma Kalitesi Ölçütleri (SQF)

Ölçüt Ad Ölçüt

Says BölütBoyutu(ms) Algsal Ses Kalite Ölçütleri

Bark Spektral Bozulmas 1 60

Güncellenmi³ Bark Spektral Bozulmas 1 80 Geli³tirilmi³ Güncellemeli Bark Spektral Bozulmas 1 20

A§rlkl E§im Spektral Mesafesi 1 40

Normalize Blok Ölçütü 2 60

Algsal Konu³ma/Ses Kalitesi De§erlendirme 2 32 Spektral Tabanl Ölçütler

Itakura-Saito ve COSH Mesafesi 2 100

Kepstral Mesafe Ölçütü 3 20

Ksa Zamanl Fourier-Radon Dönü³ümü 1 60

Spektral Faz (Büyüklü§ü) Bozulmas 2 40/20

Log-Olabilirlik Oran 1 60

Log-Alan Oran 1 60

Zaman Alanl Ölçütler

Sinyal-Gürültü Oran 2 20

Czekanowski Uzakl§ 1 40

spektrumu insan kula§na ait, karma³k sinyallere kar³ verilen cevaplarda, do§rusal olmayan genlik ve frekans dönü³ümlerini yanstmaktadr [53]. Bozulma de§eri E³itlik-2.1'de verilen iki Bark spektral vektörü arasndaki Öklid mesafesinin karesinin ortalamas olarak hesaplanr. E³itlikte geçen C kritik bant saysn, Ljx(i)ve Ljy(i)srasyla orijinal ve referans sinyaller için verilen i kritik bandnda bulunan j bölütüne ait Bark spektrumlarn göstermektedir.

1 N N X j=1 " C X i=1 Ljx(i) − Ljy(i)2 # (2.1)

2.1.2 Güncellenmi³ Bark Spektral Bozulmas

Bu ölçüt hesaplanrken bir gürültü maskeleme e³i§i kullanlr. Gürültü maskeleme e³i§i [56]'daki gibi hesaplanr ve bozulma de§eri E³itlik- 2.2'de verildi§i gibi

(18)

duyulabilen gürültü seviyesi farklarnn ortalamas olarak verilir. E³itlikte geçen M(i) i kritik bandna ait bozulma indikatörü olarak kullanlmaktadr.

1 N N X j=1 " C X i=1

M (i)|Ljx(i) − Ljy(i)| #

(2.2)

2.1.3 Geli³tirilmi³ Güncellemeli Bark Spektral Bozulmas

Gürültü seviyesi fark hesaplanrken ilk 15 Bark spektral bile³eni dikkate alnr. Burada da yine gürültü maskeleme e³i§i kullanlmaktadr. Ayrca, maskeleme sonras etkileri dikkate alan yeni bir algsal model kullanm benimsenmi³tir [55]. Bozulma de§eri E³itlik-2.3'de verildi§i gibi hesaplanmaktadr. E³itlikte geçen Djxy(i) Bark spektralleri farkn (|Ljx(i) − Ljy(i)|), Th(i) ise i kritik bandna ait j bölütündeki gürültü maskeleme e³i§ini belirtmektedir.

1 N N X j=1 " 15 X i=1 Max{Dj

xy(i) −Th(i), 0}Djxy(i)

#

(2.3)

2.1.4 A§rlkl E§im Spektral Mesafesi

Bu ölçüt kritik bant ltreleme bankas yoluyla düzeltilmi³ ses spektrumlarn kar³la³trarak e§imler arasndaki benzerlik orann ölçmektedir [31]. Bu ölçüt E³itlik-2.4'de verildi§i gibi 36 kritik frekans bandndaki spektral farklarn karekökünün ortalamas olarak hesaplanr. E³itlikte geçen ω(i) i kritik frekans bandna ait spektral maksimumu göstermektedir.

1 N N X j=1 " 36 X i=1

ω(i) (∆Ex(i) − ∆Ey(i))2

#

(19)

2.1.5 Normalize Blok Ölçümü

Burada iki konu³ma sinyali arasndaki spektral salnm zaman ve frekans ölçe§inde hesaplanr. Konu³ma sinyali öncelikle frekans ölçe§inden Bark spektral ölçe§ine alnarak burada do§rusal olmayan sinyal genli§i sk³trma i³lemine tabi tutulur. Bu ³ekilde konu³ma sinyallerine gürültü alanna yaknsayan bir dönü³üm uygu-lanm³ olur. Burada zaman ve frekans tabanl normalize blok ölçümü ³eklinde iki öznitelik hesaplanr. Zaman tabanl ölçümde frekans ölçe§inde dönü³ümü yaplm³ sinyallerin zaman aralklarndaki fark alnrken, frekans tabanl ölçümde zaman ölçe§inde dönü³ümü yaplm³ sinyallerin frekans aralklarndaki fark hesaplanr [51].

2.1.6 Algsal Konu³ma/Ses Kalitesi De§erlendirme

Bu ölçüt (ITU-T Recommendation P.862 tarafndan) dar bant konu³ma kod-layclar ve telefon sistemlerini de§erlendirmek için önerilmi³ bir objektif ölçüttür. Bu ölçüt zaman hizalama, ses gürültüsünün algsal akusitik modeli, bozulma i³leme, bili³sel modelleme, frekans ve zaman alannda bozulma toplam gibi birçok bile³eni son bozulma de§erini elde etmede kullanr [44].

2.2 Spektral Tabanl Ölçütler

2.2.1 Itakura-Saito ve COSH Mesafesi

Itakura-Saito iki sinyale ait do§rusal öngörülü kodlama (LPC) katsaylar arasn-daki mesafeyi, E³itlik-2.5'de verildi§i gibi, iki spektral vektörün karelerinin log büyüklük oranlar olarak hesaplar [28]. Bunun simetrik versiyonu ise COSH mesafesi olarak hesaplanr [22]. E³itlikte geçen Sj

x(w) ve Syj(w) srasyla orijinal

ve referans sinyallere ait j bölütündeki güç spektrumlarn göstermektedirler.

1 N N X j=1   π Z −π  log S j y(w) Sxj(w) +S j x(w) Syj(w) − 1 dw 2π   (2.5)

(20)

2.2.2 Kepstral Mesafe Ölçütü

ki spektral arasndaki benzerli§i ölçer ve E³itlik-2.6'daki gibi iki sinyale ait LPC kepstral katsaylar arasnda tanmlanr. Bu uzaklklar tüm çerçeveler üzerinden hesaplanarak bunlarn ortalamas, maksimumu ve E³itlik-2.7'deki gibi a§rlkl ortalamas ³eklinde de§erlendirilir.

d(cx, cy, j) = " (cx(0) − cy(0))2+ 2 L X k=1 (cx(k) − cy(k))2 #1/2 (2.6)

Bu e³itlikte bulunan d(cx, cy, j)de§eri j bölütünde hesaplanan L uzakl§n, cx(k)

ve cy(k) ise kepstral katsaylar göstermektedirler. N X j=1 w(j)d(cx, cy, j) ! / N X j=1 w(j) ! (2.7)

Burada geçen w(j), j bölütüne ait a§rlk katsaysdr.

2.2.3 Ksa Zamanl Fourier-Radon Dönü³ümü

Bir sinyaln ksa zamanl Fourier dönü³ümünün (STFT) frekans alanl izdü³ümü do§rudan sinyal büyüklü§ünü verirken, zaman alanl izdü³ümü o sinyalin büyük-lük spektrumunu verir. Bu ölçüt ise iki sinyal için hesaplanan STFT'lerin Radon dönü³ümlerinin farknn karelerinin ortalamas olarak hesaplanr [20].

2.2.4 Spektral Faz (Büyüklü§ü) Bozulmas

E³itlik-2.8 ve E³itlik-2.9 orijinal ve gürültüden arndrlm³ sinyallerin faz ve faz büyüklü§ü bozulmalarndaki fark vermektedir [41]. (λ = 0.025 faz ve büyüklük terimlerini birle³tirmek için seçilmi³tir.)

1 N N X w=1 |θx(w) − θy(w)|2 (2.8)

(21)

1 N          λ ∗ N X w=1 |θx(w) − θy(w)|2 + (1 − λ) ∗ N X w=1 ||X(w)| − |Y (w)||2          (2.9)

E³itliklerde geçen ω ayrk frekans indeksini göstermekle beraber 0 ≤ w ≤ N − 1 aral§nda yer alr. Ayrca, θx(w) ve θy(w) faz spectrumlarn, X(w) ve Y (w)

büyüklük spektrumlarn ifade etmektedirler.

2.2.5 Log-Olabilirlik Oran

Bu ölçüt konu³ma sinyali üretim mekanizmasna ait LPC modellerini kullanr ve E³itlik-2.10'daki gibi iki sinyale ait LPC katsaylarndan hesaplanr [55].

1 N N X j=1 " log − →αT x,jRy,j−→αx,j − →αT

y,jRy,j−→αy,j

!#

(2.10)

E³itlikte geçen −→αx,j ve −→αy,j srasyla orijinal ve referans sinyallerine ait j

bölütündeki LPC katsaylarn ifade etmektedirler. Di§er yandan Ry,j ise referans

sinyaline ait otokorelasyon matrisini ifade etmektedir.

2.2.6 Log-Alan Oran

Bu ölçüt insan sesini farkl kesitlerde kademeli tek tip silindirik tüpler ³eklinde modellemeye dayanmaktadr ve katsaylar kom³u tüplerin kesit alanlar ve LPC katsaylar arasndaki log-alan oran olarak hesaplanr. Tüm çerçeveler için hesaplanan katsaylarn ortalamas öznitelik olarak de§erlendirilir [13].

(22)

2.3 Zaman Alanl Ölçütler

2.3.1 Sinyal-Gürültü Oran

Orijinal (x(t)) ve referans (y(t)) sinyallerini zaman alannda örnek baznda kar³la³trr. Bölütsel sinyal-gürültü oran ise her bir çerçevede yaplan kar³la³tr-mann ortalamas olarak hesaplanr.

2.3.2 Czekanowski Uzakl§

E³itlik-2.11'de verildi§i gibi x(t) ve y(t) sinyallerini zaman alannda kar³la³tran kolerasyon tabanl bir ölçüttür.

1 N N X j=1 " M X i=1 

1 −2 ∗ min (xj(i), yj(i)) xj(i) + yj(i)

#

(2.11)

Burada geçen M, j bölütünün büyüklü§ünü, xj(i) ve yj(i) ise srasyla i

(23)

3. Ses Delillerinde çerik

Önincelemesi

Dijital adli bili³im alan çe³itli dijital araç ve elektronik depolama aygtlarnda bulunan kantlarn toplanmas ve analizi ile ilgilenmektedir. Bu tür dijital aygtlarn boyutlar ve kompleksitesi ne yazk ki sürekli artmaktadr. Bunun bir nedeni yeni format ve araçlardan olu³an dijital ortamn hzla geli³imi olmasna ra§men esas nedeni kant içerebilecek veri boyutundaki eksponansiyel art³tr. Dolays ile dijital adli bili³im uzmanlar bu derece büyük boyutlu veriyi kontrol edebilecek yenilikçi araç ve tekniklere ihtiyaç duymaktadrlar.

Adli bili³im uzmanlarnn soru³turma srasnda sklkla kar³la³tklar önemli bir zorluk genellikle bilgisayar sistemlerinden ve mobil cihazlardan alnan kant niteli§indeki büyük boyutlarda verinin incelenmesi i³lemidir. Bir adli bili³im uzmanna on binlerce ses dosyas içeren geni³ depolama kapasitesi olan bir aygtn (bilgisayar, akll telofon, tablet, harici sabit disk vs.) verildi§i bir davay göz önüne alalm. Böyle bir aygtta yürütülen dava ile hiç bir ilgisi olmayan ³ark ve müzik dosyalar olaca§ gibi görü³me ve sesli mesaj gibi mahkemeye güçlü delil olarak sunulabilecek ses dosyalarda olabilir. Böyle bir senaryoda adli bili³im uzman en kötü durumda verilerin hepsini kontrol edip bunlarn soru³turmayla alakal olanlarn tespit etmek için çok fazla zaman harcamak zorunda kalacaktr. Adli bili³im uzman yalnz bu eleme i³leme sürecinden sonra onaylama, açklama ve ses tanma i³lemleri için diseksiyon ve analiz sürecine ba³layabilecektir. Bu problem incelenen depolama aygtnn kapasitesindeki art³a ba§l olarak daha da kötüle³ecektir. Bu yüzden ses içeri§inin otomatik olarak belirlenmesi adli bili³im uzmanlarnn günlük i³ yükünü önemli derecede azaltacaktr. Söz konusu inceleme bir adli soru³turma kapsamnda yaplaca§ndan

(24)

bu tarz bir otomasyon soru³turmann tamamlanmas için geçen süreyi kayda de§er bir oranda azaltacaktr.

Yukarda anlatlan senaryodan hareket ederek, bu çal³mada, konu³ma ve konu³ma d³ sesleri ayrt etmek için ses içeri§ini güvenli bir ³ekilde analiz eden yeni bir teknik sunulmu³tur. Pratikte ses içeri§i konu³ma, müzik, konu³ma d³ ve müzik d³ ses ve birçok farkl akustik kaynaktan gelen daha kompleks yapda sesler olmak üzere farkl akustik ses snarndan olu³maktadr. Fakat, müzik dünyada en yaygn kullanlan dijital ürünlerden birisi oldu§undan tipik bir ki³isel saysal cihaz yo§un olarak müzik dosyalar içerecektir. Bu yüzden adli bili³im analizi bak³ açsndan konu³mann, büyük olaslkla müzik içeren, di§er akustik türlere göre daha ön planda oldu§u ses içeriklerini ayrt edecek bir ikili snandrc sistemi gerçeklemek daha çekici olacaktr.

Bir adli bili³im ortamnda kullanlacak otomatik ses içeri§i snandrma sistemi bir dizi temel endi³eleri adres etmelidir. Birincisi ve en önemlisi, böyle bir sistem farkl dil ve lehçelerdeki insan sesine ait ortak akustik-fonetik özellikleri yakalamaldr. Ayn zamanda, böyle bir sistem yeti³kin kadn ve erkek sesi hatta çocuk sesi arasndaki farkllklara kar³ hassas olmamaldr. Ayrca bu sistem arka plan gürültüsü içeren konu³ma sinyalleri kar³snda da performansn korumaldr. Ses dosyalar genel olarak farkl formatlarda sk³trlm³ olarak sakland§ndan ve transfer edildi§inden dolay sistemin performans farkl oranlarda de§i³en bit hzlarnda yaplan kodlamalar kar³snda de§i³memelidir. Son olarak sistemin ba³ars genel olarak kullanlan ses i³leme teknikleri sonucu azalmamaldr. Yukardaki endi³eleri adres etmek için, bu çal³mada, rutin olarak binlerce konu³ma içeren ses dosyasn inceleyen bir adli bili³im uzman perspektinden ses içeri§i snandrma i³leminde yaplan literatürdeki çal³malar üzerine in³a etti§imiz objektif konu³ma kalitesi ölçütlerininin kullanmn tanttk. Bu ölçütler ilk olarak konu³ma sinyallerine ait alglanan kalite problemlerinin, bozulmalar tespit ve ölçme yolu ile, te³hisinde ve de§erlendirilmesinde kul-lanlm³tr. Buradaki yakla³mn altnda yatan kir farkl türdeki ses sinyallerinin yapsal farkllklarndan ötürü konu³ma için tasarlanm³ ve rane edilmi³ kalite ölçütlerinin sistematik olarak türdeki seslere kar³ farkl davranmasdr. Dolays ile bu tür sistematik de§i³imler içerik snandrmada kullanlabilmektedirler. Bunun için önerilen metot öncelikle verilen sinyal için gürültü bastrma yöntemleri

(25)

aracl§ ile bir referans sinyali üretir. Daha sonra verilen sinyal ve üretilen referans sinyalden konu³ma tanmlayc kalite ölçütleri çkartlr. Yöntemin ba³arm kapsaml testler ile ölçülmü³ ve literatürdeki mevcut çal³malar ile kar³la³trlm³tr. Sonuçlar yöntemin farkl senaryo ve veri kümelerinde tutarl bir ³ekilde çal³t§n göstermektedir. Deneylerde bkllanlan veri kümesi geni³li§i ve uygulanan ses i³leme teknikleri kapsamndan bu çal³ma bu alanda yaplan en kapsaml çal³ma olmu³tur.

Takip eden bölümlerde sras ile önce bu alanda yaplan çal³malar anlatlm³ ve daha sonra önerilen yöntemin bu çal³malardan farkl yönlerinin üzeri çizilmi³tir. Sonraki bölümde ise bu çal³mann saysal adli bili³im alanna uygunlu§unu gösteren kapsaml test senaryolar ve elde edilen sonuçlar anlatlm³tr.

3.1 Benzer Çal³malar

Çizelge 3.1: Eski Çal³malar

Çal³ma Öznitelikler Veri Türü: Veri

Uzunlu§u Veri KümesiEri³imi SnandrmaYöntemi Ba³arm (%) 1997 [46] 1,2,3,4,5,6,7,8 S:20 min; M:20 min Açk [46] S vs M 94.44 2001 [49] 1,9,10 S:32 min; M:32 min Açk [49] S vs M 82.00 2005 [5] 1,2,8,11,12,13 S:20 min; M:20 min Açk [46] S vs M 95.08 2006 [7] 2,8,14,15,16,17 S + M:20 hrs Özel S vs M 99.10 2007 [39] 1,2,3,6,7,8,18 S:1 hr; M:1 hr Özel S vs M 98.17 2007 [45] 1,19,20,21 S:20 min; M:20 min Açk [46] S vs M 98.75 2008 [48] 17,20,22,23,24 S:50 min; M:5 hrs Açk [59] S vs M 94.25 2008 [52] 8,25,26 S:80 min; M:80 min Özel S vs M 98.30 2008 [42] 1,11 S + M:12 hrs Özel S vs M 95.68 2009 [34] 1,2,3,6,7,8,11,27,28 S:13 hrs; M:23 hrs Açk [3] S vs M 98.60 2011 [54] 1,6,7,8,11,20,21,29,30,31,32 S + M + ES:8 hrs Özel 3S vs M vs ES 94.20 2011 [19] 2,11 S:83 min; M:80 min Açk [59] S vs M 90.59 2011 [10] 1 S:3.9 hrs; M:3.9 hrs Özel S vs M 98.50 2011 [9] 1,18,23 S:114 min; M:80 min Özel S vs M 97.42 2011 [27] 1,2 S:3.5 hrs; SL:30 min Özel S vs NS 95.60 2011 [6] 6,8,11,12 S:100 min; M:102

min; N:102 min Özel S vs M vs N 81.90 2012 [23] 1,2,3,6,7,8,31,32 S + M + SL:2 hrs Açk [49] 3S vs M vs SL 84.17

Seslerin otomatik olarak snandrlmas daha önce konu³ma alglama, bilgi geri kazanm, içerik analizi, ses kodlama, otamatik bölütleme ve müzik türü snandrma gibi birçok uygulama alan kapsamnda kullanlm³tr. Esasnda bu çal³malardaki yakla³mlar birbirlerine büyük oranda benzemektedirler ve sadece iki ana unsurda farkllk gösterirler. Birincisi, farkl türden ses dosyalarn karakterize etmek için kullanlan özniteliklerin seçimidir. Bu amaç için temel

(26)

olarak ses sinyallerine ait zamansal ve spektral karakteristikleri yakalamak için zaman, frekans ve zaman-frekans tabanl analizler ile çe³itli öznitelikler sunulmu³tur (bu öznitelikleri ksaca gözden geçirmek ve kar³la³trma yapmak için [46, 12, 38, 54]' e baknz).Zamansal öznitelikler do§rudan sinyalin kendisinden çkarlmaktadr ve genellikle ksa çerçeveler halinde hesaplanmaktadr. En yaygn kullanlan zaman tabanl öznitelikler sfr geçme orannn ve ksa zamanl sinyal enerjisinin farklar, ortalamalar veya varyanslar hakkndaki istatistiksel bilgiyi içermektedirler.

Spektral öznitelikler ise ses sinyallerinin spektral alandaki formunda yaplan hesaplamara dayanan tanmlayclardr. Bu öznitelikler genellikle Ksa Za-manl Fourier Dönü³ümü (STFT), dalgack ayr³trma veya Do§rusal Öngörülü Kodlama (LPC) ve Mel-Frekanslar Kepstrum Katsaylar (MFCC) gibi di§er model tabanl algoritmalar ile hesaplanrlar. Spektral katsaylarn yan sra bu öznitelikler yaygn olarak centroid, rollo, ux, varyasyon gibi spektral özellikler ve spektral enerji da§lm ile ilgili istatistikleri de içermektedirler. Her iki türden öznitelikleri içeren di§er bir kategori ise müzik sinyallerinde oldu§u kadar konu³ma içeren sinyallerde de önemli bir özellik olan perde karakteristi§i ile ilgilidir. Spektral ve zamansal özniteliklerin her ikiside doruk süresi, perde ayarlama, perde yo§unlu§u ve perde izlerinin süreklili§i hakknda bilgi içeren ölçütler içermektedir. Ses içeri§i snandrmas yapan herbir yakla³m farkl kombinasyon ve sayda bu özniteliklerden kullanmaktadr.

Benzer çal³malara ait di§er ana unsur veriyi tanmlayan öznitelikleri önceden tanmlanm³ etiketler ile e³le³tiren snandrc algoritmalardr. Birçok uygu-lama alan ile ilgili oldu§undan ses içeri§i snandrlmas alannda yaplan ço§u çal³ma konu³ma ve müzik sinyallerini ayrt etmeye odaklanm³tr. Di§er yandan baz çal³malar konu³ma, müzik türleri, sessizlik, gürültü, çevresel ses ve bunlarn birkaçnn birle³mesinden olu³an farkl ses türlerini snandrmaya odak-lanm³lardr. Çal³malarda farkl karma³klk derecesinde birçok snandrma düzeni daha iyi snandrma ba³arm ve gerçek zamanl uygulamalar için daha ksa sürede karar verme süresine eri³ebilmek amacyla kullanlm³tr. ([54, 19, 23, 39, 45, 35] referanslar farkl çal³malarda kullanlm³ farkl snandrma algoritmalar hakknda daha detayl bilgi vermektedirler.) Snandrma per-formanslarn de§erlendirmek için bu çal³malar e§itim ve test a³amalarnda genellikle kendi uygulamalarna özel kendi veri kümelerini kullanmaktadrlar.

(27)

Bu veri kümeleri genellikle yüzlerce veya binlerce ksa süreli farkl türde ses kaytlarndan veya tek bir kaynaktan elde edilmi³ uzun bir kayttan olu³maktadr. Özet olarak ses içerik snandrlmasna yönelik ba³arm yeni öznetelikler tanmlayarak, daha iyi snandrma algoritmalar kullanlarak veya bunlarn her ikisini de yaparak arttrlabilir. Fakat tüm snandrma problemlerinde oldu§u gibi daha kapsaml ve geni³ öznitelik kümelerinin kullanlmas içerik snandrma ba³armn arttrma kapsamnda snandrc algoritmas seçimini daha iyi öznite-liklerin geli³tirilmesi yannda daha az önemli klmaktadr [37]. Bu yüzden yukarda bahsedilen iki ana unsur birbirinden isole edilebilir ve bir ses içeri§i snandrma algoritmas kulland§ öznitelikler bakmndan karakterize edilebilir. Bu bak³ açsyla Çizelge 3.1 bu alanda yaplan yüksek ba³arml ve geni³ veri kümesine sahip çal³malar kronolojik srada özetlemektedir (Bu çizelgede verilen öznitelik numaralar ve ksaltmalar Çizelge3.2'de açklanm³tr). (Dikkat edilmelidir ki [46] ve [49] çal³malarnda kullanlan veri kümeleri oldukça küçük veri kümeleridir, fakat bu çal³malara ait öznitelikler takip eden çal³malarda kullanlm³tr. Ayrca, bunlara ait veri kümeleri açk kaynakl oldu§undan takip eden baz çal³malarda performans kar³la³trma testleri için kullanlm³tr.) Görülece§i üzere geni³ öznitelik spektrumuna sahip bu çal³malar test edilen veri kümeleri üzerinde %84-99 arasnda de§i³en ba³arma sahiptirler.

Genel olarak ses içeri§i snandrmada genel amaçl bir kyaslama veri kümesinin olmamas önemli bir problem olarak kabul görmektedir. Sonuç olarak farkl çal³malara ait snandr performanslarnn niceliksel kar³la³trlmas çok zor olmaktadr ve ço§u çal³ma öne sürdü§ü yöntemi sadece kendi olu³turduklar veri kümeleleri ile elde ettikleri sonuçlar rapor etmi³tir. Elde edilen perfor-mans sonuçlarnn genelle³tirilmesi ise ba³ka bir tart³ma konusudur. Sonuçlar sunulurken ço§u çal³ma e§itim ve test snar için ayn veri kümesinden aldklar örnekleri kullanm³tr. Fakat, multimedya uygulamalarnda tek bir kaynaktan alnan örneklerin verilen medya türüne ait tüm çe³itleri kapsamas ve temsil etmesi mümkün de§ildir. Bu bakmdan tek bir veri kayna§na ba§l kalmak yaplan analiz her ne kadar ayn veri kümesinde tutarl ve yüksek ba³arml sonuçlar versede daha önce görmedi§i bir veri kümesinde zayf performe edece§inden çal³maya önyarg ile yakla³lmasna yol açacaktr. Bir adli bili³im uygulamas kapsamnda dü³ünüldü§ünde ele alnmas gereken di§er bir husus öne sürülen snandrc yönteminin konu³ma sinyallerine ait

(28)

dil, lehçe ve konu³ma tarzlarndaki farkllklar ile ba³a çkabilmelidir. Ayn zamanda, genel olarak kullanlan ses i³leme tekniklerine, sk³trma yöntemlerine ve yaygn olarak uygulanan ve sese ait gürülütü, perde, zaman, uzay ve tn gibi özellikleri de§i³ltirmeyi amaçlayan ses efektlerine kar³ hassasiyeti olmamaldr. Bu alanda yaplan benzer çal³malara bakt§mzda bu unsurlarn göz ard edildi§i görülmektedir.

Bu çal³mada ço§unlukla konu³ma sinyallerine özel yeni bir öznitelik kümesi tantlm³tr. Ayrca bu ölçütleri önceki çal³malarda kullanlan iyi tasarlan-m³ özniteliklerle birle³tirerek konu³ma içeren seslerin konu³ma d³ seslerden ayr³trlmasndaki performansn kar³la³trdk. Yukarda anlatlan hususlar adres etmek için kendi olu³turdu§umuz kapsaml bir veri kümesinin yannda önceki çal³malarda kullanlan tüm açk kaynakl veri kümelerini bu yöntemin ba³armn ölçmek için kullandk. Ayrca yöntemin ba³armnn farkl formlarda ses i³leme tekniklerine kar³n tutarl oldu§undan emin olmak için farkl senary-olarda testler yaptk.

3.2 çerik Snandrmada Objektif Konu³ma Kalitesi

Ölçütlerinin Kullanm

Ses kalitesi de§erlendirilmesi ses i³lemeye ba§l algsal bozulmalar kapsamnda ses sistemlerinin performansnn ölçülmesi için önemli bir role sahiptir [36, 43, 11]. Bir ara³trma konusu olarak objektif konu³ma kalitesi ölçütleri subjektif dinleme testleri ile iyi korele olmu³ objektif de§erlendirmeler sunan istatistiksel ve ölçülebilir yöntemlerin geli³mesi ile ilgilidir. Subjektif dinleme testlerinde belirli sayda e§itilmi³ dinleyici kitlesinin ses sinyallerine ili³kin algsal skorlar dikkate alnr. Günümüzde objektif ses kalite ölçütleri telefon a§larnn ve ses kodeklerinin kalitesini de§erlendirmek ve ölçmek d³nda farkl uygulama alanlarnda da kullanlmaktadr. Özellikle, bu uygulamalar gürültü bastrma algoritmalar [25], ses kayna§ ayr³trma algoritmalar [17], konu³ma sentezleme algoritmalar [57], ses damgalama algoritmalar [1] ve ses gizliyaz algoritmalar [41] etrafnda yo§unla³maktadrlar.

(29)

Çizelge 3.2: Çizelge-3.1'de Verilen Öznitelikler ve Ksaltmalar

Tür No Ksaltma Açklama

Öznitelik 1 MFCC Mel-Frekans Kepstral Katsaylar

2 ZCR Sfr Geçme Oran

3 LER Dü³ük Enerji Oran

4 ED Olay Yo§unlu§u

5 CM Kepstrum Büyüklü§ü

6 SC Spektral A§rlk Merkezi

7 SR Spektral Roll-O

8 SF Spectral Flux

9 STFTC Ksa Zamanl Fourier Dönü³ümü Katsaylar 10 DWTC Ayrk Dalgack DÖnü³ümü Katsaylar

11 STE Ksa Süreli Enerji

12 V2W Voice to White

13 AL Aktivite Seviyesi

14 LFR Dü³ük Frekans Oran

15 HFR Yüksek Frekans Oran

16 LD Ses Yüksekli§i

17 PD Periyodiklik Tespiti

18 LPC Do§rusal Öngörülü Kodlama

19 BR Parlaklk

20 PT Perde

21 SP Spektral Faz Büyüklü§ü

22 RC Yansma Katsaylar

23 LSF Hat Spektral Frekans

24 FE Bölüt Enerjisi

25 ER Enerji Oran

26 HSS Harmonik Yap Dura§anl§

27 AC Otokorelasyon Katsaylar

28 SS Spektral Da§lm

29 APD Ortalama Perde Yo§unlu§u

30 TPD Tonal Güç Yo§unlu§u

31 RMS Karekök Ortalama Enerji

32 SE Spektral Entropi

Veri Kümesi 1 S Konu³ma

2 M Müzik

3 ES Çevresel Ses

4 SL Sessizlik

(30)

ses içen yüksek kalitede sinyale ba§l olmas bakmndan iki snfta kategorize edilmektedirler. Bu iki tür ses arasndaki farkllk daha çok konu³ma kodeklerinin di§er tür seslere ait kodlayclardan nasl farklla³t§ ile alakaldr. Konu³ma sinyalinin periyodik do§as ve snrl oranda sahip oldu§u ses boyutu örne§in müzik gibi daha kompleks yapda bir sinyalden daha efektif olarak temsil edilmesine olanak sa§lamaktadr. Subjektif dinleme testleri ile desteklenemeyen geni³ bir uygulama dizinine ba§l konu³ma i³leme alanndaki geli³meler kalite de§erlendirmesi için birçok objektif tekni§in geli³mesine yol açm³tr.

Birçok konu³ma kalitesi de§erlendirme algoritmas verilen bir sinyalin kalitesini de§erlendirmek için bir referans sinyale ihtiyaç duymaktadr. Pratikte bu i³lem sinyallerin herbir küçük alt parçaya ayrlm³ sinyal çiftleri arasndaki uzaklklar-dan belirli hesaplamalarn yaplmasn gerektirmektedir. Bu hesaplamalar zaman, frekans veya algsal alanl olabilmektedir. Genel bir kalite ölçütü ise alt parçalara ait hesaplamalarn ortalamas ³eklinde bulunmaktadr.

Objektif konu³ma kalitesi ölçütleri genel olarak algsal faktörleri hesaplamalarnda nasl kullandklarna baklarak kategorize edilebilirler [36, 11, 25, 32, 40, 14, 33, 30, 8, 24]. Zaman alanl kalite ölçütleri do§rudan sinyallerin dalga formu üzerinden sinyal-gürültü oran ve koralasyon gibi özellikler çkardklarndan gerçeklemesi en kolay ölçütlerdir. Bu tarz ölçütlerin bir varyansda farkl frekans bantlarnn göreceli önemlerini dikkate alarak bir a§rlk fonksiyonu uygulayan frekans alanl ölçütlere geni³letilebilir. Geni³ bir ölçüt grubu ise hesaplamalarn iki sinyal arasndaki spektral farkllklardan yola çkarak yapmaktadrlar. Burada büyüklük spektrumlarndaki farkllklarn konu³ma kalitesindeki bozulmalar yanstt§ varsaylmaktadr. Bu ölçütler genel olarak konu³ma sinyallerine ait do§rusal öngörülü kodlama (LPC) ve kepstral temsillerine dayanmaktadrlar ve spektral farklar nasl cezalandrdklarna göre ayr³maktadrlar. Bu grupta yaygn olarak log-olabilirlik oran, Itakura-Saito mesafesi, Kepstral mesafe gibi ölçütler kullanlmakadrlar.

Objektif kalite ölçütlerinin subjektif konu³ma kalitesi de§erlendirmelerini tam olarak yanstmalar gerekti§inden en yaygn ve geli³mi³ objektif konu³ma kalitesi ölçütleri insal i³itsel modellerini kendi tasarmlar ile birle³tirirler. Bu ölçütler ilk olarak konu³ma sinyalini bark spektrumlar ve ses yüksekli§i gibi psikoakustik modelleri hesaba katan algsal alanlara dönü³türürler. Daha sonra bir idrak

(31)

modülü bu algsal girdileri kalitedeki farkllklar belirlemek için yorumlar. Bu alanda yaygn olarak kullanlan ölçütler Bark spektralleri ve birçok varyasyon-larn, spektral e§im mesafesini, normalize blok ölçümlerini (MNBs) ve standart algsal konu³ma kalitesi ölçütünün (PSQM) yan sra algsal konu³ma ve ses kalitesi de§erlendirme ölçütlerini (PESQ, PEAQ) içermektedir.

Sonuç olarak objektif konu³ma kalite ölçütleri geni³ bir algsal konu³ma nite-lik kümesine sahip oldu§undan konu³ma içeren seslerin snandrmasnda da potansiyel olarak kullanlabilir. Fakat, bahsedildi§i gibi bu ölçütler bir referans sinyale ihtiyaç duymaktadrlar. Göz önünüde bulundurulan ses delillierinin ön incelemesinde böyle bir referans sinyal söz konusu olmad§ndan yapay bir referans sinyal üretilmesi gerekmektedir. Her ne kadar intruzif olmayan kalite de§erlendirme ölçütü sunulmu³ olsa da [18, 21, 16], bunlar genel olarak ileti³im a§larndan gelen konu³ma kalitesini ölçmek için kullanlmaktadr. Bu tarz ölçütlerin tasarm genel olarak a§ hatalarn göz önüne alan bozulmalar gibi özel bozulma modellerine dayanmaktadrlar. Dolays ile bunlar genel bir bozulma modeli için kullanlamazlar.

Bu ba§lamda konu³ma sinyallerinin di§er sinyallerden ayr³trlmas için objektif konu³ma kalitesi ölçütleri bir referans sinyale ihtiyaç duymaktadr. Gizli yaz ara³trmalar kapsamnda ses kalitesinin de§erlendirilmesi için referans sinyal üretme i³lemi daha önce ba³aryla kullanlm³tr [41]. Önerilen yöntemin anahtar noktas objektif konu³ma kalite ölçütlerinin konu³ma sinyalleri göz önünde bulundurulalrak geli³tirilmi³ olmas ve bunun sonucu olarak da konu³ma d³ sinyaller üzerinde tutarsz de§erler üretece§i ve bu de§erlerin konu³ma sinyallerine ait de§erlerden sistematik farkllklar gösterece§idir.

3.2.1 Yaygn Ölçütler (CF)

Çal³mada literatürde kullanlan ve do§rudan verilen sinyalden çkarlan zaman ve spektral alanl yaygn ölçütler (CF), konu³ma kalite ölçütleri ile kar³la³trma yapmak için kullanlm³tr. Yaygn ölçütler do§rudan ses dalgasna yönelik basit hesaplamalar içeren özniteliklerin yannda daha geli³mi³ i³itsel modelleri baz alan ve sese ait dinamizm, ritim, tn, perde ve tonalite gibi karakteristik özellikleri de hesaba kata öznitelikleri içermektedir. Yaygn ölçütler ayrca

(32)

hzl Fourier dönü³ümü ve farkl ltreleme bankalar tabanl öznitelikleri de içermektedir. Çizelge-3.3'de çal³mada kullanlan yaygn ölçütler tantlm³tr. A³a§da ksaca açklanan bu ölçütler hakknda daha detayl bilgi [46, 34, 54, 23, 50]'de bulunmaktadr.

Çizelge 3.3: Yaygn Ölçütler

Ölçüt Ad Ölçüt Says Fiziksel Özellik

Karekök Ortalama Enerji 1 Dinamizm

Dü³ük Enerji Oran 1 Dinamizm

Sfr Geçme Oran 1 Tn

Spektral Roll-O 1 Tn

Parlaklk 1 Tn

Modalite 1 Tonalite

Spektral A§rlk Merkezi 6 Tonalite

Olay Yo§unlu§u 1 Ritim

Sinyal Tempo 1 Ritim

Darbe Netli§i 1 Ritim

Inharmonicity 1 Perde

Mel-Frekans Kepstral Katsaylar 13 Tn

3.2.1.1 Karekök Ortalama Enerji

Sinyale ait genel enerji, sinyalin zaman alannda her bir noktadaki karesinin ortalamasnn karekökü alnarak hesaplanabilir.

3.2.1.2 Dü³ük Enerji Oran

Ortalama enerjiden dü³ük enerjiye sahip çerçevelerin orandr. Bu oran enerji e§risindeki kar³la³trmal çerçevelerin tespit edilmesine yardm eder.

3.2.1.3 Sfr Geçme Oran

(33)

3.2.1.4 Spektral Roll-O

Toplam enerjinin önemli bir bölümü sinyalin yüksek frekans içeren bir oran altndadr. Bu oran %85 ile %95 arasnda de§i³mektedir.

3.2.1.5 Parlaklk

Kesim frekansnn üzerinde kalan sinyalin enerjisidir. Parlaklk 0-1 aras bir say olarak ifade edilmektedir.

3.2.1.6 Modalite

Sinyalin majör veya minör olmasn -1 ve +1 arasnda puanlayarak belirler. +1' e giden de§erler daha majör, -1' e giden de§erler daha minör oldu§unu gösterir.

3.2.1.7 Spektral A§rlk Merkezi

Perdeler arasndaki enerji da§lmlarndan 6 boyutlu bir vektör hesaplar.

3.2.1.8 Olay Yo§unlu§u

Saniyede sergilenen notalarn says gibi olaylarn ortalama skl§n tahmin eder.

3.2.1.9 Sinyal Tempo

Bir müzik sinyalindeki dakikada geçen vuru³ sesi olarak tanmlanabilir.

3.2.1.10 Darbe Netli§i

(34)

3.2.1.11 Inharmonicity

deal harmonik seri d³nda kalan enerji miktardr.

3.2.1.12 Mel-Frekans Kepstral Katsaylar

Sesin spektrum ³ekline bir açklama getirir. Öncelikle, frekans bantlar logaritmik olarak yerle³tirilir. Çünkü logaritmik yerle³im ile insan i³itsel sistemi do§rusal yerle³imden daha iyi temsil edilir. Daha sonra, düzenlenen sinyale yüksek sk³trma özelli§i olan ayrk kosinüs dönü³ümü uygulanr. Dönü³üme u§rayan sinyalin ilk 13 bile³eni öznitelik olarak de§erlendirilir.

3.3 Deneyler

Önerilen yöntemin güvenilirli§ine ve genelle³tirilebilirli§ini ölçmek için farkl senaryolarda farkl veri kümeleri üzerinden testler yaplarak mevcut çal³malar ile veri kümeleri ve öznitelikler üzerinden kar³la³trmalar yaplm³tr. Yöntemin ba³armn göstermek için testler CF ve SQF üzerinden yaplm³tr. Ayrca yöntemin yaygn ölçütlere yapt§ katksn ölçmek için testler tüm öznitelikler (AF) ile tekrarlanm³tr. Ço§u test senaryosunda bu üç öznitelik kümelerine ait sonuçlar verilmi³tir.

3.3.1 Veri Kümesi

Önerilen yöntemi farkl senaryolarda test etmek için toplamda 88 saatten olu³an geni³ bir veri kümesi kullanlm³tr. Deneylerde kullanlan veri kümesi kendi olu³turduklarmzn yannda eski çal³malarda kullanlan eri³ime açk veri setlerinden olu³maktadr. Her bir veri seti içerik, örnekleme frekans, kalite ve kodlama açsndan farkl karakteristiklere sahiptir. Veri kümesi içinde konu³ma sinyali ta³yp ta³mama yönünden iki kategoriye ayrlm³tr. Bu ba§lamda, konu³ma veri kümesi (S) yalnz konu³ma sinyali, konu³mac sinyali ile arka plan müzi§i veya çevresel gürültü sinyallerinin kar³m, iki veya daha fazla

(35)

konu³macnn birbirine kar³an konu³ma sinyallerini içermektedir. Konu³ma kümesi ayrca yaygn olarak kullanlan ses i³leme tekniklerine maruz kalm³ sinyallerin yan sra farkl dil, lehçe, ve karakterde konu³ma sinyalleri içerebilirler. Konu³ma d³ sesler (NSA) ise bir çok türde sözlü ve sözsüz müzik, sadece sözlü enstrümansz müzik, çevresel sesler (araba, uçak, trak, yangn, ya§mur, kalabalk, alk³, kap, hayvan, do§a sesi..gibi), tek kelimelik konu³ma ve müzik d³ sesler, melodi vs. gibi ses sinyalleri içermektedir. A³a§da kullanlan veri kümelerine ait detayl bilgi yer almaktadr.

3.3.1.1 NSA-I

• Kaynak: 640 adet müzik CD'sinden toplanm³tr • Toplam Uzunluk: 5.56 saat

• Örnek Says X Örnek Uzunlu§u: 4000 X 5 sn. • Format / Örnekleme Frekans: WAV / 44.1 Khz

• Açklama: 14 farkl türden alnm³ farkl müzik parçalar

3.3.1.2 NSA-II

• Kaynak: Marsyas [49] • Toplam Uzunluk: 8.33 saat

• Örnek Says X Örnek Uzunlu§u: 1000 X 30 sn. • Format / Örnekleme Frekans: WAV / 22.0 Khz

• Açklama: 10 farkl türden alnm³ farkl müzik parçalar

3.3.1.3 NSA-III

• Kaynak: Açk kaynak ses veri taban [2] • Toplam Uzunluk: 30 dk.

• Örnek Says X Örnek Uzunlu§u: 500 X (1-14) sn. • Format / Örnekleme Frekans: WAV / 44.1 Khz

(36)

3.3.1.4 S-I

• Kaynak: VoxForge [4] • Toplam Uzunluk: 7.78 saat

• Örnek Says X Örnek Uzunlu§u: 4000 X (5-13) sn. • Format / Örnekleme Frekans: WAV / 16.0 Khz

• Açklama: Farkl ki³iler tarafndan farkl ortam ve donanmlar ile kaydedilmi³ farkl içerikteki ngilizce konu³ma kaytlar

3.3.1.5 S-II

• Kaynak: NTimit [59] • Toplam Uzunluk: 2.05 saat

• Örnek Says X Örnek Uzunlu§u: 2400 X (5-300) sn. • Format / Örnekleme Frekans: WAV / 16.0 Khz

• Açklama: Farkl ki³iler tarafndan telefon a§ üzerinden kaydedilmi³ arka plan gürültüsü içeren farkl içerikli ngilizce konu³ma sinyalleri

3.3.1.6 S-III

• Kaynak: VoxForge [4] • Toplam Uzunluk: 56.2 dk.

• Örnek Says X Örnek Uzunlu§u: 160 X (5-68) sn. • Format / Örnekleme Frekans: WAV / 8-48 Khz

• Açklama: branice, Almanca, Yunanca, spanyolca, Franszca, talyanca, Hollandaca, Portekizce, Rusça ve Hintçe dillerinde konu³ma sinyalleri

3.3.1.7 S-IV

• Kaynak: International Dialects of English Archive [3] • Toplam Uzunluk: 58.56 saat

(37)

• Örnek Says X Örnek Uzunlu§u: 880 X (0.5-11) dk. • Format / Örnekleme Frekans: MP3 / De§i³ken Bit Hz • Açklama: 91 farkl lehçede ngilizce kaytlar

3.3.1.8 S-V

• Kaynak: YouTube

• Toplam Uzunluk: 2.94 saat

• Örnek Says X Örnek Uzunlu§u: 2120 X 5 sn. • Format / Örnekleme Frekans: AAC / 44.1 Khz • Açklama: 5 farkl konu³macya ait Türkçe kaytlar

3.3.1.9 C-I

• Kaynak: Scheirer and Slaney [46] • Toplam Uzunluk: 30 dk.

• Örnek Says X Örnek Uzunlu§u: 120 X 15 sn. • Format / Örnekleme Frekans: WAV / 22.0 Khz

• Açklama: Radyo yayn üzerinden kaydedilmi³ konu³ma ve müzik sinyalleri

3.3.1.10 C-II

• Kaynak: Marsyas [49] • Toplam Uzunluk: 64 dk.

• Örnek Says X Örnek Uzunlu§u: 128 X 30 sn. • Format / Örnekleme Frekans: WAV / 22.0 Khz

• Açklama: Televizyon yayn üzerinden kaydedilmi³ konu³ma ve müzik sinyalleri

(38)

3.3.2 Testler ve Ba³arm Sonuçlar

3.3.2.1 Ortak Alan Testleri

Bu bölümde önceki çal³malarn hemen hepsinde yaplan deney senaryosu kap-samnda alnm³ test sonuçlar yer almaktadr. Ortak alan testlerinde e§itim ve test verileri ayn veri kümesi üzerinden seçilen farkl örnekleri içermektedir. Buda e§itim snfnn test snfndaki verilerle karakteristik olarak ayn oldu§unda eri³ilebilecek en yüksek ba³ary elde etmeyi sa§lamaktadr. Bu amaçla NSA-I, NSA-III ve S-I veri kümeleri üzerinden farkl testler yaplm³tr.

lk olarak önerilen yöntemin konu³ma ve müzik ayrm üzerindeki ba³arm test edilmi³tir. Bunun için I ve S-I veri kümeleri kullanlm³tr. NSA-I veri kümesinde bulunan 14 farkl türe ait müzik dosyalar e§itim ve test snarna homojen ve e³it ³ekilde da§tlm³tr. Bu test yöntemin örnekleme frekansna olan ba§mll§n ölçmek için sabit 16.0 Khz, 44.1 Khz ve kar³k örnekleme frekanslarnda tekrarlanm³tr. Bu testlere ait sonuçlar Çizelge-3.4'de verilmi³tir. Daha sonra önerilen yöntemin konu³ma ve müzik içermeyen konu³ma d³ sinyalleri ayrt etmesindeki ba³arm ölçmek için NSA-III ve S-I üzerinden snandrma yaplm³tr. Son olarak konu³ma ve konu³ma d³ sinyalleri ayrt etmek için NSA-I, NSA-III ve S-I veri kümeleri üzerinden testler yaplm³tr. Bu deneylerin sonuçlar Çizelge-3.5'de yer almaktadr. Yaplan tüm testlerde e§itim ve test kümelerine seçilen veri kümelerinin örtü³meyen %50'lik bölütleri da§tlm³tr. Çizelge-3.4 ve 3.5 de verilen sonuçlara göre ayn veri kümeleri üzerinden yaplan snandrma i³leminde CF ve SQF %97-99 arasnda yüksek ba³arm ile çal³maktadr.

Çizelge 3.4: Konu³ma ve Müzik Ayrt Etmeye Yönelik Ortak Alan Testleri

Örnekleme CF (%) SQF (%) AF (%)

Frekans S NSA S NSA S NSA

16 KHz 99.40 98.95 99.20 99.30 99.95 99.45 44.1 KHz 99.35 98.40 99.30 99.05 99.85 99.55 16-44.1 KHz 99.50 97.95 99.00 98.95 99.95 99.45

(39)

Çizelge 3.5: Konu³ma ve Konu³ma D³ Sesleri Ayrt Etmeye Yönelik Ortak Alan Testleri

CF (%) SQF (%) AF (%)

Veri Kümeleri S NSA S NSA S NSA

NSAIII vs SI 97.88 96.15 98.31 96.58 99.15 99.15

NSAI&NSAIII vs SI 99.79 94.24 99.15 96.80 99.58 97.65

3.3.2.2 Alan D³ Testler

Alan d³ testlerde e§itim ve test kümelerine ait veriler tamamen farkl veri kümelerinden seçilmi³tir. Bu deney senaryosu snandrcnn farkl veri kümeleri üzerindeki ba³armn ölçmeye olanak sa§lamaktadr. Bizim amacmz SQF'nin farkl dil ve lehçelere ait yaplar içermeyen bir e§itim kümesi üzerinden bu tarz verileri snandrma ba³armn ölçmektir. Bu amaçla ortak alan testlerinde kullanlan snandrc modellerinden birisi (NSA-I ve S-I ile hazrlanan 16-44.1 Khz örnekleme frekansndaki model) seçilerek NSA-II, II, III ve S-IV snandrlm³tr. Bu snandrmalara ait sonuçlar Çizelge-3.6'de yer almaktadrlar.

Sonuçlardan görüldü§ü üzere SQF en kötü snandrmay çok dilli veri kümesi (S-III) üzerinde yaparak %78.62-99.55 arasnda bir ba³arm gösterirken, CF sadece müzik veri kümesini (NSA-II) ba³arl bir ³ekilde snandrm³ ve çok lehçeli veri kümesinde (S-IV) makul bir ba³arm göstermi³tir, fakat di§er veri kümeleri üzerinde ba³arsz olmu³tur. Bunun sonucu olarak tüm özniteliklerle (AF) yaplan snandrmada da yine bu veri kümeleri üzerinde ba³arsz olunmu³tur. Ayrca, AF S-III üzerinde CF'ye nispeten biraz daha kötü snandrma yapmas öznitelik seçimini veya boyut dü³ürmeyi gerektirmektedir. Genel olarak bakld§nda SQF her ne kadar alan d³ testlerde CF'ye nazaran daha yüksek ba³arm gösterse de, konu³ma içeri§inin tespitinde, daha yüksek ba³armlar elde etmek için e§itim modelinde veri çe³itlili§i gerekmektedir.

3.3.2.3 E§itim Kümesini Geni³letme

Bu bölümde daha tutarl bir snandrc modeli geli³tirmek için iki yakla³m önerilmektedir. Birincisi, e§itim modelini mümkün oldu§unca fazla çe³itte veri

(40)

Çizelge 3.6: Alan D³ Test Sonuçlar Öznitelik Kümesi Accuracy (%)

NSAII SII SIII SIV

CF 97.50 08.53 55.35 81.50

SQF 99.40 95.44 78.62 99.55

AF 100.0 27.20 50.90 99.77

ile olu³turmak. kincisi, test verisinden küçük miktarda bir veriyi, manüel olarak etiketleyip, mevcut e§itim modeline katarak yeni bir e§itim modeli olu³turmak. Takip eden testlerde bu yakla³mlara ait sonuçlar elde edilmi³tir.

Genel Snandrc Tasarm Bu bölümde her bir veri kümesi belli oranlarda e§itim ve test alt snarna bölünmü³ ve bu alt snar birle³tirilerek tek bir snandrc ve test kümesi olu³turulmu³tur. Böylelikle her seferinde bir ortak alan testi hazrlanm³tr. Her bir test senaryosunda veri kümelerinden e§itim için %10 ile %90 arasnda bir oranda veri seçilmi³ kalan verilerde test için ayrlm³tr. Böylelikle kabul edilebilir bir snandrma için her bir veri kümesinden e§itim için seçilmesi gereken örnek oran tespit edilmeye çal³lm³tr. Çizelge-3.7'da verilen sonuçlar CF ve SQF ile yaplan snandrmada %10 ile %90 aras veri seçiminde %95-99 aras bir ba³arm elde edilmi³tir. Ayn zamanda, beklendi§i gibi, tüm test senaryolarnda AF her iki öznitelik kümesinden de daha iyi sonuç vermi³tir. Sonuçlar, ayrca, veri kümelerindeki örnekleme frekans, sk³trma oranlar ve uzunluk gibi özelliklerde olu³acak farkllklarn snandrma ba³armnda önemli bir etkiye sahip olmad§n göstermektedir. Son olarak, her bir veri kümesinden %10-30 arasnda yaplacak bir veri seçimi, e§itim modelinde yeterli miktarda çe³itlili§i sa§layarak %96 üzerinde bir snandrma ba³arm göstermek için uygundur.

A³amal E§itim Seti Güncelleme Önceki testler e§itim modeli test kümesin-deki veri çe³itlili§ini kapsadkça ba³armn artaca§n göstermi³tir. Fakat, gerçek hayatta snandrmak için verilecek tüm verileri kapsayan bir e§itim modeli olu³turmak oldukça zordur. Bu zorlu§u a³mak için ses kantlarna yönelik ön inceleme i³leminde uygulanabilecek bir i³lem de temel bir e§itim modelini a³amal olarak test kümesinden seçilen ufak boyutta bir alt küme ile güncellemektir.

(41)

Çizelge 3.7: Genel Snandrc Testleri E§itim Kümesi CF (%) SQF (%) AF (%)

Oran S NSA S NSA S NSA

10% 98.08 94.37 96.55 92.26 98.80 97.05 30% 99.33 97.19 96.71 96.04 98.71 98.61 50% 98.68 97.52 97.15 96.27 99.11 98.15 70% 99.11 97.87 98.85 97.54 99.07 98.71 90% 99.24 99.33 99.36 98.66 99.62 99.50

Pratikte bir depolama aygtndan alnacak ses örnekleri genellikle dil, içerik türü, kodlama türü, kaynak ve konu³mac gibi ortak özelliklere sahiptirler. Dolays ile test kümesinden seçilip manüel olarak etiketlenerek mevcut e§itim modeline katlan veriler daha yüksek ba³armda bir snandrma yaplmasn sa§layacaklardr.

A³amal e§itimin katklarn ölçmek amac ile alan d³ test senaryolar kurul-mu³tur. Genel snandrc testlerinden elde etti§imiz bilgiye göre herhangi bir veri kümesinden e§itime katlacak %10'luk bir alt küme snandrma ba³armn %95 gibi makul bir seviyeye çkarmaktadr. Bu amaçla NSA-I ve S-I veri kümeleri temel e§itim snf olarak seçilmi³ ve alan d³ testlerde ba³arsz olan S-II ve S-III kümelerinden %10'luk rastgele bir altküme seçilerek e§itim kümesi güncellenip tekrar e§itilmi³tir. Olu³turulan güncellenmi³ e§itim modeli üzerinden test kümelerinin kalan verileri snandrlm³tr. Bu snandrmaya ait Çizelge-3.8'de yer alan sonuçlara göre tüm test senaryolarnda snandrma ba³ars %96 üzerine çkmaktadr.

Çizelge 3.8: A³amal E§itim (AE) Seti Güncelleme Testleri Öznitelik Kümesi S-II Ba³arm (%) S-III Ba³arm (%)

AE Öncesi AE Sonras AE Öncesi AE Sonras

CF 08.53 97.91 55.35 97.78

SQF 95.44 99.96 78.62 96.30

(42)

3.3.2.4 Sa§lamlk Testleri

Önceki bölümlerde anlatlan testlerin büyük bir bölümü her hangi bir kalite kaybna u§ramam³ veya hiçbir ses i³leme yöntemine maruz kalmam³ ham veriler ile yaplm³tr. Bu bölümde yaygn olarak yaplan ses i³leme i³lemlerinin önerilen yöntem üzerindeki ba³ars ölçülmektedir. Bu amaçla takip eden bölümlerde kodlanm³ ve farkl ses efektleri eklenmi³ sesler ile yaplan test sonuçlar sunulmu³tur.

Ses Kodlama Testleri Genel olarak ses dosyalar, daha verimli depolama ve veri transferi yapabilmek için, farkl kodlayclar ile sk³trlm³ halde saklanrlar. Bu amaçla ses sk³trmann yöntem üzerindeki etkisini ölçmek için yaygn olarak kullanlan kodlayclar ile kodlanm³ veriler üzerinden farkl testler yaplm³tr. Bu kodlayclar arasnda iOS tarafndan kullanlan Advanced Audio Coding (AAC), MPEG 1/2 Audio Layer III (MP3), Android tarafndan kullanlan Adaptive Multi-Rate (AMR ya da AMR-NB) ve telefon a§nda kullanlan A-law ve µ-law yer almaktadr. Tüm bu kodlayclar 7.4  64 Kbps aral§nda dü³ük bit hznda kaypl sk³trma yapmaktadrlar.

lk olarak genel snandrc testindeki ayn senaryo her bir kodlama yön-temi için ayr ayr çal³trlm³tr. lk olarak herbir veri kümesi dokuz farkl kodlama seviyesinde kodlanp tekrar kod çözümü yaplm³tr (Deneylerde S-V veri kümesi, daha önce bilinmeyen kodlayclar ile kodlanm³ olabilece§inden, kullanlmam³tr). Her bir kodlama türü için veri kümelerinin %10-90' e§itim için seçilmi³, kalanlar ise test edilmi³tir. “ekil-3.1'de önerilen yöntemin e§itim ve test snarnn ayn kodlayclar ile kodland§, farkl e§itim oranlarnda yaplan testlerde elde etti§i sonuçlar yer almaktadr. Bu sonuçlara göre tüm durumlara göre veri kümelerinin en az %10'u bile e§itilse snandrma ba³arm %94.7 üzerinde kalmaktadr.

Fakat, ço§u durumda verilen bir sinyalin kodlayc türünü bilmek mümkün de§ildir. Bu amaçla ikinci kodlama test senaryosunda ayn veri kümeleri ile özel bir kodlaycya ba§ml olmayan bir snandrc olu³turulmu³tur. Bunun için her bir veri kümesi 9 e³it parçaya bölünerek her biri ayr kodlama seviyesinde kodlanm³ ve kod çözümü yaplm³tr. Orijinal verilerle birlikte bu 10 alt

(43)

“ekil 3.1: Farkl kodlayclar ile kodlanm³ veriler üzerinde yaplan genel snandrc testlerine ait SQF sonuçlar

kümedeki her bir veri setinin yars test için ayrlm³ ve her bir kodlama seviyesindeki veriler birle³tirilerek 10 farkl test snf olu³turulmu³tur. E§itim için ayrlan her bir veri kümesinin orijinal hali ve dokuz farkl kodlanm³ hali homojen olarak seçilerek bir e§itim snf olu³turulmu³tur. Yani, e§itim snfnda bir ses dosyasnn bir orijinal bir de 9 türden birisi ile kodlanm³ hali bulunmaktadr. Olu³turulan test kümeleri bu snandrc üzerinden test edilmi³tir ve sonuçlar “ekil-3.2'de verilmi³tir. Sonuçlara bakld§nda ortalama snandrma oranlarnn CF, SQF ve AF için srasyla %94.7, %94.2 ve %98.6 oldu§u görülmektedir. Bu sonuçlara göre seçilen özniteliklerin herhangi bir kodlama seviyesinden etkilenmedi§i görülmektedir ve bu snandrcdan bundan soraki bölümlerde sa§lam genel snandrc adyla bahsedilecektir.

Ses Efektlerinin Uygulanmas Snandrma için verilen bir ses sinyali farkl ses efektleri uygulanarak de§i³tirilmi³ olabilir. Burada bizim amacmz önerilen yöntemin bu tarz efektlere maruz kalm³ ses sinyallerini snandrmadaki ba³armn ölçmektir. Bir ses sinyaline ait efektler sinyal i³leme tekniklerinden yola çkarak genlik, zaman ve perde, tn, gecikme ve yank, ltreleme, restorasyon ve çok boyutluluk gibi snara ayrlrlar [58], [50]. Bu snara ait 18 adet ses efekti S-V veri kümesine uygulanarak toplamda 19 adet Türkçe içerikli kodlama geçmi³i bilinmeyen bir test kümesi olu³turulmu³tur. Bu test kümeleri bir önceki

(44)

“ekil 3.2: Orijnal ve farkl seviyelerde kodlanm³ dosyalarn homojen da§lm ile olu³turulmu³ e§itim modeli (sa§lam genel snandrc) üzerinden yaplan snandrma sonuçlar

bölümde olu³turulan sa§lam genel snandrc üzerinden snandrlarak bir alan d³ snandrma senaryosu gerçeklenmi³tir. Çizelge-3.9'de efektsiz ve efektli sinyallere ait snandrma sonuçlar yer almaktadr.

Test sonuçlarndan takip eden önemli çkarmlar yapmak mümkündür. lk olarak efekt eklenmemi³ verilerin snandrma ba³armna bakld§nda, sa§lam genel snandrcnn önerilen yöntem ile, e§itim modelinde daha önce bilmedi§i kod-lama hznda ve Türkçe içerikli sesler olmamasna ra§men, alan d³ snandrma i³leminde %99 orannda bir ba³arm elde edildi§i görülmektedir. Daha da önemlisi, ço§u ses efekti bu ba³armn altna dü³ülmesine neden olmam³tr. SQF tabanl snandrma i³leminde farkl efektler için %83-100 arasnda ve %95.8 orta-lama ile do§ru snandrma yaplm³tr. Fakat, CF tabanl model kullanld§nda efektli verilerin do§ru snandrlmasnda en az %8 seviyesinde ve ortalama %78.7 orannda bir ba³arm elde edilerek orijinal verilerin snandrlmasna nazaran önemli bir dü³ü³ ya³and§ gözlenmektedir. Bunun sebebi ise CF'de bulunan baz özniteliklerin uygulanan ses efektlerinden do§rudan etkilenmesidir.

(45)

Çizelge 3.9: Ses Efektleri Eklenmi³ Dosyalarn Snandrlmas

Efekt Grubu Ses Efekti Ba³arm (%)

CF SQF AF Orijinal 95.91 99.29 99.51 Genlik Yükseltme 55.77 98.18 91.63 Snrlama 70.63 92.75 97.03 Soldurma 96.82 100.0 98.99 Zarama 95.85 99.91 99.61

Zaman ve Perde Perde Kaydrma 97.07 99.76 99.85

Perde Dü³ürme 80.53 99.88 92.07

Perde Yükseltme 87.23 99.42 98.38

Tn Çarpnma 94.16 99.68 99.70

Flanger 83.16 98.38 96.07

Gecikme ve Yank Eko 79.27 90.86 92.88

Gecikme 74.69 97.76 93.91

Yanklanma 84.78 94.96 96.44

Filtreleme Çentik Filtreleme 07.51 97.31 59.08

Hzl Filtreleme 56.06 83.05 83.93

Alçak Geçiren Filtre 87.53 88.18 99.55 Restorasyon Uyarlanabilir Gürültü Azaltma 93.90 99.10 99.36 Histogram Azaltma 85.35 84.30 95.50 Çok Boyutlu Ekolayzr, Yank, Geni³letme,

Yükseltme 68.81 97.13 91.19

3.3.2.5 Performans Kar³la³trma Testleri

Önerilen yöntemin snandrma performansn literatürde yaplan yöntemlerle kar³la³trmak için veri kümesi bölümünde tantlan tüm açk kaynak veri kümeleri kullanlm³tr. Yöntemin ba³armn tam anlamyla di§er çal³malarla kar³la³trmak için ilgili çal³mann test senaryosuna göre e§itim ve test kümeleri olu³turulmu³tur. Çizelge-3.10'da farkl metotlar ile be³ farkl veri kümesi üzerinden yaplan kar³la³trmalar ve bu çal³malarda kullanlan e§itim-test snf veri oran da§lm yer almaktadr. Bu sonuçlara göre önerilen yöntem tüm veri kümeleri üzerinde ayn senaryo kapsamnda di§er çal³malarn her birinden daha iyi sonuç vermektedir.

(46)

Çizelge 3.10: Veri Kümeleri Üzerinden Yaplan Kar³la³trma Deneyleri Veri Kümesi Yöntem E§itim-Test Oran En yi Ba³arm (%)

CI [46] 90-10 94.44 [45] 90-10 98.75 [5] 90-10 95.08 Önerilen Yöntem 90-10 100.0 CII [49] 90-10 82.00 Önerilen Yöntem 90-10 98.68 NSAII [23] - 86.83 Önerilen Yöntem 50-50 99.50 SII [19] - 90.59 [48] 99.5-0.5 94.25 Önerilen Yöntem 90-10 100.0 SIV [34] 99.4-0.6 98.60 Önerilen Yöntem 90-10 100.0

Di§er yandan, literatürde yaplan tüm çal³malarn veri kümelerine eri³im ol-mad§ndan kendi veri kümeleri üzerinden sonuç bildirmi³ çal³malar ile öznitelik tabanl bir kar³la³trma yaplmaya çal³lm³tr. Bu ba§lamda, kendi veri kümesini kullanan çal³malara ait özniteliklerin hangi seviyede CF içinde temsil edildi§i bulunmu³tur. Çizelge-3.11'da her bir çal³maya ait kaç adet özniteli§in CF içinde bulundu§u ve bu çal³malarda rapor edilen en iyi ortalama snandrma ba³ars ile önerilen yöntem (SQF) ile Bölüm-3.3.2.4'de olu³turulan sa§lam genel snandrc' ya ait tüm kodlayclar ile kodlanm³ veriler üzerinden elde edilen ortalama snandrma ba³ars kar³la³trlm³tr. Bu yakla³m her ne kadar birebir kar³la³trmay sa§lamasa da SQF'nin snandrma gücünü göstermektedir. SQF için verilen sonuçlarda test için kullanlan verilerin kapsam ve yaps göz önünde bulunduruldu§unda en kötü durumda dahi yöntemin ³u ana kadar yaplan çal³malar kadar veya daha yüksek ba³arm sa§lad§ görülmektedir.

3.3.2.6 Hesaplama Zaman Kar³la³trmas

Çizelge-3.12'de farkl uzunluklarda ve 256 Kbps veri hzndaki 100'er sesden SQF ve CF öznitelik kümelerinin çkarlmasna ili³kin ortalama hesaplama zaman kar³la³trlmas yer almaktadr. Hesaplamann yapld§ bilgisayar 3.4 GHz Intel(R) i7-2600 i³lemci ve 16 GB RAM ta³makta olup 64 Bit Windows 7

(47)

Çizelge 3.11: Öznitelik Tabanl Yaplan Kar³la³trma Testleri Yöntem CF'nin çerdi§i Ölçütlerin E§itim-Test Oran Ba³arm

Tüm Ölçütlere Oran (%) (%) 2006 [7] 5/6 - 99.10 2007 [39] 5/7 - 98.17 2008 [42] 1/2 25-75 95.68 2011 [54] 10/18 37.5-50 94.20 2011 [10] 1/1 - 98.50 2011 [9] 1/3 20.7-79.3 97.42 2011 [27] 2/2 - 95.60 2011 [6] 1/4 36-50 81.90 Önerilen Yöntem 50-50 99.31

i³letim sistemine sahiptir. Sonuçlardan da görülece§i gibi önerilen yöntemin hesaplama maliyeti yaygn yöntemlerinkine göre daha fazladr. Bunun nedeni önerilen yöntemde öncelikle gürültü giderme algoritmasnn çal³trlmas ve özniteliklerin her iki sinyali de kullanlarak çkarlmasdr. Bu durum gerçek zamanl uygulamalar için bir eksiklik saylabilir; ancak, öznitelik çkarm yüksek oranda paralelle³tirilebilindi§inden ve adli bili³im kapsamnda çevrim d³ i³lemler kabul edilebilir oldu§undan, bizim çal³mamzda bu noksanlk çok büyük bir öneme sahip de§ildir.

Çizelge 3.12: CF ve SQF için Öznitelik Hesaplama Süreleri

Veri Boyutu 3 sn 5 sn 7 sn 15 sn

CF Hesaplama Süresi (sn) 1.11 1.40 1.54 2.25 SQF Hesaplama Süresi (sn) 2.19 4.12 4.49 9.83

3.4 Sonuçlar

Bu çal³mada objektif konu³ma kalite ölçütleri kullanlarak konu³ma içeri§inin otomatik tespiti yaplm³tr. Burada öne sürülen yöntem bir depolama cihazndan adli kant toplama i³lemi için bir ön inceleme yaparak kant niteli§i ta³yan konu³ma verilerini di§er ses verilerinden ayrmaya çal³maktadr. Bu yakla³mn özü objektif konu³ma kalite ölçütlerinin dair insan algsn göz önünde bulun-durur bir biçimde konu³ma sinyallerini modelleyebilmesine dayanmaktadr. Bu

(48)

ba§lamda önerilen yöntem kullanlarak 88 saatlik geni³ ve çe³itli bir veri kümesi üzerinde farkl senaryolarda testler yaplarak literatürde var olan çal³malar ile kapsaml bir kar³la³trma yaplm³tr.

Sonuçlar göstermektedir ki SQF veri kümelerinin %10-30'luk ksmlar ile bile e§itilse, kalan verileri snandrma ba³arm %96-99 arasnda olmaktadr. Daha da önemlisi, alan d³ testler SQF'nin CF'ye nazaran daha genel bir snandrc oldu§unu göstermektedir. Bu testlerin bir parças olarak, önerilen yöntem en kötü durumda %78 ba³arm gösterirken bu oran CF ile %55 seviyesinde kalm³tr. A³amal e§itim snf güncelleme i³lemi sonuçlarna bakld§nda herhangi bir veri kümesine ait %10'luk bir alt veri seti manüel olarak tasnif edilip e§itime katld§nda ise güncel e§itici ortak alan testlerindeki kadar iyi sonuç verdi§i görülmektedir. Testler ayrca snandrma ba³armnn örnekleme frekans veya kodlama geçmi³ine ba§l olmad§n göstermektedir. Ek olarak, ses efektleri ile bozulmu³ ses sinyallerinin snandrlmasnda CF snandrma i³leminde ba³arsz olurken SQF birkaç ses efekti d³nda di§er ses i³leme tekniklerinden etkilenmemi³tir. Bu sonuçlar kapsamnda SQF histogram azaltma ve çabuk ltreleme i³lemlerinde %83-84 snandrma ba³ars göstererek alçak geçiren ltreleme bile³enlerine ba§ml oldu§unu göstermi³tir.

(49)

4. Ses Delilerinde Tahrif Tespiti

Bir adli bili³im soru³turmas srasnda uzmanlar geçerli ve de§erli kant bula-bilmek için büyük miktarlarda multimedya verisi ile kar³ kar³ya kalmaktadrlar. Konu³ma sinyalleri bu tür soru³turmalar için önemli bir delil niteli§i ta³mak-tadrlar. Fakat, bu sinyalleri kant olarak kullanabilmek için verilerin orijinalli§i korunmaldr. Bir konu³ma sinyali için orijinallik içeri§in kaydedildi§i ³ekilde korunmas demektir. Bir adli soru³turma için önemli bir ksm tahrif edilerek içeri§i de§i³tirilmi³ bir ses sinyali kant olarak sunulabilir. Di§er yandan ise üzerinde hiçbir oynama yaplmam³ bir sesli kantn orijinalli§i inkar edilebilir. Sonuç olarak tüm durumlarda kant olarak kullanlacak bir sesli sinyalin orijnalli§i do§rulanmaldr. Di§er yandan, bir sesli kantta içerik bütünlü§ü hayati öneme sahip oldu§undan ses içeri§inde yaplan en ufak bir oynama bile elde edilen kantn yanl³ tarafn lehine kullanlmasna yol açabilir.

Günümüzde geli³mi³ araçlar sayesinde insan kula§nn alglayamayaca§ yüksek kalitede modikasyonlar çok kolay bir ³ekilde konu³ma sinyallerine uygulan-abilmektedir. Bu tarz araçlar konu³macnn ³ahsnda [47] bir tahrif yapabildi§i gibi konu³ma içeri§inde de de§i³imlere imkan tanmaktadrlar [29]. Dolays ile sesli verinin geçerlili§inin sadece bir insan tarafndan yaplmas eksik veya yanl³ bir sonuca varlmasna sebep olabilir. Bu yüzden, adli bili³im uzmanlar bir yardmc veya öni³leme makanizmas olarak tahrif tespiti algoritmalarn kullanmaldrlar.

Yukardaki senaryoda anlatlan problemden yola çkarak bu çal³mada verilen bir konu³ma sinyalinin küçük bir ksmnda veya tamamnda de§i³im olup olmad§n tespit eden yeni bir ses tahri tespiti algoritmas sunulmu³tur. Genel olarak uzun bir konu³ma sinyalinin belirli bölümleri delil niteli§i ta³maktadr. Bu

Şekil

Çizelge 2.1: Objektif Konu³ma Kalitesi Ölçütleri (SQF)
Çizelge 3.1: Eski Çal³malar
Çizelge 3.2: Çizelge-3.1'de Verilen Öznitelikler ve Ksaltmalar
Çizelge 3.3: Yaygn Ölçütler
+7

Referanslar

Benzer Belgeler

Bugün, vatan gençliği, bu büyük T ü r k san'atkârma karşı saygı, sevgi dolu kalbini açarak onun ölümünün 346 m c ı yıldönümünü anarken biz de bu gece kooa

Örnekten de görüldüğü üzere, önerilen çalıştırma rejiminin uygulanması aparatın yararlı zaman katsayısının 5 kat (düzenli sarım işleminde) ve 2.1 kat (genel

Bu bölge bizden ›fl›k h›z›- na göre daha h›zl› uzaklaflt›¤› için, kay- naktan bize do¤ru gelmeye çal›flan ›fl›k, hiçbir zaman bize ulaflamayacakt›r.. Bu, yürüyen

Bu çal›flmada, bir sonlu-farklar algoritmas› yard›m›yla elektrik özdirenç yönteminde yayg›n olarak kullan›lan Schlumberger, Wenner, pol-pol ve dipol-dipol

olgularda (CD4 800-1000) toplum kaynaklı pnömoni etkenleri karımıza çıkmaktayken immun sistem bozulmaya baladıında (CD4 250-100) toplum kaynaklı pnömoniler yanında

Sonuç: Ekzotropyada tek tarafl› geriletme rezeksiyon ameliyat›n›n, çift tarafl› d›fl rektus geriletilmesine göre daha baflar›l› oldu¤u sonu- cuna var›ld›..

Övertorneå Haparanda Luleå Arjeplog Pajala Älvsbyn Boden Gällivare Kalix Piteå Arvidsjaur Överkalix Kiruna Jokkmokk..

Val av antibiotika vid akut varig mellanöreinfektion bland primärvårdsläkare som förskrev 1-5, 6-30 respektive >30 recept på den indikationen under