• Sonuç bulunamadı

RASSAL C ¸ ˙IZGE SER˙ILER˙INDE C ¸ OKLU DE ˘ G˙IS¸˙IM NOKTASI ANAL˙IZ˙I MULTIPLE CHANGE POINT ANALYSIS IN RANDOM GRAPH SERIES

N/A
N/A
Protected

Academic year: 2021

Share "RASSAL C ¸ ˙IZGE SER˙ILER˙INDE C ¸ OKLU DE ˘ G˙IS¸˙IM NOKTASI ANAL˙IZ˙I MULTIPLE CHANGE POINT ANALYSIS IN RANDOM GRAPH SERIES"

Copied!
4
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

RASSAL C ¸ ˙IZGE SER˙ILER˙INDE C ¸ OKLU DE ˘ G˙IS¸˙IM NOKTASI ANAL˙IZ˙I MULTIPLE CHANGE POINT ANALYSIS IN RANDOM GRAPH SERIES

T¨urkan Hamzao˘glu

1

, Barıs¸ Kurt

1

, A. Taylan Cemgil

1

1

Bilgisayar M¨uhendisli˘gi B¨ol¨um¨u Bo˘gazic¸i ¨ Universitesi, ˙Istanbul

turkan.hamzaoglu@boun.edu.tr, baris.kurt@boun.edu.tr, taylan.cemgil@boun.edu.tr

OZETC ¨ ¸ E

C¸ izgeler s¨urec¸lerin modellenmesinde kullanılan ¨onemli matematiksel arac¸lardır. Bu alanda ¨onemli bir problem, zamanla ¨uretici s¨urec¸ parametrelerinde meydana gelen de˘gis¸imleri c¸ıkarımlamaktır. Bu c¸alıs¸mada, rassal ¨obek c¸izgeleri serilerinde c¸oklu de˘gis¸im noktalarını c¸ıkarımla- ma problemi ele alındı. Zaman serilerinde c¸ıkarım yap- mak ic¸in en sık kullanılan algoritmalardan biri ileri-geri algoritmasıdır. Bu algoritmanın c¸izge de˘gerli modellerde hesaplama karmas¸ıklı˘gını azaltmak ic¸in, geri y¨onl¨u me- saj kısmı de˘gis¸tirilip geriye do˘gru Monte Carlo ¨ornekle- mesi uyarlandı. Yapılan testlerle tasarlanan algoritmanın gerc¸e˘ge uygun c¸ıkarımlar yaptı˘gı g¨ozlemlendi.

ABSTRACT

Graphs are important mathematical tools for modelling processes. An important issue in this area is to infer the changes that occur in the underlying generative process.

In this work, inference of multiple change points in stoc- hastic block graph time series is studied. A well-known algorithm for inference in time series is the forward- backward algorithm. In order to decrease computational complexity of this algorithm in graphical models, back- ward smoothing part is replaced with backward Monte Carlo sampling. With the experiments, it is observed that modified algorithm gives result in accordance with the real data.

1. G˙IR˙IS¸

Rassal c¸izgeler, birc¸ok alanda process ve veri modelle- melerinde ve veri analizinde kullanılmaktadır. En yaygın kullanım alanlarının bas¸ında telekominikasyon a˘glarının incelenmesi, ulas¸ım s¸ebekesinin modellenmesi, mobil te- lefon a˘glarının incelenmesi, proteinler arası etkiles¸imlerin modellenmesi, besin zinciri gibi biyolojik a˘gların ana- lizi; facebook, twitter sosyal a˘gların analizi; netflix, ama- zon gibi kullanıcı tercihlerinin incelenmesidir. Bu ¨ornek- ler daha da c¸o˘galtılabilir.

Bu c¸alıs¸ma Bo˘gazic¸i ¨Universitesi BAP Koordinat¨orl¨u˘g¨u 5723 nu- maralı proje tarafından desteklenmektedir.

978-1-4673-0056-8/12/$26.00 c 2012 IEEE

Yukarıdaki ve benzeri analizler ic¸in de˘gis¸ik c¸izge mo- delleri kullanılmaktadır. Literat¨urde en c¸ok yer alan mo- deller: Erd¨os-Reyni-Gilbert modeli, sosyal a˘glar ic¸inP1

veP2modelleri, ¨ussel rassal c¸izge modelleri, rassal blok modelleri, tercihli ba˘glanma modeli, c¸o˘galtmalı ba˘glanma modeli ve t¨urevleri olarak sayılabilir[1].

Bu makalede, Rassal Blok Model C¸ izgeleri ve bun- ların dinamik yani zaman ic¸erisinde de˘gis¸imi ¨uzerinde c¸alıs¸ıldı. Bu modelde d¨u˘g¨umlerin ¨ort¨ul¨u kategorilere da- hil oldukları ve d¨u˘g¨umler arasındaki ilis¸kilerin, bu ¨ort¨ul¨u ka- tegorilere g¨ore olus¸tu˘gu varsayılır[2]. ¨Ornek olarak, bir basit kullanıcı-servis c¸izgesi d¨us¸¨unelim. Kullanıcıların ter- cih ettikleri servisler kullanıcı ve servis kategorilerine g¨ore belirlenmektedir. Modelle ilgili matematiksel ayrıntılar ileriki b¨ol¨umlerde verilecektir.

G¨un¨um¨uzde dura˘gan veri analizi kadar, dinamik veri analizi de ¨onem kazandı. ¨Ornek olarak, ilgili s¨urec¸lerdeki de˘gis¸imi takip etmek ve de˘gis¸ime g¨ore ¨onlem almak ya da eylemde bulunmak ilgili kurumlar ic¸in ¨onemlidir. Ras- sal blok modellerinden ¨ornek vermek gerekirse, zaman ic¸inde m¨us¸teri ve servis tercihleri arasındaki de˘gis¸imi far- ketmek, servis sa˘glayıcıları ic¸in ¨onemli olacaktır. Bu ve benzeri zaman ic¸indeki de˘gis¸im noktalarını c¸ıkarımlamak ic¸in rassal c¸izge modelleri zaman serisi modelleri olarak tasarlandı.

2. RASSAL ¨ OBEK C ¸ ˙IZGELER˙I ve C ¸ OKLU DE ˘ G˙IS¸˙IM NOKTALARI

Bu b¨ol¨umde ¨once rassal ¨obek c¸izgelerinin matematiksel modeli incelenecek, sonrasında da rassal ¨obek c¸izgileri zaman serilerinde c¸oklu de˘gis¸im noktalarının nasıl mo- dellendi˘gine de˘ginece˘giz. C¸ oklu de˘gis¸im noktalarının c¸ı- karımlanmasında ise saklı Markov modellerinin analizinde kullanılan ileri y¨onde filtreleme ve geri y¨onde d¨uzeltme (forward filtering-backward smoothing) algoritmasının Mon- te Carlo ¨orneklemesine uyarlanması olan ileri y¨onde filt- releme ve geri y¨onde ¨ornekleme(forward filtering-backward sampling) algoritması kullanılmıs¸tır.

(2)

2.1. Rassal ¨Obek C¸ izgeleri

Temel rassal ¨obek c¸izgelerinde herbir d¨u˘g¨um ¨ort¨ul¨u alt bir kategoriye aittir. D¨u˘g¨umler arası ba˘glantılar da bu ka- tegorilere g¨ore belirlenir. Literat¨urde, bu modelin c¸es¸itleme- leri tanımlanmıs¸tır. Bazı modellerde, d¨u˘g¨umler arasındaki kenarlar alt kategorilere ek olarak, d¨u˘g¨umlere ya da d¨u˘g¨um- lerin c¸es¸itli ¨ozelliklerine de ba˘glanabilir. Bu makalede, temel rassal ¨obek c¸izgelerini ele alaca˘gız ama yukarıda belirtilen c¸es¸itlemeler de kolayca uyarlanabilir. S¸ekil 1’de modelin Bayesc¸i c¸izgelerle betimlenmesi g¨osterilmekte- dir. ¨Onceki kullanıcı-servis ¨orne˘gi baz alınarak, altta ya- tan matematiksel model s¸u s¸ekilde betimlenebilir:

Nu= Kullanıcı sayısı

Ku= Kullanıcı kategori sayısı Ns= Servis sayısı

Ks= Servis kategori sayısı

k∈ {1, . . . , Ku} = Kullanıcı kategori endeksi l∈ {1, . . . , Ks} = Servis kategori endeksi p∈ {1, . . . , Nu} = Kullanıcı endeksi q∈ {1, . . . , Ns} = Servis endeksi

Cpu∼ Multn(πu) = p kullanıcısının kategorisi Cqs∼ Multn(πs) = q servisinin kategorisi Bkl∼ Beta(α, β) = k kategorili kullanıcı ile

l kategorili servis arasında ilis¸ki olasılı˘gı Ypq=

(1 e˘gerp kullanıcısı q servisini kullanıyorsa 0 di˘ger s¸artlarda

∼ Bern(CpuB(Cqs)T) = kullanıcılar ve servisler arasındaki koms¸uluk matrisi

(1) T¨um modelin biles¸ik olasılık da˘gılımı s¸u s¸ekilde elde edilir.

p(Y, B,C1:Nu u, C1:Ns s) = p(C1:Nu u)∗ p(C1:Ns s)

∗ p(B) ∗ p(Y |β, C1:Nu u, C1:Ns s)

=

Nu

Y

p Ku

Y

k

uk)Cpku

Ns

Y

q Ks

Y

l

ls)Csql

Ku

Y

k Ks

Y

l

Γ(α + β)

Γ(α)Γ(β)B(α−1)kl (1− Bkl)(β−1)

Nu

Y

p Ns

Y

q Ku

Y

k Ks

Y

l

(BklYpq(1− Bkl)(1−Ypq))Cpku ∗Cqls (2) Bu model ic¸in d¨u˘g¨umlere kategori atama (CuveCs) ve ba˘glantı parametrelerini (B) c¸ıkarım y¨ontemleri gec¸en yılki makalemizde incelenmis¸ti [3]. Burada dikkat edil- mesi gereken ¨onemli nokta, d¨u˘g¨umlerin kategorileri bi- lindi˘ginde, rassal ¨obek modeli kos¸ullu ba˘gımsız olarak

c

ui

c

sj

x

ij

β π

u

π

s

i = 1..N

u

j = 1..N

s

K

u

∗ K

s

1

S¸ekil 1: Rassal ¨Obek C¸ izge Modeli

Cu∗ Cs tane alt Erdos-Reyni c¸izgesi olarak ifade edi- lebilmesidir.

Herhangi birA Erdos-Reyni matrisini alalım. Bu mat- riste kenarlar arası ba˘glantı olasılı˘gıBernoulli(b) olasılık da˘gılımı ile belirlenmis¸ olsun. b parametresinin es¸lenik

¨onsel da˘gılımı daBeta(α, β) olsun. Bu durumda A mat- risinin marjinal olasılı˘gı as¸aıdaki s¸ekilde kolayca buluna- bilir:

p(A) = Z

b

p(b)p(A|b)db (3)

c =

N

X

i,j

Aij (toplam ba˘g sayısı) (4)

n =

N

X

i,j

1 (olabilecek t¨um ba˘gların sayısı) (5)

p(b) = Γ(α + β)

Γ(α)Γ(β)bα−1(1− b)β−1 (6) log p(A) = log

Z 1 0

Γ(α + β)

Γ(α)Γ(β)bα+c−1(1− b)β+n−c−1db (7)

= log Γ(α + β) + log Γ(α + c) + log Γ(β + n− c) − log Γ(α)

− log Γ(β) − log Γ(α + β + n) (8) Yukarıdaki denklemlere g¨ore,A matrisinin ba˘glantı para- metresib’nin c¸ıkarımı oldukc¸a basittir.

(3)

Cu Cs

X1 X2 · · · Xt · · · XT

β1

β0 β2 · · · βt · · · βT

r1 r2 · · · rt · · · rT

1

S¸ekil 2: C¸ oklu De˘gis¸im Noktaları Modeli

2.2. Rassal ¨Obek C¸ izgelerinin Zaman Serilerinde C¸ oklu De˘gis¸im Noktalarının C¸ ıkarımı

C¸ oklu de˘gis¸im noktaları modelinde,T uzunlu˘gundaki za- man serisi ic¸in de˘gis¸im noktalarının sayısını ve yerleri bilinmiyordur ve amac¸ bu de˘gis¸im noktalarının yerlerini c¸ıkarımlamaktır. Bu modelde, herhangi birt anında de˘gis¸im olduysa, rassal ¨obek c¸izge modelimizdeki ba˘glantı pa- rametrelerinin ¨onsel da˘gılımından tekrar c¸ekildi˘gi, e˘ger de˘gis¸im olmadıysa t− 1 ba˘glantı parametreleriyle aynı oldu˘gu varsayılır. Varsayılan di˘ger ¨onemli bir nokta da,

¨obek c¸izgelerindeki d¨u˘g¨umlerin kategorilerinin bilinmi- yor ve T s¨uresince de˘gis¸miyor olmasıdır. Her t anında

¨obek c¸izgeleri ilgili ba˘glantı parametlerine ve altta ya- tan kategori es¸lemesine g¨ore yeniden olus¸turuluyor. S¸ekil 2’de c¸oklu de˘gis¸im noktaları modelimizin Bayesc¸i c¸izgelerle temsilini g¨or¨uyoruz.

Matematiksel olarak ¨uretici modeli s¸u s¸ekilde tanımla- yabiliriz:

rt∼ Be(p) (9)

βt∼ [rt= 0]δ(Bt= Bt−1) (10)

Bt∼ [rt= 0]δ(Bt= Bt−1)+[rt= 1]

Ku

Y

k Ks

Y

l

Beta(α, b) (11)

Cpu∼ Multn(πu) (12)

Cqs∼ Multn(πs) (13)

Herhangi birt anındaki koms¸uluk matrisinin (Yt) ko- s¸ullu olasılı˘gı ¨onceki b¨ol¨umde verildi˘gi gibi hesaplanır:

Yt|Bt, Cu, Cs=

Nu

Y

p Ns

Y

q Ku

Y

k Ks

Y

l

(Bt,klYt,pq (1− Bt,kl)(1−Yt,pq))Cpku∗Cqls

(14)

2.2.1. ˙Ileri-Geri Algoritması

˙Ileri-geri algoritması zaman serileri ve saklı Markov mo- dellerinde anlık parametre c¸ıkarımlarında c¸ok sık kullanı- lan bir tam c¸ıkarım y¨ontemidir[4]. Bizim modelimizde de p(rt, Bt|Y1:T) kos¸ullu da˘gılımları bu algoritma ile hesap- lanabilir. Algoritmanın adımlarını kısaca tanımlayalım.

Alfa (ileri y¨onl¨u) mesajları:

α0|0 =p(B0) t = 1..T αt|t−1=p(rt, Bt, Y1:t−1)

αt|t=p(rt, Bt, Y1:t)

(15)

Beta (geri y¨onl¨u) mesajları:

βT |T =p(YT|rT, Bt) t = T− 1, ..1 βt|t+1=p(Yt+1:T|rt, Bt)

βt|t=p(Yt:T|rt, Bt)

(16)

De˘gis¸im noktalarının sonsal da˘gılımları da alfa ve beta mesajları kullanılarak s¸u s¸ekilde elde edilir:

p(rt, Bt|Y 1 : T ) ∼p(Y1:T, rT, Bt)

=p(Y1:t−1, rt, Bt)p(Yt:T|rt, Bt, Y1:t−1)

=p(Y1:t−1, rt, Bt)p(Yt:T|rt, Bt)

t|t−1βt|t

(17)

2.2.2. ˙Ileri Y¨onl¨u Filtreleme - Geri Y¨onl¨u ¨Ornekleme Al- goritması

˙Ileri-geri algoritması c¸ıkarımlanmak istenen parametrele- rin t¨um olası de˘gerleri ic¸in her bir zaman adımında hesap- lamaları gerektirdi˘ginden, hesaplama karmas¸ıklı˘gı olarak

¨usseldir. Hesaplama karmas¸ıklı˘gını azaltmak ic¸in alfa-beta algoritmasının geri y¨onl¨u mesajlarının t¨um¨un¨u hesapla- mak yerine,T anındaki sonsal da˘gılımdan, T zamanı ic¸in de˘gis¸im noktası ¨orneklenir (rT). ¨Ornek de˘geri ic¸in beta mesajını (βt−1|t−1) hesaplayıpt−1 anı ic¸in sonsal da˘gılımları c¸ıkarımlanır. ¨Orneklemeye bu s¸ekilde sonsal da˘gılımlardan devam edilir. Bu ufak de˘gis¸iklikle hesaplama karmas¸ıklı˘gı geri y¨onde do˘grusal olur.

Algoritmanın detayları as¸a˘gıdaki s¨ozde kodla ac¸ıklanabilir:

(4)

10 20 30 40 50 0

0.2 0.4 0.6 0.8 1

time

B values

B11 B12 B21 B22

S¸ekil 3: Zaman dilimlerine g¨ore ba˘glantı parametrelerinin de˘gis¸imi

Algoritma 1: ˙ILERIFILTRELEME-GERIRNEKLEME(.) for eachp∈ {1, .., Nu}

doCpu∼ Multn(πu) ¨ornekle for eachq∈ {1, .., Ns}

doCqs∼ Multn(πs) ¨ornekle for eacht∈ {1, .., T }

dort∼ Be(p) ¨ornekle Gibbs ¨Orneklemesi:

































































for eachi∈ {1, .., epoch}

do









































for eacht∈ {1, .., T }

do





































for eachk∈ {1, .., Ku} do for eachl∈ {1, .., Ks}

doAit,kl = k ve l kategorilerine dahil d¨u˘g¨umlerden olus¸an alt c¸izge

˙Ileri S ¨uzgec¸leme : for eachAit,kl

doαt,kli (rt,kl) mesajlarını hesapla Geri ¨Ornekleme:





for eacht∈ {T, T − 1.., 1}

do

st:d¨uzeltilmis¸ sonsal olasılık.

rt ∼ stt dilimi de˘gis¸im nokt.

βt(rt) beta potansiyelleri for eachp∈ {1, .., Nu}

doCpu∼ p(Cpu|Y1:T, Cpu, Cs) ¨ornekle for eachq∈ {1, .., Ns}

doCpu∼ p(Cqs|Y1:T, Cqs, Cu) ¨ornekle

3. SONUC ¸ LAR

Onerilen yeni algoritmayı test etmek ic¸in daha ¨once belir-¨ tilen zaman serisi modeline g¨ore 50 zaman dilimi ic¸in veri

¨uretildi. ¨Uretici modelde 2 kullanıcı kategorisi ve 2 ser- vis kategorisi oldu˘gu varsayıldı. Her bir zaman diliminde

0 20 40 60

0 0.2 0.4 0.6 0.8 1

0 20 40 60

0 0.2 0.4 0.6 0.8 1

0 20 40 60

0 0.2 0.4 0.6 0.8 1

0 20 40 60

0 0.2 0.4 0.6 0.8 1

S¸ekil 4: Orneklenen¨ de˘gis¸im noktalarının sonsal da˘gılımları. D¨uz c¸izgiler ba˘glantı parametrelerinin de˘gis¸imini, mavi yıldızlar gerc¸ek de˘gis¸im noktalarını, kırmızı grafikler de c¸ıkarımlanan sonsal da˘gılımları g¨osteriyor.

de˘gis¸im noktası olma olasılı˘gı 0.04 olarak alındı. Her bir d¨u˘g¨um¨un herhangi bir kategoriye ait olma olasılı˘gı 0.5 olarak kabul edildi. Verideki gerc¸ek de˘gis¸im noktalarını, d¨u˘g¨umlerin kategorilerini ve kategoriler arası ba˘glantı pa- rametreleri s¸ekil 3’te verilmis¸tir.

Onerilen algoritmanın ¨uretti˘gi sonuc¸lar da s¸ekil 4’de¨ g¨or¨ulmektedir. Bu s¸ekilden de anlas¸ıldı˘gı gibi, Gibbs’ ¨ornek- lemesi ic¸inde geri y¨onl¨u ¨orneklemelerden elde edilen nok- talar, de˘gis¸im noktaları ic¸in sonsal da˘gılım olus¸turmaktadır.

Gerc¸ek de˘gis¸im noktaları da, bu sonsan da˘gılımın en y¨uksek olasılık de˘gerleriyle ¨ort¨us¸mektedir. B¨oylelikle ¨onerilen al- goritmanın daha az is¸lem karmas¸ıklı˘gıyla tutarlı c¸ıkarımlar yaptı˘gı g¨ozlemlendi.

4. KAYNAKC ¸ A

[1] Goldenberg, A. and Zheng, A. X. and Fienberg, S.

E. and Airoldi, E. M.,”A survey of statistical net- work models”,arXiv,2009,6481222.

[2] Airoldi, Edoardo M. and Blei, David M. and Fi- enberg, Stephen E. and Xing, Eric P., ”Combining stochastic block models and mixed membership for statistical network analysis”, ICML’06, 57–74, 2007.

[3] Kurt, Barıs¸ and Cemgil, A. T., ”Rastlantısal ¨Obek C¸ izgeler ˙Ic¸in Bayesc¸i Model Sec¸imi”, SIU 2011.

[4] Bishop C., ”Pattern Recognition and Machine Le- arning (Information Science and Statistics)”, Sprin- ger, 2007.

Referanslar

Benzer Belgeler

Klavyeden okuma ve ekrana yazma için gerekli deyimleri bulundurur.. „ #include deyimi ile compiler’a iostream araçlarının

Bu makalede en basit rastgele c¸izge mo- delleri olan Erd¨os-R´enyi ve rastlantısal ¨obek modelleri ic¸in Bayesc¸i model sec¸imi uyguladık.. Bir c¸izgenin bitis¸iklik mat-

Bu modeldeki temel fikir ise, akor s¸ablonlarını (B) notalandırılacak piyano parc¸asının kaba ve/ya eksik bir notalandırması (X 3 ) ile paylas¸tırarak modele

If the external flexible cable or cord of luminaire is damaged, it shall be replaced by a special cord exclusively available from the manufacturer, their service agent or

menin tarihsel sürecini incelemektir: bunun için de tek tek ve anzi mübadele işlemlerinden başlar ("değerin basit, özel ya da anzi biçimi": belirli

Verilen dört tane telefon görüşmesine göre cümlede boş bırakılan yer için uygun seçeneği bulmamız gerekir.. Cümlede hangi kişinin randevu almak için telefon

 Bakteriler ve ökaryotik membranlardan farklı olarak arkelerde yağ asitleri yerine hidrokarbonlar, ester bağları yerine de eter bağları bulunur. Arkelerde gliserol

Soru ’teki gibi, öyle bir uzay vardır ki sadece zamanla sabitleşen diziler yakınsar. Başka bir örnek için, uzayın açık kümeleri, sadece tümleyenleri sayılabilen