Learning traffic congestion by contextual bandit problems for optimum localization

(1)

En ˙Iyi Konumlandırma için Ba˘glamsal Haydut

Problemleri ile Traﬁk Yo˘gunlu˘gunu Ö˘grenme

Learning Trafﬁc Congestion by Contextual Bandit

Problems for Optimum Localization

Ümitcan ¸SAH˙IN

1,2

_{, Veysel YÜCESOY}

1

_{, Aykut KOÇ}

1

_{, Cem TEK˙IN}

2

1_{Akıllı Veri Analiti˘gi Ara¸stırma Program Müdürlü˘gü, ASELSAN Ara¸stırma Merkezi, Ankara 06370, Türkiye} 2_{Elektrik ve Elektronik Mühendisli˘gi Bölümü, Bilkent Üniversitesi, Ankara 06800, Türkiye}

{ucsahin,vyucesoy,aykutkoc}{at}aselsan.com.tr, cemtekin{at}ee.bilkent.edu.tr

Özetçe —Gerçek hayatta pek çok kar¸sılı˘gı olan (acil yardım

sistemleri, komuta kontrol sistemleri, stok tesisleri, malzeme sevkiyat planları gibi) en iyi konumun tespiti problemi varma, müdahale veya dönü¸s süresi gibi uygulama alanına göre ha-yati öneme sahip olabilecek bir hedefi, en aza indirecek en iyi konumlanma noktasını tespit etmeyi hedeflemektedir. Bu problemlerin büyük kısmında problemi zorla¸stıran temel unsur trafik durumunun bilinmezli˘gidir ve literatürde genel olarak bu bilinmezli˘gin belirli bir da˘gılıma uydu˘gu kabul edilmektedir. Bu çalı¸smada, uygulama alanı olarak acil yardım sistemleri için ambulans konumlarının en iyilenmesi ele alınmı¸s; bir ¸sehirdeki trafik durumunun Markov süreçleri ile modellenmesi sonucu problem tanımlanmı¸stır. Literatürdeki çözümlerden farklı olarak, problemi modelleyen algoritma ile çözen arasında bilgi akı¸sı kesilerek, haydut problemi yakla¸sımının trafik hakkında nere-deyse hiçbir kabul yapmadan zaman içerisinde trafik durumunu ö˘grenmesi hedeflenmi¸stir. Sonuçlar klasik kestirim sonuçları ile kıyaslanarak ö˘grenme yapılmasının faydaları ortaya konmu¸stur.

Anahtar Kelimeler—Acil yardım sistemleri, en iyi konum tespiti, ba˘glamsal haydut problemleri.

Abstract—Optimum localization problem, which has a wide

range of application areas in real life such as emergency services, command and control systems, warehouse localization, shipment planning, aims to find the best location to minimize the arrival, response or return time which might be vital in some applications. In most of the cases, uncertainty in traffic is the most challenging issue and in the literature generally it is assumed to obey a priori known stochastic distribution. In this study, problem is defined as the optimum localization of ambulances for emergency services and traffic is modeled to be Markovian to generate context data. Unlike the solution methods in the literature, there exists no mutual information transfer between the model and solution of the problem; thus, a contextual multi-armed bandit learner tries to determine the underlying traffic with simple assumptions. The performance of the bandit algorithm is compared with the performance of a classical estimation method in order to show the effectiveness of the learning approach on the solution of the optimum localization problem.

Keywords—Emergency medical systems, best location detection, contextual bandit problems.

I. G˙IR˙I ¸S

Acil servis sistemlerinde yerle¸sim problemlerinden biri olan ambulans yerle¸stirme problemi, üzerinde uzun yıllardır çalı¸sılmı¸s ara¸stırma konularından biridir. Vaka müdahale süre-sini azaltmak için birçok yöntem geli¸stirilmi¸stir. Bu yöntemler-den ba¸slıcaları hiperküp modellemesi ve tamsayı programlama (integer programming) olarak gösterilebilir [1]–[3].

Bahsedilen çalı¸smalarda ambulansların yerle¸stirilece˘gi böl-geler belirlenirken altta yatan istatistiksel özelliklerin belirli da˘gılımlarla modellendi˘gi ve bu modellerin bilindi˘gi varsa-yılmı¸stır. Halbuki gerçek hayatta acil yardım sistemlerinin vakaya müdahale süresini etkileyen, ba¸sta traﬁk olmak üzere istatistiksel da˘gılımları hassas bir ¸sekilde önceden bilineme-yecek birçok etken vardır. Bu nedenle, ambulans yerle¸stirme problemi çözülürken geli¸stirilen yöntemlerin gerçek hayatta uygulanabilir olması ve ba¸sarı sa˘glayabilmesi için bu etken-lerin altında yatan da˘gılımların ö˘grenilmesi gerekmektedir. Bu çalı¸smada ba˘glamsal bir haydut problemi (contextual bandit problem) algoritması ile bu da˘gılımların etkili bir ¸sekilde ö˘grenilebildi˘gi gösterilmi¸stir.

Çok kollu haydut problemlerinin (multi-armed bandit prob-lems) çıkı¸s noktası, ke¸sif (exploration) ve istifade (exploitation) arasındaki ödünle¸simdir (trade-off) [4], [5]. Bu ödünle¸sim ¸su soruyla açıklanabilir: bir kumarhane kapanana kadar geçen

T sürede, K tane slot makinesinde oyun oynayarak

kazana-ca˘gı ödülü ençoklamak isteyen bir ki¸si, hangi makineleri kaç kere ve hangi sırayla oynamalıdır? Bu ki¸si makinelerin hangi da˘gılımla ödül verdi˘gini bilmedi˘gi için sürekli ke¸sif yaparak bu da˘gılımları ö˘grenmeye çalı¸smalıdır. Aynı zamanda en yük-sek ödülü verdi˘gini dü¸sündü˘gü makineden de sürekli istifade ederek kazancı ençoklamalıdır. Çok kollu haydut problemleri algoritmaları bu ve buna benzer ke¸sif ve istifade arasında bir denge kurulması gereken birçok soruya cevap vermektedir [6]. Ba˘glamsal haydut problemlerinde ise çok kollu haydut problemlerinden farklı olarak her kolla ili¸skilendirilmi¸s bir kontekst (ba˘glam) bilgisi vardır. Bu kontekst henüz kol seçimi yapılmadan önce algoritma tarafından gözlemlenmekte ve kol seçiminde kullanılmaktadır. Bugüne kadar, tavsiye sistemle-rinden sa˘glık uygulamalarına kadar birçok alanda ba˘glamsal haydut problemi algoritmaları kullanılmı¸stır [7]–[9]. Fakat bildi˘gimiz kadarıyla ¸su ana kadar konum eniyileme

(2)

rında bir uygulaması olmamı¸stır.

Bu çalı¸smada, ambulans yerle¸stirilecek noktalar ö˘grenilir-ken, traﬁ˘gin durumu (az tıkalı, açık ve yo˘gun gibi) kontekst bilgisi olarak kullanılmı¸stır. Problem çözümünde ba˘glamsal haydut algoritmalarından biri olan LinUCB [10] algoritması kullanılmı¸stır. LinUCB algoritmasına göre ödüllerin beklenen de˘geri, kontekst vektörünün do˘grusal bir fonksiyonudur. Bu algoritmanın seçilmesindeki etkenler, UCB1 gibi ba˘glamsal olmayan haydut algoritmalarına kar¸sı üstünlük sa˘glaması, ger-çek uygulamalardaki performansı ve kolay uygulanabilir [10] olması ¸seklinde sıralanabilir.

Bölüm II’de LinUCB algoritmasının çözdü˘gü genel prob-lemin ve ambulans yerle¸stirme probprob-leminin tanımı yapılmı¸s ve traﬁk modeli verilmi¸stir. Bölüm III’te LinUCB algoritması ve bu algoritmanın kar¸sıla¸stırıldı˘gı klasik kestirim yöntemlerinden olan do˘grusal en küçük kareler (DEKK) yöntemi verilmi¸stir. Bölüm IV’te kullanılan traﬁk modeline göre algoritmaların performansları kıyaslanmı¸stır. Son bölümde ise elde edilen sonuçlar tartı¸sılmı¸stır.

II. PROBLEMTANIMI VETRAFIKMODELLEMESI

Bu bölümde LinUCB algoritması için genel problem for-mülasyonu verilip [10], [11], ambulans yerle¸sim problemi tanımı yapılmı¸s ve deneylerde kullanılacak trafik modeli ve-rilmi¸stir. Aksi belirtilmedikçe problem tanımında kullanılan matrisler, büyük ve kalın harflerle, vektörler ise küçük harflerle gösterilmi¸stir. Vektörler, sütun vektör olarak verilmi¸stir. E[·] beklenti (expectation) i¸slemini göstermekte kullanılmı¸stır.rt,a,

haydut kolu a’nın t turunda aldı˘gı ödülü ifade etmektedir.

Toplam tur sayısıT ve kol sayısı K olarak alınmı¸stır ve kol

kümesi A ile gösterilmi¸stir. Ba˘glamsal haydut problemi kol-larının beklenen ödüllerinin, d-boyutlu kontekst vektörü xt,a

ile bilinmeyen katsayı vektörü θ∗’in do˘grusal bir fonksiyonu oldu˘gu varsayımı yapılmaktadır:

E[rt,a|xt,a] = xTt,aθ∗. (1)

Analizin kolaylı˘gı için rt,a ∈ [0, 1], xt,a ≤ 1 ve

θ∗_{≤ 1 varsayımları yapılmı¸stır ve · ,}

2-norm i¸slemidir.

Bu varsayımlar, ölçekleme (scaling) yapılarak giderilebilir. θ∗_{’yi kestirmek için,} _{t turunda a kolu için daha önce m}

kere gözlemlenmi¸s[x_τ,a_τ]_{τ ∈{1,...,m}}kontekst vektöründen

olu-¸sanm×d boyutlu Damatrisini vem kere a kolu oynadı˘gında

alınan ödüllerden [rτ,aτ]τ ∈{1,...,m} olu¸san m × 1 boyutlu ya

vektörünü tanımlanmı¸stır. (Da, ya) verisine ridge regresyonu

uyguladı˘gımızda θ∗’i a¸sa˘gıda verildi˘gi gibi kestirebiliriz: ˆθ =DT

aDa+ Id

₋₁

DT aya

[12]’de kullanılan yönteme benzer bir ¸sekilde kestirimin güven aralı˘gı herhangi bir δ > 0 için en az 1 − δ olasılıkla

a¸sa˘gıda verildi˘gi gibi hesaplanabilir:

xTt,aθ − E[rˆ t,a|xt,a] ≤ α

xTt,a DT aDa+ Id −1 xt,a (2)

α sabiti, 1 + log(2/δ)/2 olarak alınmı¸stır. (2)’de verilen

e¸sitsizli˘gin sa˘g tarafındaki ifade güven aralı˘gını belirleyen üst

güven limitidir. (2) kullanılarak kol seçim stratejisi a¸sa˘gıda verildi˘gi gibi tanımlanabilir:

at:= arg max a∈A xTt,aθ + αˆ xTt,aA−1xt,a (3) Kolaylık için A := (DT_aDa+ Id) matrisi tanımlanmı¸stır.

Bu çalı¸smada kullanılan traﬁk modeline ¸Sekil 1’de gös-terilen sistem örnek olarak verilebilir. Her ai, ambulansın

her tur t için yerle¸stirilebilece˘gi noktaları göstermektedir. Bu

noktalar birbirlerine ¸Sekil 1.a’da gösterildi˘gi gibi tek yönlü yollarla ba˘glanmı¸stır ve bu yollar üzerindeki traﬁk[x_t,a]_a∈A, kontekst vektörlerini olu¸sturmaktadır. Ambulans yerle¸stirme probleminde gelen vakaya müdahale süresi τt,at ∈ [1, ∞) olarak tanımlanmı¸stır. τt,at, rastgele bir de˘gi¸sken oldu˘gu için amacımız τt,at’nun T turda toplam beklenen de˘gerini,

T

t=1E[τt,at], enazlayan noktalara ambulans yerle¸simi yap-maktır. Algoritmadan kullanılan ödüller, vaka müdahale süresi cinsindenrt,at = 1/τt,at ∈ [0, 1] olarak ifade edilebilir.

Ambulans yerle¸stirme probleminde θ∗, yolların kapasitesi olarak alınmı¸stır. Amacımız yollar üzerindeki traﬁk bilgisi

xt,akontekstlerini kullanarak yolların kapasitelerini kestirmek

ve yapılan kestirime göre beklenen vaka müdahale süresini enazlayan (ya da ödülrt’yi ençoklayan) noktaya her turda bir

tane ambulans yerle¸stirmektir. LinUCB algoritmasının perfor-mansı hesaplanırken zarar (R(T )) fonksiyonu kullanılmı¸stır ve

denklemi (4)’te verilmi¸stir. Bu fonksiyon,θ∗de˘gerini bilen ve her turda (1)’i ençoklayan kolu seçen stratejinin her turda elde etti˘gi ödülün beklenen de˘geriyle, (3)’e göre at kolunu seçen

bir algoritma A’nın elde edece˘gi ödülün beklenen de˘gerinin

farkı olarak tanımlanmı¸stır:

R(T ) := T t=1 μ∗t− T t=1 E[rt,at] (4)

t turunda θ∗’a göre en iyi kol, a∗t := arg maxa∈AtxTt,aθ∗

ve bu kolun ödülünün beklenen de˘geriμ∗t := maxa∈AtxTt,aθ∗

olarak tanımlanmı¸stır.

¸Sekil 1’de gösterildi˘gi gibi ambulans noktalarına ba˘glanan yolların sayısı yani kontekst vektörlerinin boyutları hera için

farklı olabilmektedir. Bu durumda her kol tarafından payla¸sılan ortak bir θ∗ kestirmek yerine her kol a için ayrı ayrı katsayı

vektörü θ∗_a kestirmek gerekmektedir. Bu çalı¸smada kolaylık açısından bütün ambulans noktalarının e¸sit boyutlara sahip traﬁk bilgisi kontekstleri oldu˘gu varsayımı yapılmaktadır ve θ∗ _{bütün kollar tarafından payla¸sılmaktadır.}

¸Sekil 2’de her turda her bir kontekst vektörü olu¸sturulurken kullanılan ve traﬁ˘gin durumunu modelleyen Markov zinciri ve-rilmi¸stir.s0,s1ves2durumları traﬁ˘gin açık, az tıkalı ve yo˘gun

oldu˘gu durumlara kar¸sılık gelmektedir ve sırasıyla(0.8, 1.0), [0.3, 0.8], (0, 0.3) arasında tanımlı tekdüze (uniform) olasılık da˘gılımlarına sahiplerdir. Ba¸slangıçta traﬁk bilgisini içeren kontekst vektörü, (0, 1) arasında tanımlı tekdüze da˘gılımdan her ambulans noktası içind örnek alınarak olu¸sturulmaktadır.

Daha sonra her turda konteksler ¸Sekil 2’de verilen geçi¸s olasılıklarına göre güncellenmekte ve normalle¸stirilmektedir.

Bu çalı¸smada geçi¸s olasılıkları turlara göre dura˘gan∗

(stati-∗_{Algoritmaların analiz kolaylı˘gı için geçi¸s olasılıkları dura˘gan alınmı¸stır.}

LinUCB algoritması, ¸Sekil 2’de görülen stokastik dura˘gan geçi¸s olasılıkları varsayımı yapılmadan da ba¸sarılı bir ¸sekilde çalı¸smaktadır [10].

(3)

ܽଵ ܽଶ ܽଷ ܽସ ܽଽ ݔ௧ǡ଻ଶ ܽଵ଴ ܽଵଵ ܽଵଶ ଼ܽ ܽ଺ ܽହ ܽ଻ ݔ௧ǡଵଶ ݔ௧ǡଷଵ ݔ௧ǡଶଶ ݔ௧ǡସଵ ݔ௧ǡଷଶ ݔ௧ǡହଵ ݔ௧ǡସଶ ݔଶ௧ǡଵଶ ݔ௧ǡହଷ ݔ௧ǡହଶ ݔ௧ǡ଺ଶ ݔ௧ǡଵଵଵ ݔ௧ǡଵ଴ଶ ݔ௧ǡ଼ଶ ݔ௧ǡ଼ଵ ݔ௧ǡ଼ଷ _ݔ_௧ǡଽଵ ݔ௧ǡଵ଴ଵ ݔ௧ǡଽଶ ݔ௧ǡ଺ଵ ݔ௧ǡ଻ଵ ݔ௧ǡଵଶଵ ݔ௧ǡଵଵଶ ݔ௧ǡଵଵ ݔ௧ǡଶଵ

¸Sekil 1: Ambulans yerle¸stirme noktasıai’ye ba˘glanan ve traﬁk

bilgisini içeren tek yönlü yollardan olu¸san kontekst vektörü modeli örne˘gi

onary) kabul edilmektedir ve algoritmalar tarafından bilinme-mektedir.

Bir sonraki bölümde, deneyler ve testlerde kar¸sıla¸stırılacak LinUCB ve do˘grusal en küçük kareler (DEKK) algoritmaları verilmi¸stir.

III. ALGOR˙ITMATANIMLARI

Algoritma 1 Do˘grusal Modelli LinUCB Algoritması

1: Girdi:α ∈ R+

2: A ← Id {d × d birim matris}

3: b ← 0_d×1

4: for t = 1,2,3,..., T do

5: Her ambulans noktası a ∈ A için traﬁk bilgisini

göz-lemle:xt,a∈ Rd×1 6: θ ← Aˆ −1_b 7: for all a ∈ A do 8: p_t,a← ˆθTx_t,a+α

xTt,aA−1xt,a{Her nokta için üst

güven limitlerini hesapla}

9: end for

10: p_t,a’yi ençoklayan at ambulans noktasını seç: at =

arg max_a∈Apt,a

11: Vakalara müdahale süresini τt gözlemle ve ödülü

he-saplart= 1/τt 12: A ← A + xt,a_txT_t,a_t 13: _{b ← x}_t,a_t_r_t

14: end for

LinUCB algoritması Algoritma1’de verilmi¸stir. 8. adımda (2) ile her ambulans noktası için traﬁk bilgisi kontekstleri kullanılarak üst güvenlik limiti hesaplanmaktadır. 10. adımda

iset turunda en yüksek güven limitine sahip ambulans noktası

seçilmektedir ve bu bu noktaya kar¸sılık gelen vaka müdahale süresi gözlemlenmektedir. Problem tanımında dikkat edilmesi gereken noktalardan biri, kontekst vektörü xt,a her nokta

için gözlemlenirken vaka müdahale süresi sadece ambulansın yerle¸stirildi˘gi nokta için gözlemlenmektir. Bu nedenle kestirim yapılırken sadece o tur için gözlemlenen ödül ile güncelleme yapılmaktadır. Bir ba¸ska ifadeyle bir noktadaki vakaya müda-hale süresini ö˘grenebilmek için o noktaya ambulans yerle¸stir-memiz gerekmektedir. 0.5 ࢙૛: Yoğun Trafik ࢙૙: Açık Trafik ࢙૚: Az Trafik 0.6 0.05 0.05 0.2 0.25 0.75 0.25 0.35

¸Sekil 2: Her ambulans yerle¸stirme noktasına ba˘glanan kontekst vektörü elemanlarını modellerken kullanılan, üç de˘gi¸sik traﬁk durumundan olu¸san Markov zinciri örne˘gi.

LinUCB algoritması klasik kestirim yöntemlerinden biri olan do˘grusal en küçük kareler algoritmasıyla kar¸sıla¸stırılmı¸s-tır. Ambulans yerle¸simi problemine uyarlanmı¸s, θ∗ de˘gerini kestirmeye çalı¸san bu algoritma, Algoritma 2’de verilmi¸s-tir. Ba˘glamsal haydut problemlerinde oldu˘gu gibi üst güven limiti hesaplamak yerine, t turunda kestirilen θ∗ de˘gerine göre vakalara müdahale süresini enazlayan (rt’yi ençoklayan)

ambulans noktası at seçilmektedir. Algoritma güncellenirken

LinUCB’de oldu˘gu gibi gözlemlenmi¸s ödül rt ve kontekst

vektörleri[xt,a]a∈A kullanılmaktadır.

Algoritma 2 Do˘grusal En Küçük Kareler Algoritması (DEKK)

1: D ← 0T ×d,y ← 0T ×1 2: for t = 1,2,..., T do

3: Her ambulans noktası a ∈ A için traﬁk bilgisini

göz-lemle:xt,a∈ Rd×1 4: if t ≤ K then

5: Ambulans noktası at’yi seç ve müdahale süresini

gözlemle 1/rt,at {Ba¸slangıçta her noktaya bir kere ambulans yerle¸stir}

6: else

7: θ = (Dˆ TD)−1DT_y

8: Kestirilen ˆθ’ya göre ödülün beklenen de˘gerini ençok-layan ambulans noktasını seçat= arg maxa∈AxTt,aθˆ 9: Vakalara müdahale süresini τ_t gözlemle ve ödülü

hesaplart= 1/τt 10: end if

11: D matrisinin t. satırına xt,a_t’yi ekle

12: _{y vektörünün t. satırına r}_t’yi ekle

13: end for

IV. DENEYLER VETESTLER

Bu bölümde LinUCB ve do˘grusal en küçük kareler al-goritmaları, bir önceki bölümde bahsedilen traﬁk modelinde de˘gi¸sen ambulans noktası sayısıK ve kontekst vektörü boyutu d’ye göre kar¸sıla¸stırılmı¸stır. Test sayısı toplamda 10 olarak

alınmı¸stır. Yapılan testler ile10 test sonucunun algoritmaların rastgelelik özelliklerini yansıtmada ve adil bir ¸sekilde kar¸sıla¸s-tırılmalarında yeterli oldu˘gu saptanmı¸stır. Yer sıkıntısı yüzün-den bu testler eklenmemi¸stir. 10 test sonunda algoritmalarının sonuçlarının ortalaması alınarak Tablo I’de iki algoritmanın

(4)

TABLO I: d ve K de˘gerlerine göre 10000 turda

algo-ritmalarının zararlarının farklarına göre LinUCB’nin DEKK algoritmasına göre performans artı¸sı yüzdesi.

Ambulans Noktası Sayısı K

Kontekst Boyutu d 4 8 16 32

4 % 12.1 % 5.64 % 5.77 % 6.31 8 % 18.2 % 6.04 % 5.20 % 5.91 16 % 13.6 % 7.73 % 6.43 % 6.17 32 % 8.35 % 7.09 % 7.30 % 8.48

zararlarının farklarına göre LinUCB algoritmasının performans artı¸sı yüzdeleri verilmi¸stir. ¸Sekil 3’te ise 32 ambulans noktası ve 8 kontekst boyutlu traﬁk için 20000 turdaki zarar kar¸sıla¸s-tırması ve (2) ile kontekstler üzerine ko¸sullandırılmı¸s beklenen ödül de˘gerleri için güven aralı˘gı verilmi¸stir.

Tablo I’de de˘gi¸sen K ve d de˘gerlerine göre

algoritmala-rının zararlaalgoritmala-rının farklaalgoritmala-rının yüzdeleri RDEKK(T )−RLinUCB(T )

RDEKK(T ) ile hesaplanmı¸stır. T , 10000 olarak alınmı¸s ve zarar

fonksi-yonları (4) ile turlardaki toplam zarar olarak hesaplanmı¸stır. Tabloda LinUCB algoritmasının de˘gi¸sen ambulans yerle¸sim nokta sayısına ve kontekst boyutuna göre daha az zarar elde etti˘gi gösterilmi¸stir. Ayrıca, algoritma tanımlarında görülece˘gi üzere LinUCB ve DEKK algoritmalarının toplam tur sayısı

T için karma¸sıklıkları sırasıyla O(T d3+ 2T K(d2+ d)) ve

O(T d3 _{+ T}2_d2_{) olarak hesaplanabilir. T sayısı arttıkça}

he-saplama zamanları T ve T2 ile do˘gru orantılı artmaktadır. Bu yüzden simülasyonlar sırasındaT arttıkça LinUCB

algoritma-sının hesaplama zamanı olarak da DEKK algoritmasına üstün geldi˘gi gözlemlenmi¸stir.

¸Sekil 3.a’da görüldü˘gü üzere LinUCB algoritmasının top-lam20000 turdaki zararı DEKK algoritmasına göre daha azdır. ¸Sekil 3.b’de görüldü˘gü üzere turlar ilerledikçe ˆθ, θ∗’a yakın-samı¸s ve kontekstler üzerine ko¸sullandırılmı¸s beklenen ödül de˘gerleri E[rt,a|x_t,a] kestirimindeki güven aralı˘gı daralmı¸stır.

V. SONUÇLAR VETARTI ¸SMA

Bu çalı¸smada acil yardım sistemlerinden yerle¸sim problem-lerinden biri olan ambulans yerle¸stirme problemi ba˘glamsal haydut problemlerine benzetilerek ö˘grenme yapılmı¸stır. Tra-fi˘gin açık, az tıkalı, ya da yo˘gun oldu˘gu bilgisi kullanıla-rak, istatistiksel da˘gılımları algoritma tarafından bilinmeyen kontekst vektörleri olu¸sturulmu¸stur. Vaka müdahale süresiyle bu kontekstleri do˘grusal bir ¸sekilde birbiriyle ili¸skilendiren ve trafik kapasitesini belirten katsayısı vektörü ö˘grenilerek trafi˘gin açık oldu˘gu ö˘grenilen noktalara ambulans yerle¸simi yapılmı¸stır. Vaka müdahale süresiyle ilgili zarar fonksiyonu enazlanmı¸stır. Kullanılan ba˘glamsal haydut problemi algorit-ması LinUCB’nin klasik kestirim yöntemlerinden biri olan do˘grusal en küçük kareler yöntemine göre üstünlük sa˘gladı˘gı testlerle gösterilmi¸stir.

KAYNAKLAR

[1] A. Ingolfsson, S. Budge, and E. Erkut, “Optimal ambulance location with random delays and travel times,” Health Care Management Sci-ence, vol. 11, no. 3, pp. 262–274, 2008.

[2] P. P. Varaiya, U. Schweizer, and J. M. Hartwick, “A class of marko-vian problems related to the districting problem for urban emergency services,” Electronic Systems Laboratory, Massachusetts Institute of Technology, 1975. 7XU6D\LVL =DUDU /LQ8&%DOJRULWPDVL (QNXFXNNDUHOHUPHWRGX 7XU6D\LVL *XYHQ$UDOLJL

¸Sekil 3: (4) kullanılarak (a) LinUCB ve DEKK

algoritmaları-nın K = 32, d = 8, 10 test ve toplam T = 20000 tur için

zararları ve (b) turlara göre E[rt,a|xt,a] kestirimindeki güven

aralı˘gı.

[3] J. M. Chaiken and R. C. Larson, “Methods for allocating urban emergency units: a survey,” Management Science, vol. 19, no. 4-part-2, pp. P110–P130, 1972.

[4] W. R. Thompson, “On the likelihood that one unknown probability exceeds another in view of the evidence of two samples,” Biometrika, vol. 25, no. 3/4, pp. 285–294, 1933.

[5] T. L. Lai and H. Robbins, “Asymptotically efﬁcient adaptive allocation rules,” Advances in Applied Mathematics, vol. 6, no. 1, pp. 4–22, 1985. [6] S. Bubeck, N. Cesa-Bianchiet al., “Regret analysis of stochastic and nonstochastic multi-armed bandit problems,” Foundations and Trends in Machine Learning, vol. 5, no. 1, pp. 1–122, 2012.

[7] C. Tekin, O. Atan, and M. Van Der Schaar, “Discover the expert: Context-adaptive expert selection for medical diagnosis,” IEEE Tran-sactions on Emerging Topics in Computing, vol. 3, no. 2, pp. 220–234, 2015.

[8] C. Tekin, S. Zhang, and M. van der Schaar, “Distributed online learning in social recommender systems,” IEEE Journal of Selected Topics in Signal Processing, vol. 8, no. 4, pp. 638–652, 2014.

[9] L. Song, C. Tekin, and M. van der Schaar, “Online learning in large-scale contextual recommender systems,” IEEE Transactions on Services Computing, vol. 9, no. 3, pp. 433–445, 2016.

[10] L. Li, W. Chu, J. Langford, and R. E. Schapire, “A contextual-bandit approach to personalized news article recommendation,” Proceedings of the 19th International Conference on World Wide Web, ACM, pp. 661–670, 2010.

[11] W. Chu, L. Li, L. Reyzin, and R. E. Schapire, “Contextual bandits with linear payoff functions.” AISTATS, vol. 15, pp. 208–214, 2011. [12] T. J. Walsh, I. Szita, C. Diuk, and M. L. Littman, “Exploring compact

reinforcement-learning representations with linear regression,” Proce-edings of the Twenty-Fifth Conference on Uncertainty in Artiﬁcial Intelligence, AUAI Press, pp. 591–598, 2009.