En ˙Iyi Konumlandırma için Ba˘glamsal Haydut
Problemleri ile Trafik Yo˘gunlu˘gunu Ö˘grenme
Learning Traffic Congestion by Contextual Bandit
Problems for Optimum Localization
Ümitcan ¸SAH˙IN
1,2, Veysel YÜCESOY
1, Aykut KOÇ
1, Cem TEK˙IN
21Akıllı Veri Analiti˘gi Ara¸stırma Program Müdürlü˘gü, ASELSAN Ara¸stırma Merkezi, Ankara 06370, Türkiye 2Elektrik ve Elektronik Mühendisli˘gi Bölümü, Bilkent Üniversitesi, Ankara 06800, Türkiye
{ucsahin,vyucesoy,aykutkoc}{at}aselsan.com.tr, cemtekin{at}ee.bilkent.edu.tr
Özetçe —Gerçek hayatta pek çok kar¸sılı˘gı olan (acil yardım
sistemleri, komuta kontrol sistemleri, stok tesisleri, malzeme sevkiyat planları gibi) en iyi konumun tespiti problemi varma, müdahale veya dönü¸s süresi gibi uygulama alanına göre ha-yati öneme sahip olabilecek bir hedefi, en aza indirecek en iyi konumlanma noktasını tespit etmeyi hedeflemektedir. Bu problemlerin büyük kısmında problemi zorla¸stıran temel unsur trafik durumunun bilinmezli˘gidir ve literatürde genel olarak bu bilinmezli˘gin belirli bir da˘gılıma uydu˘gu kabul edilmektedir. Bu çalı¸smada, uygulama alanı olarak acil yardım sistemleri için ambulans konumlarının en iyilenmesi ele alınmı¸s; bir ¸sehirdeki trafik durumunun Markov süreçleri ile modellenmesi sonucu problem tanımlanmı¸stır. Literatürdeki çözümlerden farklı olarak, problemi modelleyen algoritma ile çözen arasında bilgi akı¸sı kesilerek, haydut problemi yakla¸sımının trafik hakkında nere-deyse hiçbir kabul yapmadan zaman içerisinde trafik durumunu ö˘grenmesi hedeflenmi¸stir. Sonuçlar klasik kestirim sonuçları ile kıyaslanarak ö˘grenme yapılmasının faydaları ortaya konmu¸stur.
Anahtar Kelimeler—Acil yardım sistemleri, en iyi konum tespiti, ba˘glamsal haydut problemleri.
Abstract—Optimum localization problem, which has a wide
range of application areas in real life such as emergency services, command and control systems, warehouse localization, shipment planning, aims to find the best location to minimize the arrival, response or return time which might be vital in some applications. In most of the cases, uncertainty in traffic is the most challenging issue and in the literature generally it is assumed to obey a priori known stochastic distribution. In this study, problem is defined as the optimum localization of ambulances for emergency services and traffic is modeled to be Markovian to generate context data. Unlike the solution methods in the literature, there exists no mutual information transfer between the model and solution of the problem; thus, a contextual multi-armed bandit learner tries to determine the underlying traffic with simple assumptions. The performance of the bandit algorithm is compared with the performance of a classical estimation method in order to show the effectiveness of the learning approach on the solution of the optimum localization problem.
Keywords—Emergency medical systems, best location detection, contextual bandit problems.
I. G˙IR˙I ¸S
Acil servis sistemlerinde yerle¸sim problemlerinden biri olan ambulans yerle¸stirme problemi, üzerinde uzun yıllardır çalı¸sılmı¸s ara¸stırma konularından biridir. Vaka müdahale süre-sini azaltmak için birçok yöntem geli¸stirilmi¸stir. Bu yöntemler-den ba¸slıcaları hiperküp modellemesi ve tamsayı programlama (integer programming) olarak gösterilebilir [1]–[3].
Bahsedilen çalı¸smalarda ambulansların yerle¸stirilece˘gi böl-geler belirlenirken altta yatan istatistiksel özelliklerin belirli da˘gılımlarla modellendi˘gi ve bu modellerin bilindi˘gi varsa-yılmı¸stır. Halbuki gerçek hayatta acil yardım sistemlerinin vakaya müdahale süresini etkileyen, ba¸sta trafik olmak üzere istatistiksel da˘gılımları hassas bir ¸sekilde önceden bilineme-yecek birçok etken vardır. Bu nedenle, ambulans yerle¸stirme problemi çözülürken geli¸stirilen yöntemlerin gerçek hayatta uygulanabilir olması ve ba¸sarı sa˘glayabilmesi için bu etken-lerin altında yatan da˘gılımların ö˘grenilmesi gerekmektedir. Bu çalı¸smada ba˘glamsal bir haydut problemi (contextual bandit problem) algoritması ile bu da˘gılımların etkili bir ¸sekilde ö˘grenilebildi˘gi gösterilmi¸stir.
Çok kollu haydut problemlerinin (multi-armed bandit prob-lems) çıkı¸s noktası, ke¸sif (exploration) ve istifade (exploitation) arasındaki ödünle¸simdir (trade-off) [4], [5]. Bu ödünle¸sim ¸su soruyla açıklanabilir: bir kumarhane kapanana kadar geçen
T sürede, K tane slot makinesinde oyun oynayarak
kazana-ca˘gı ödülü ençoklamak isteyen bir ki¸si, hangi makineleri kaç kere ve hangi sırayla oynamalıdır? Bu ki¸si makinelerin hangi da˘gılımla ödül verdi˘gini bilmedi˘gi için sürekli ke¸sif yaparak bu da˘gılımları ö˘grenmeye çalı¸smalıdır. Aynı zamanda en yük-sek ödülü verdi˘gini dü¸sündü˘gü makineden de sürekli istifade ederek kazancı ençoklamalıdır. Çok kollu haydut problemleri algoritmaları bu ve buna benzer ke¸sif ve istifade arasında bir denge kurulması gereken birçok soruya cevap vermektedir [6]. Ba˘glamsal haydut problemlerinde ise çok kollu haydut problemlerinden farklı olarak her kolla ili¸skilendirilmi¸s bir kontekst (ba˘glam) bilgisi vardır. Bu kontekst henüz kol seçimi yapılmadan önce algoritma tarafından gözlemlenmekte ve kol seçiminde kullanılmaktadır. Bugüne kadar, tavsiye sistemle-rinden sa˘glık uygulamalarına kadar birçok alanda ba˘glamsal haydut problemi algoritmaları kullanılmı¸stır [7]–[9]. Fakat bildi˘gimiz kadarıyla ¸su ana kadar konum eniyileme
rında bir uygulaması olmamı¸stır.
Bu çalı¸smada, ambulans yerle¸stirilecek noktalar ö˘grenilir-ken, trafi˘gin durumu (az tıkalı, açık ve yo˘gun gibi) kontekst bilgisi olarak kullanılmı¸stır. Problem çözümünde ba˘glamsal haydut algoritmalarından biri olan LinUCB [10] algoritması kullanılmı¸stır. LinUCB algoritmasına göre ödüllerin beklenen de˘geri, kontekst vektörünün do˘grusal bir fonksiyonudur. Bu algoritmanın seçilmesindeki etkenler, UCB1 gibi ba˘glamsal olmayan haydut algoritmalarına kar¸sı üstünlük sa˘glaması, ger-çek uygulamalardaki performansı ve kolay uygulanabilir [10] olması ¸seklinde sıralanabilir.
Bölüm II’de LinUCB algoritmasının çözdü˘gü genel prob-lemin ve ambulans yerle¸stirme probprob-leminin tanımı yapılmı¸s ve trafik modeli verilmi¸stir. Bölüm III’te LinUCB algoritması ve bu algoritmanın kar¸sıla¸stırıldı˘gı klasik kestirim yöntemlerinden olan do˘grusal en küçük kareler (DEKK) yöntemi verilmi¸stir. Bölüm IV’te kullanılan trafik modeline göre algoritmaların performansları kıyaslanmı¸stır. Son bölümde ise elde edilen sonuçlar tartı¸sılmı¸stır.
II. PROBLEMTANIMI VETRAFIKMODELLEMESI
Bu bölümde LinUCB algoritması için genel problem for-mülasyonu verilip [10], [11], ambulans yerle¸sim problemi tanımı yapılmı¸s ve deneylerde kullanılacak trafik modeli ve-rilmi¸stir. Aksi belirtilmedikçe problem tanımında kullanılan matrisler, büyük ve kalın harflerle, vektörler ise küçük harflerle gösterilmi¸stir. Vektörler, sütun vektör olarak verilmi¸stir. E[·] beklenti (expectation) i¸slemini göstermekte kullanılmı¸stır.rt,a,
haydut kolu a’nın t turunda aldı˘gı ödülü ifade etmektedir.
Toplam tur sayısıT ve kol sayısı K olarak alınmı¸stır ve kol
kümesi A ile gösterilmi¸stir. Ba˘glamsal haydut problemi kol-larının beklenen ödüllerinin, d-boyutlu kontekst vektörü xt,a
ile bilinmeyen katsayı vektörü θ∗’in do˘grusal bir fonksiyonu oldu˘gu varsayımı yapılmaktadır:
E[rt,a|xt,a] = xTt,aθ∗. (1)
Analizin kolaylı˘gı için rt,a ∈ [0, 1], xt,a ≤ 1 ve
θ∗ ≤ 1 varsayımları yapılmı¸stır ve · ,
2-norm i¸slemidir.
Bu varsayımlar, ölçekleme (scaling) yapılarak giderilebilir. θ∗’yi kestirmek için, t turunda a kolu için daha önce m
kere gözlemlenmi¸s[xτ,aτ]τ ∈{1,...,m}kontekst vektöründen
olu-¸sanm×d boyutlu Damatrisini vem kere a kolu oynadı˘gında
alınan ödüllerden [rτ,aτ]τ ∈{1,...,m} olu¸san m × 1 boyutlu ya
vektörünü tanımlanmı¸stır. (Da, ya) verisine ridge regresyonu
uyguladı˘gımızda θ∗’i a¸sa˘gıda verildi˘gi gibi kestirebiliriz: ˆθ =DT
aDa+ Id
−1
DT aya
[12]’de kullanılan yönteme benzer bir ¸sekilde kestirimin güven aralı˘gı herhangi bir δ > 0 için en az 1 − δ olasılıkla
a¸sa˘gıda verildi˘gi gibi hesaplanabilir:
xTt,aθ − E[rˆ t,a|xt,a] ≤ α
xTt,a DT aDa+ Id −1 xt,a (2)
α sabiti, 1 + log(2/δ)/2 olarak alınmı¸stır. (2)’de verilen
e¸sitsizli˘gin sa˘g tarafındaki ifade güven aralı˘gını belirleyen üst
güven limitidir. (2) kullanılarak kol seçim stratejisi a¸sa˘gıda verildi˘gi gibi tanımlanabilir:
at:= arg max a∈A xTt,aθ + αˆ xTt,aA−1xt,a (3) Kolaylık için A := (DTaDa+ Id) matrisi tanımlanmı¸stır.
Bu çalı¸smada kullanılan trafik modeline ¸Sekil 1’de gös-terilen sistem örnek olarak verilebilir. Her ai, ambulansın
her tur t için yerle¸stirilebilece˘gi noktaları göstermektedir. Bu
noktalar birbirlerine ¸Sekil 1.a’da gösterildi˘gi gibi tek yönlü yollarla ba˘glanmı¸stır ve bu yollar üzerindeki trafik[xt,a]a∈A, kontekst vektörlerini olu¸sturmaktadır. Ambulans yerle¸stirme probleminde gelen vakaya müdahale süresi τt,at ∈ [1, ∞) olarak tanımlanmı¸stır. τt,at, rastgele bir de˘gi¸sken oldu˘gu için amacımız τt,at’nun T turda toplam beklenen de˘gerini,
T
t=1E[τt,at], enazlayan noktalara ambulans yerle¸simi yap-maktır. Algoritmadan kullanılan ödüller, vaka müdahale süresi cinsindenrt,at = 1/τt,at ∈ [0, 1] olarak ifade edilebilir.
Ambulans yerle¸stirme probleminde θ∗, yolların kapasitesi olarak alınmı¸stır. Amacımız yollar üzerindeki trafik bilgisi
xt,akontekstlerini kullanarak yolların kapasitelerini kestirmek
ve yapılan kestirime göre beklenen vaka müdahale süresini enazlayan (ya da ödülrt’yi ençoklayan) noktaya her turda bir
tane ambulans yerle¸stirmektir. LinUCB algoritmasının perfor-mansı hesaplanırken zarar (R(T )) fonksiyonu kullanılmı¸stır ve
denklemi (4)’te verilmi¸stir. Bu fonksiyon,θ∗de˘gerini bilen ve her turda (1)’i ençoklayan kolu seçen stratejinin her turda elde etti˘gi ödülün beklenen de˘geriyle, (3)’e göre at kolunu seçen
bir algoritma A’nın elde edece˘gi ödülün beklenen de˘gerinin
farkı olarak tanımlanmı¸stır:
R(T ) := T t=1 μ∗t− T t=1 E[rt,at] (4)
t turunda θ∗’a göre en iyi kol, a∗t := arg maxa∈AtxTt,aθ∗
ve bu kolun ödülünün beklenen de˘geriμ∗t := maxa∈AtxTt,aθ∗
olarak tanımlanmı¸stır.
¸Sekil 1’de gösterildi˘gi gibi ambulans noktalarına ba˘glanan yolların sayısı yani kontekst vektörlerinin boyutları hera için
farklı olabilmektedir. Bu durumda her kol tarafından payla¸sılan ortak bir θ∗ kestirmek yerine her kol a için ayrı ayrı katsayı
vektörü θ∗a kestirmek gerekmektedir. Bu çalı¸smada kolaylık açısından bütün ambulans noktalarının e¸sit boyutlara sahip trafik bilgisi kontekstleri oldu˘gu varsayımı yapılmaktadır ve θ∗ bütün kollar tarafından payla¸sılmaktadır.
¸Sekil 2’de her turda her bir kontekst vektörü olu¸sturulurken kullanılan ve trafi˘gin durumunu modelleyen Markov zinciri ve-rilmi¸stir.s0,s1ves2durumları trafi˘gin açık, az tıkalı ve yo˘gun
oldu˘gu durumlara kar¸sılık gelmektedir ve sırasıyla(0.8, 1.0), [0.3, 0.8], (0, 0.3) arasında tanımlı tekdüze (uniform) olasılık da˘gılımlarına sahiplerdir. Ba¸slangıçta trafik bilgisini içeren kontekst vektörü, (0, 1) arasında tanımlı tekdüze da˘gılımdan her ambulans noktası içind örnek alınarak olu¸sturulmaktadır.
Daha sonra her turda konteksler ¸Sekil 2’de verilen geçi¸s olasılıklarına göre güncellenmekte ve normalle¸stirilmektedir.
Bu çalı¸smada geçi¸s olasılıkları turlara göre dura˘gan∗
(stati-∗Algoritmaların analiz kolaylı˘gı için geçi¸s olasılıkları dura˘gan alınmı¸stır.
LinUCB algoritması, ¸Sekil 2’de görülen stokastik dura˘gan geçi¸s olasılıkları varsayımı yapılmadan da ba¸sarılı bir ¸sekilde çalı¸smaktadır [10].
ܽଵ ܽଶ ܽଷ ܽସ ܽଽ ݔ௧ǡଶ ܽଵ ܽଵଵ ܽଵଶ ଼ܽ ܽ ܽହ ܽ ݔ௧ǡଵଶ ݔ௧ǡଷଵ ݔ௧ǡଶଶ ݔ௧ǡସଵ ݔ௧ǡଷଶ ݔ௧ǡହଵ ݔ௧ǡସଶ ݔଶ௧ǡଵଶ ݔ௧ǡହଷ ݔ௧ǡହଶ ݔ௧ǡଶ ݔ௧ǡଵଵଵ ݔ௧ǡଵଶ ݔ௧ǡ଼ଶ ݔ௧ǡ଼ଵ ݔ௧ǡ଼ଷ ݔ௧ǡଽଵ ݔ௧ǡଵଵ ݔ௧ǡଽଶ ݔ௧ǡଵ ݔ௧ǡଵ ݔ௧ǡଵଶଵ ݔ௧ǡଵଵଶ ݔ௧ǡଵଵ ݔ௧ǡଶଵ
¸Sekil 1: Ambulans yerle¸stirme noktasıai’ye ba˘glanan ve trafik
bilgisini içeren tek yönlü yollardan olu¸san kontekst vektörü modeli örne˘gi
onary) kabul edilmektedir ve algoritmalar tarafından bilinme-mektedir.
Bir sonraki bölümde, deneyler ve testlerde kar¸sıla¸stırılacak LinUCB ve do˘grusal en küçük kareler (DEKK) algoritmaları verilmi¸stir.
III. ALGOR˙ITMATANIMLARI
Algoritma 1 Do˘grusal Modelli LinUCB Algoritması
1: Girdi:α ∈ R+
2: A ← Id {d × d birim matris}
3: b ← 0d×1
4: for t = 1,2,3,..., T do
5: Her ambulans noktası a ∈ A için trafik bilgisini
göz-lemle:xt,a∈ Rd×1 6: θ ← Aˆ −1b 7: for all a ∈ A do 8: pt,a← ˆθTxt,a+α
xTt,aA−1xt,a{Her nokta için üst
güven limitlerini hesapla}
9: end for
10: pt,a’yi ençoklayan at ambulans noktasını seç: at =
arg maxa∈Apt,a
11: Vakalara müdahale süresini τt gözlemle ve ödülü
he-saplart= 1/τt 12: A ← A + xt,atxTt,at 13: b ← xt,atrt
14: end for
LinUCB algoritması Algoritma1’de verilmi¸stir. 8. adımda (2) ile her ambulans noktası için trafik bilgisi kontekstleri kullanılarak üst güvenlik limiti hesaplanmaktadır. 10. adımda
iset turunda en yüksek güven limitine sahip ambulans noktası
seçilmektedir ve bu bu noktaya kar¸sılık gelen vaka müdahale süresi gözlemlenmektedir. Problem tanımında dikkat edilmesi gereken noktalardan biri, kontekst vektörü xt,a her nokta
için gözlemlenirken vaka müdahale süresi sadece ambulansın yerle¸stirildi˘gi nokta için gözlemlenmektir. Bu nedenle kestirim yapılırken sadece o tur için gözlemlenen ödül ile güncelleme yapılmaktadır. Bir ba¸ska ifadeyle bir noktadaki vakaya müda-hale süresini ö˘grenebilmek için o noktaya ambulans yerle¸stir-memiz gerekmektedir. 0.5 ࢙: Yoğun Trafik ࢙: Açık Trafik ࢙: Az Trafik 0.6 0.05 0.05 0.2 0.25 0.75 0.25 0.35
¸Sekil 2: Her ambulans yerle¸stirme noktasına ba˘glanan kontekst vektörü elemanlarını modellerken kullanılan, üç de˘gi¸sik trafik durumundan olu¸san Markov zinciri örne˘gi.
LinUCB algoritması klasik kestirim yöntemlerinden biri olan do˘grusal en küçük kareler algoritmasıyla kar¸sıla¸stırılmı¸s-tır. Ambulans yerle¸simi problemine uyarlanmı¸s, θ∗ de˘gerini kestirmeye çalı¸san bu algoritma, Algoritma 2’de verilmi¸s-tir. Ba˘glamsal haydut problemlerinde oldu˘gu gibi üst güven limiti hesaplamak yerine, t turunda kestirilen θ∗ de˘gerine göre vakalara müdahale süresini enazlayan (rt’yi ençoklayan)
ambulans noktası at seçilmektedir. Algoritma güncellenirken
LinUCB’de oldu˘gu gibi gözlemlenmi¸s ödül rt ve kontekst
vektörleri[xt,a]a∈A kullanılmaktadır.
Algoritma 2 Do˘grusal En Küçük Kareler Algoritması (DEKK)
1: D ← 0T ×d,y ← 0T ×1 2: for t = 1,2,..., T do
3: Her ambulans noktası a ∈ A için trafik bilgisini
göz-lemle:xt,a∈ Rd×1 4: if t ≤ K then
5: Ambulans noktası at’yi seç ve müdahale süresini
gözlemle 1/rt,at {Ba¸slangıçta her noktaya bir kere ambulans yerle¸stir}
6: else
7: θ = (Dˆ TD)−1DTy
8: Kestirilen ˆθ’ya göre ödülün beklenen de˘gerini ençok-layan ambulans noktasını seçat= arg maxa∈AxTt,aθˆ 9: Vakalara müdahale süresini τt gözlemle ve ödülü
hesaplart= 1/τt 10: end if
11: D matrisinin t. satırına xt,at’yi ekle
12: y vektörünün t. satırına rt’yi ekle
13: end for
IV. DENEYLER VETESTLER
Bu bölümde LinUCB ve do˘grusal en küçük kareler al-goritmaları, bir önceki bölümde bahsedilen trafik modelinde de˘gi¸sen ambulans noktası sayısıK ve kontekst vektörü boyutu d’ye göre kar¸sıla¸stırılmı¸stır. Test sayısı toplamda 10 olarak
alınmı¸stır. Yapılan testler ile10 test sonucunun algoritmaların rastgelelik özelliklerini yansıtmada ve adil bir ¸sekilde kar¸sıla¸s-tırılmalarında yeterli oldu˘gu saptanmı¸stır. Yer sıkıntısı yüzün-den bu testler eklenmemi¸stir. 10 test sonunda algoritmalarının sonuçlarının ortalaması alınarak Tablo I’de iki algoritmanın
TABLO I: d ve K de˘gerlerine göre 10000 turda
algo-ritmalarının zararlarının farklarına göre LinUCB’nin DEKK algoritmasına göre performans artı¸sı yüzdesi.
Ambulans Noktası Sayısı K
Kontekst Boyutu d 4 8 16 32
4 % 12.1 % 5.64 % 5.77 % 6.31 8 % 18.2 % 6.04 % 5.20 % 5.91 16 % 13.6 % 7.73 % 6.43 % 6.17 32 % 8.35 % 7.09 % 7.30 % 8.48
zararlarının farklarına göre LinUCB algoritmasının performans artı¸sı yüzdeleri verilmi¸stir. ¸Sekil 3’te ise 32 ambulans noktası ve 8 kontekst boyutlu trafik için 20000 turdaki zarar kar¸sıla¸s-tırması ve (2) ile kontekstler üzerine ko¸sullandırılmı¸s beklenen ödül de˘gerleri için güven aralı˘gı verilmi¸stir.
Tablo I’de de˘gi¸sen K ve d de˘gerlerine göre
algoritmala-rının zararlaalgoritmala-rının farklaalgoritmala-rının yüzdeleri RDEKK(T )−RLinUCB(T )
RDEKK(T ) ile hesaplanmı¸stır. T , 10000 olarak alınmı¸s ve zarar
fonksi-yonları (4) ile turlardaki toplam zarar olarak hesaplanmı¸stır. Tabloda LinUCB algoritmasının de˘gi¸sen ambulans yerle¸sim nokta sayısına ve kontekst boyutuna göre daha az zarar elde etti˘gi gösterilmi¸stir. Ayrıca, algoritma tanımlarında görülece˘gi üzere LinUCB ve DEKK algoritmalarının toplam tur sayısı
T için karma¸sıklıkları sırasıyla O(T d3+ 2T K(d2+ d)) ve
O(T d3 + T2d2) olarak hesaplanabilir. T sayısı arttıkça
he-saplama zamanları T ve T2 ile do˘gru orantılı artmaktadır. Bu yüzden simülasyonlar sırasındaT arttıkça LinUCB
algoritma-sının hesaplama zamanı olarak da DEKK algoritmasına üstün geldi˘gi gözlemlenmi¸stir.
¸Sekil 3.a’da görüldü˘gü üzere LinUCB algoritmasının top-lam20000 turdaki zararı DEKK algoritmasına göre daha azdır. ¸Sekil 3.b’de görüldü˘gü üzere turlar ilerledikçe ˆθ, θ∗’a yakın-samı¸s ve kontekstler üzerine ko¸sullandırılmı¸s beklenen ödül de˘gerleri E[rt,a|xt,a] kestirimindeki güven aralı˘gı daralmı¸stır.
V. SONUÇLAR VETARTI ¸SMA
Bu çalı¸smada acil yardım sistemlerinden yerle¸sim problem-lerinden biri olan ambulans yerle¸stirme problemi ba˘glamsal haydut problemlerine benzetilerek ö˘grenme yapılmı¸stır. Tra-fi˘gin açık, az tıkalı, ya da yo˘gun oldu˘gu bilgisi kullanıla-rak, istatistiksel da˘gılımları algoritma tarafından bilinmeyen kontekst vektörleri olu¸sturulmu¸stur. Vaka müdahale süresiyle bu kontekstleri do˘grusal bir ¸sekilde birbiriyle ili¸skilendiren ve trafik kapasitesini belirten katsayısı vektörü ö˘grenilerek trafi˘gin açık oldu˘gu ö˘grenilen noktalara ambulans yerle¸simi yapılmı¸stır. Vaka müdahale süresiyle ilgili zarar fonksiyonu enazlanmı¸stır. Kullanılan ba˘glamsal haydut problemi algorit-ması LinUCB’nin klasik kestirim yöntemlerinden biri olan do˘grusal en küçük kareler yöntemine göre üstünlük sa˘gladı˘gı testlerle gösterilmi¸stir.
KAYNAKLAR
[1] A. Ingolfsson, S. Budge, and E. Erkut, “Optimal ambulance location with random delays and travel times,” Health Care Management Sci-ence, vol. 11, no. 3, pp. 262–274, 2008.
[2] P. P. Varaiya, U. Schweizer, and J. M. Hartwick, “A class of marko-vian problems related to the districting problem for urban emergency services,” Electronic Systems Laboratory, Massachusetts Institute of Technology, 1975. 7XU6D\LVL =DUDU /LQ8&%DOJRULWPDVL (QNXFXNNDUHOHUPHWRGX 7XU6D\LVL *XYHQ$UDOLJL
¸Sekil 3: (4) kullanılarak (a) LinUCB ve DEKK
algoritmaları-nın K = 32, d = 8, 10 test ve toplam T = 20000 tur için
zararları ve (b) turlara göre E[rt,a|xt,a] kestirimindeki güven
aralı˘gı.
[3] J. M. Chaiken and R. C. Larson, “Methods for allocating urban emergency units: a survey,” Management Science, vol. 19, no. 4-part-2, pp. P110–P130, 1972.
[4] W. R. Thompson, “On the likelihood that one unknown probability exceeds another in view of the evidence of two samples,” Biometrika, vol. 25, no. 3/4, pp. 285–294, 1933.
[5] T. L. Lai and H. Robbins, “Asymptotically efficient adaptive allocation rules,” Advances in Applied Mathematics, vol. 6, no. 1, pp. 4–22, 1985. [6] S. Bubeck, N. Cesa-Bianchiet al., “Regret analysis of stochastic and nonstochastic multi-armed bandit problems,” Foundations and Trends in Machine Learning, vol. 5, no. 1, pp. 1–122, 2012.
[7] C. Tekin, O. Atan, and M. Van Der Schaar, “Discover the expert: Context-adaptive expert selection for medical diagnosis,” IEEE Tran-sactions on Emerging Topics in Computing, vol. 3, no. 2, pp. 220–234, 2015.
[8] C. Tekin, S. Zhang, and M. van der Schaar, “Distributed online learning in social recommender systems,” IEEE Journal of Selected Topics in Signal Processing, vol. 8, no. 4, pp. 638–652, 2014.
[9] L. Song, C. Tekin, and M. van der Schaar, “Online learning in large-scale contextual recommender systems,” IEEE Transactions on Services Computing, vol. 9, no. 3, pp. 433–445, 2016.
[10] L. Li, W. Chu, J. Langford, and R. E. Schapire, “A contextual-bandit approach to personalized news article recommendation,” Proceedings of the 19th International Conference on World Wide Web, ACM, pp. 661–670, 2010.
[11] W. Chu, L. Li, L. Reyzin, and R. E. Schapire, “Contextual bandits with linear payoff functions.” AISTATS, vol. 15, pp. 208–214, 2011. [12] T. J. Walsh, I. Szita, C. Diuk, and M. L. Littman, “Exploring compact
reinforcement-learning representations with linear regression,” Proce-edings of the Twenty-Fifth Conference on Uncertainty in Artificial Intelligence, AUAI Press, pp. 591–598, 2009.