5.Ders
Đstatistiksel Modelleme
Olguları anlama-anlatma işine modelleme dendiğini hatırlatalım. Model bir anlatım’dır (sözlü, matematiksel, istatistiksel, …) diyebiliriz.
Rasgelelik içeren bir olgu-özellik ile ilgilendiğimizde, ölçme sonucunda karşımıza bir rasgele değişken çıkmaktadır. Bu rasgele değişkenin dağılımı nedir?
Olgudaki dinamikler karşımıza nasıl bir dağılım ortaya çıkarmaktadır?
Kesikli rasgele değişkenler ile ilgili modelleme örnekleri arasında en çarpıcı olanlardan birisi Mendel’in bezelyeler üzerinde kalıtım ile ilgili yaptığı çalışmadır.
Sürekli rasgele değişkenler ile ilgili en önemli sayılabilecek modelleme örneği Gauss’un çalışmasıdır. Gauss, teleskopların ölçme hatalarını modellemeye çalışmıştır.
Örnek: Ölçme aletlerinin hatalarının modellenmesi.
(C.R.Rao “Linear Statistical Inference and Its Applications”).
Hatalar için aşağıdaki varsayımlar söz konusu olsun:
a) Rasgele değişken olan belli bir hata, küçük (istenildiği kadar küçük) ve aynı değeri alan çok sayıda hata bileşenlerinin toplamı olsun.
b) Her hata bileşeni için değerin pozitif veya negatif olma olasılığı eşit olsun.
c) Hata bileşenleri bağımsız olsun.
Her bir hata bileşeni küçük veε (ε >0) büyüklüğünde olup, +ε ile −ε değerlerini 2 1
olasılıkları ile alsın. Her bir hata bileşeninin ortalaması 0 ve varyansı ε2 dır. Hata bileşenleri Xn
X
X1
,
2,...,
ve hata X olmak üzere,Xn X
X
X = + +...+ 2 1 ve
0 ) ( ...
2) ( 1) ( )
( = + + + =
Xn E X
E X E X E
) 2 ( ...
2) ( 1)
( )
(X Var X Var X Var Xn nε
Var = + + + =
olur. Var(X)=nε2 =σ2 olacak şekilde, n→∞ için X in dağılımını bulmak için karakteristik
X in karakteristik fonksiyonu,
1
( ) ( ) ( ) ( )
1 2
n itX n
itX k it it
t E e E e e e
X k
ε ε
ϕ = =
∏
= = + − 1 2!2 2 4!4 4 ...n
t ε t ε
= − + +
olmak üzere,
2 2
2 2 1 2
1 ( )
2!
n t
t n
n o n
e
σ − σ
→ ∞
− + →
dır. Limitteki karakteristik fonksiyona karşılık gelen olasılık yoğunluk fonksiyonu,
2
2 2
1 1
( ) ( )
2 2
x itx
f x e ϕX t dt e σ
π πσ
∞ −
−
−∞
=
∫
=olup, bu, ortalaması 0, varyansı σ2 olan normal dağılımın olasılık yoğunluk fonksiyonudur.
Hatayı oluşturan bileşenlerin sayısı çok ve (a), (b), (c) şıklarındaki özellikler sağlanıyorsa hatanın dağılımı için yaklaşık olarak bu normal dağılımı alabiliriz.
Bir ölçme aleti için (a), (b), (c) şıklarındaki özellikler sağlanıyorsa ölçmelerde yaptığı hatanın normal dağılıma sahip olduğu söylenebilir. Hatanın doğası hakkında hiçbir şey bilinmiyorsa, gerektiğinde gözlemlerden bir sonuç çıkarılabilir. Belli bir dağılıma sahip olduğu varsayımında bulunuluyorsa gözlemlerden varsayımın doğruluğu sınanabilir (test edilebilir).
Örnek:
Belli bir tür sineğin yaşam süresi incelenmek istensin. Bir araştırmada, 1000 tane sinek 120 saat boyunca gözlem altına alınmış olsa ve her saat sonunda mevcut sineklerin yaklaşık olarak %2’sinin hayatını kaybettiği gözlenmiş olsa, bu sineklerin yaşam süresinin üstel dağılıma sahip olduğunu söylenebilir. Ölüm oranı (bozulma oranı, risk fonksiyonu, hazard fonksiyonu) zaman içinde sabit kalıyorsa, ilgili dağılım üstel dağılımdır. Ölüm oranı zaman ile doğrusal bir şekilde artıyorsa yaşam süresini modelleyen (anlatan) dağılım Weibull dağılımıdır diyebiliriz.Hatırlatma: Dayanma süresi (ömür, yaşam süresi) ile ilgili herhangi bir T rasgele değişkeni göz önüne alalım.
0
( / )
h(t)= lim , t 0
t
P t T t t T t
→ t
< ≤ + > ≥
△
△
△
fonksiyonuna güvenilirlik analizinde bozulma oranı, sağkalım analizinde ölüm oranı, genelde risk veya hazard fonksiyonu dendiğini biliyoruz.
h(t) t△ ≈P t( < ≤ +T t △t T/ >t)
olmak üzere, h(t) t△ değeri, t anına kadar bozulma olmadığı bilindiğinde ( ,t t+△t] zaman aralığında bozulma olma olasılığı olarak düşünülebilir. Buna göre,
( / )
h(t) t
P t< ≤ +T t t T >t
≈ △
△
olup, h(t) değeri birim zamanda bozulanların oranıdır. Bozulma oranı birim zamanda
0
( ) ( ) 1 ( ) 1 ( ) , t 0
t
R t =P T > = −t F t = −
∫
f t dt ≥( ) ( )
( ) dF t dR t '( )
f t R t
dt dt
= = − = −
0
( / )
h(t)= lim
t
P t T t t T t
→ t
< ≤ + >
△
△
△ 0
( ve T )
= lim
( )
t
P t T t t t
tP T t
→
< ≤ + >
>
△
△
△
0
( )
= lim
( )
t
P t T t t
→ tR t
< ≤ +
△
△
△
0
1 ( ) ( )
( )limt
F t t F t
R t → t
+ −
=
△
△
△ ( )
( ) f t
= R t '( )
= ( )
R t
− R t dır.
'( ) ( ) ( )
R t h t
R t = −
diferansiyel denkleminden,
0
( )
( ) (0)
t
h t dt
R t R e
−∫
=
olup, (0)R = −1 F(0)=1 olmak üzere,
0
( )
( )
t
h t dt
R t e
−∫
=
elde edilir. Böylece f , , , hF R fonksiyonlarından birinin bilinmesi durumunda diğerleri elde edilebilir.
0
( ) 0
( ) ( ) ( ) '( )
( ) 1 ( ) ( )
( ) ( ) 1 ( )
( )
( ) t
t h t dt
F t f t dt h t R t
R t F t R t
F t F t R t
f t dt R t e
f F R h
−∫
= = − =−
= = −
=
→ → →
← ← ←
∫
Dayanma süreleri rasgele olan belli bir tür, örneğin elektronik, parça için bozulma oranının, yani beli bir zamana kadar dayanan parçalardan bir birim zaman aralığında bozulanların oranının sabit kaldığı gözlenmiş olsun. O zaman,
( ) , 0
h t =c t≥ ve
<
≥
−
=
= − −
∫
−0 , 0
0 , 1 ) 1
( 0
t t e t e
F ct
cdt
t
>
= −
d.y.
, 0
0 , )
( ce t
t f
ct
dır, yani bu parçaların dayanma süresi üstel dağılıma sahiptir. Başka bir ifade ile bu parçaların dayanma süresi üstel dağılım ile modellenmektedir (anlatılmaktadır). Bu modelde c sabitinin değerinin bilinmesi gerektiğine dikkat edin.
Örnek:
Belli bir zaman aralığında trafik kazaları sayısı, bir mağazaya gelen müşteri sayısı;birim alanda bakteri sayısı, zararlı böcek sayısı,… gibi sayma ile elde edilen veriler için Poisson
Đstatistiksel modellemede olgudaki dinamikler ilgili dağılımı önerebilir, önermediğinde varsayım yapılıp sınanabilir, belli bir dağılım ailesinden veriye en
“uygun” olanı belirlenir, dağılımdan bağımsız yöntemler kullanılabilir.
Bu derste stokastik sebep
→sonuç bağıntısının modellenmesi üzerinde
duracağız. Regresyon Modelleri, Regresyon Ağaçları, Lineer Modeller, Deney
Tasarımı Modelleri ile ilgili bilgilerimizi kullanacağız. Önümüzdeki derste Lojistik
Regresyon, Poisson Regresyonu, Log-lineer Modeller gibi bazı Genelleştirilmiş
Lineer Modeller (Generalized Linear Models, GLM) kullanarak (en azından sezgi
düzeyinde) veri analizi yapmaya çalışacağız.
Aşağıdakileri gözden geçiriniz:
http://www.slidefinder.net/b/basit_dogrusal_regresyon_analizi_simple/veri_analizi_regresyon_analizi/14077117
Đst307 Regresyon Analizi (http://80.251.40.59/science.ankara.edu.tr/ozturk/ist307.html) 11. Ders : Model Kurma ve Analiz
12. Ders : Doğrusal Regresyon Modellerinin Bazı Uygulamaları
13. Ders : Ekonomi ve Diğer Alan Verileri Üzerinde Regresyon Çalışmaları
Đst306 Đstatistik Deney Tasarımı http://80.251.40.59/science.ankara.edu.tr/ozturk/ist306.html Bir Etkenli Deneyler
Bir Etkenli Rasgele Etkili Deneyler Đki Etkenli Deneyler
Üç Etkenli Deneyler Tekrarlamalı Ölçümler Kovaryans Analizi MANOVA
Uygulamalar
Minitab’da Regresyon Örnekleri
SPSS
Project:
The Body Fat data set is used for various analyses in this online training workshop. They are:
Kilo problemine ait veriler bu eğitimdeki çeşitli analizler için kullanılmaktadır.
Read Text data Correlation analysis
Regression and model diagnostics
Variable selection in regression modeling
Proje:
Kilo problemine ait veriler bu eğitimdeki çeşitli analizler için kullanılmaktadır.
• Veri metnini oku.
• Korelasyon analizi
• Regresyon ve model teşhisi
• Regresyon modelinde değişken seçimi Source of Data:
Verinin kaynağı:
Neter, Kutner, Nachtsheim, Wasserman, 1997, p. 261: Applied Statistical Models (4th Edition).
Description of Data:
Verinin Tanımlanması:
The data consists of 20 females whose age are between 25 and 30 years old.
Variables in the data set are:
25 ile 30 yaş arasındaki 20 bayandan oluşmaktadır.
y = amount of body fat
x1 = triceps skinfold thickness x2 = thigh circumference x3 = midarm circumference
Veri setindeki değişkenler aşağıdaki gibidir:
• y=kilonun miktarı
• x1=Deri kıvrım kalınlığı
• x2=Uyluk çevresi
• x3=Orta kol çevresi
The following is the Variable View in SPSS:
SPSS veri editoründe değişkenler verilmektedir:
Data sets for downloading: BodyFat.sav BodyFat.dat BodyFat.txt Analysis of Data:
Click on the following movie clips to learn how to read a text file, conduct correlation analysis and regression analysis:
Metin dosyasını nasıl okuyacağını, nasıl korelasyon ve regresyon analizi yapacağını öğrenmen için aşağıdaki linkte bir video klibi verilmiştir. Đzlemek için tıkla:
Click here to watch Reading Text
Click here to watch Bivariate and Partial Correlation Click here to watch Linear Regression - stats, plots
Click here to watch Linear Regression - Variable Selection
Regresyon Ağaçları:
Julian J. Faraway (2006) Extending The Linear Models with R, Hapman&Hall/CRC
13.Ders
> library(faraway)
> data(ozone)
> head(ozone)
O3 vh wind humidity temp ibh dpg ibt vis doy 1 3 5710 4 28 40 2693 -25 87 250 33 2 5 5700 3 37 45 590 -24 128 100 34 3 5 5760 3 51 54 1450 25 139 60 35 4 6 5720 4 69 35 1568 15 121 60 36 5 4 5790 6 19 45 2631 -33 123 100 37 6 4 5790 3 25 55 554 -28 1 82 250 38
> summary(ozone$O3)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.00 5.00 10.00 11.78 17.00 38.00
> table(ozone$O3)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 38 2 9 29 27 25 21 22 10 18 13 9 18 10 14 8 10 9 7 11 6 2 7 6 6 2 9 3 4 4 2 1 1 3 1 1
> boxplot(ozone$O3)
Bağımlı değişken ozon (O3): Y
> pairs(ozone)
Lineer Regresyon için açıklayıcı değişkenlerden bazıları uygun değildir.
>plot(ozone$O3,ozone$temp)
Regresyon Ağacı
> library(rpart)
> ozon=rpart(O3~. , ozone)
> plot(ozon) ; text(ozon)
> plot(ozon, compress=T,uniform=T) ; text(ozon)
> plot(ozon, compress=T,uniform=T,branch=0.4,margin=0.1)
> text(ozon)
x1=vh=5600 x2=wind=5 x3=humidity=64 x4=temp=70 x5=ibh=2112.5 x6=dpg=24 x7=ibt=167.5 x8=vis=120 x9=doy=205.5
ˆy =?
Sıcaklıktan başlayarak ağacın tepesinden inelim.
temp-ibt - humidity
sağ - sol - sağ - ˆy=14.09
Parametrik Olmayan Regresyon
Julian J. Faraway (2006) Extending The Linear Models with R, Hapman&Hall/CRC (sayfa:211)
> library(faraway);data(exa)
> head(exa)
x y m=m x( )=sin (23 πx3) 1 0.0048 -0.0339 0
2 0.0086 0.1654 0 3 0.0117 0.0245 0 4 0.0170 0.1784 0 5 0.0261 -0.3466 0 6 0.0299 -0.7550 0
> plot(exa$m~x)
> lines(exa$m~exa$x)
> plot(exa$y~exa$x)
> x=exa$x
> y=exa$y
> plot(y~x)
( ) , 1, 2,...,
i i i
y = f x + ε i = n
Yöntem: Çekirdek Tahmin Yöntemi Kernel Estimators: ksmooth
> fsapka=ksmooth(x,y)
> plot(y~x); lines(fsapka)
Yöntem: Yerel Polinomlar
loess (lowess) (Faraway: sayfa-221)
> fsapka2=loess(y~x)
> plot(y~x);lines(fsapka2$x,fsapka2$fitted)
Yöntem: Splayn Yaklaşımı Smoothing Splines: smooth.spline
> plot(y~x); lines(smooth.spline(y~x))
plot(y~x); lines(exa$m~exa$x) lines(ksmooth(x,y),lty=2)
fsapka2=loess(y~x); lines(fsapka2$x,fsapka2$fitted,lty=3) lines(smooth.spline(y~x),lty=4)