Okul Dışı Alanlar: - Alan Gezileri Yapılabilecek Mekanlar

2.8. Alan Gezileri Yapılabilecek Mekanlar

2.8.2. Okul Dışı Alanlar:

De acordo comKalbfleisch e Prentice(2002), existem muitos m´etodos formais, bem como, informais de avaliar a qualidade do ajuste de um modelo espec´ıfico aos dados ou a sele¸c˜ao de um melhor entre v´arios concorrentes. Dentre os m´etodos formais, destaca-se os que s˜ao baseados em teste de hip´oteses e os informais, que s˜ao subjetivos e geralmente envolvem t´ecnicas gr´aficas. Diante disso, na aplica¸c˜ao apresentada no Cap´ıtulo 6 para sele¸c˜ao dos modelos, foram considerados os seguintes crit´erios:

❼ Crit´erio gr´afico: esse crit´erio ´e amplamente difundido em an´alise de dados de sobre- vivˆencia e consiste basicamente em comparar a curva de sobrevivˆencia estimada, utilizando o estimador de Kaplan-Meier com as curvas de sobrevivˆencia estimadas, conforme os modelos propostos. O modelo mais adequado ´e aquele em que sua curva de sobrevivˆencia mais se aproxima da curva de Kaplan-Meier;

❼ Teste da raz˜ao de verossimilhan¸cas: essa forma de discriminar modelos ´e por meio de teste de hip´oteses e, em geral, para utilizar esse teste necessita-se identificar um modelo generalizado, tal que, os modelos a serem discriminados sejam seus casos particulares, ou seja, inserindo alguma restri¸c˜ao sobre o vetor de parˆametros do modelo geral, obtem-se o modelo que ser´a avaliado a adequa¸c˜ao. Formalmente, o que deseja-se ´e fazer inferˆencia sobre uma parti¸c˜ao do vetor de parˆametros ψ. Sendo assim, considere de modo geral que ψ =ψ⊤₁, ψ⊤₂⊤ e que o interesse seja testar as seguintes hip´oteses:

H0 : ψ₁ = ψ₁₀ versus H1 : ψ₁ 6= ψ₁₀,

em que ψ10 ´e um vetor de valores especificados para ψ1, de modo a obter-se o modelo a ser discriminado, isto ´e, o modelo restrito. A estat´ıstica do teste da raz˜ao de verossimilhan¸cas pode ser obtida da seguinte forma:

SRV = 2

lψˆ₁, ˆψ₂; D− lψ₁₀, ˜ψ₂; Di,

sendo ˜ψ₂ a estimativa de m´axima verossimilhan¸ca de ψ2, dado que ψ1 = ψ10. Assim, considerando algumas condi¸c˜oes gerais de regularidade, pode-se mostrar que sob H0 essa estat´ıstica tem aproximadamente distribui¸c˜ao qui-quadrado com graus de liberdade determinado pela dimens˜ao de ψ₁;

❼ Crit´erio de Informa¸c˜ao Akaike (AIC): esse crit´erio ´e fundamentado na informa¸c˜ao de Kullback-Leiber e foi desenvolvido por Akaike (1974). ´E uma medida relativa a quantidade de informa¸c˜ao perdida por se usar um modelo aproximado, pois admite a existˆencia de um modelo verdadeiro que descreve os dados, que ´e desconhecido e, tenta escolher dentre um grupo de modelos avaliados o que minimiza a informa¸c˜ao de Kullback-Leiber. A estimativa do AIC pode ser obtida da seguinte forma:

AIC = −2lψb; D+ 2p,

em que lψb; D´e o valor do logaritmo da fun¸c˜ao de verossimilhan¸ca do modelo a ser avaliado e p representa o n´umero de parˆametros que indexam este modelo. Neste contexto, ´e dito que um particular modelo ´e o melhor se este apresentar o menor valor de AIC;

❼ Criterio de Informa¸c˜ao Bayesiano (BIC): esse crit´erio foi proposto por Schwarz et al.

(1978), e consiste em selecionar os modelos em termos da probabilidade a posteriori. Diferente do AIC, esse pressup˜oe que entre os modelos a serem avaliados existe o modelo verdadeiro, ou seja, aquele que melhor descreve o mecanismo gerador dos dados. Por isto, ele ´e definido como a estat´ıstica que maximiza a probabilidade de se identificar o verdadeiro modelo dentre os avaliados. O valor do crit´erio BIC para um particular modelo ´e dado por:

BIC = −2lψb; D+ 2p ln (n) ,

em que lψb; D´e o valor do logaritmo da fun¸c˜ao de verossimilhan¸ca do modelo a ser avaliado, p representa o n´umero de parˆametros que indexam este modelo e n o n´umero de elementos na amostra. Analogamente ao AIC, quanto menor a estimativa do BIC, maior ´e a evidˆencia que tal modelo descreve o mecanismo gerador dos dados.

Deve-se salientar, que o teste da raz˜ao de verossimilhan¸cas somente deve ser utilizado nas situa¸c˜oes em que as condi¸c˜oes de regularidade sobre o modelo s˜ao satisfeitas, pois mesmo com uma parametriza¸c˜ao alternativa adequada alguns dos submodelos da

Cap´ıtulo 3. Modelando dados de sobrevivˆencia com fra¸c˜ao de cura 45

log-F generalizada s˜ao obtidos quando a hip´otese nula coloca o parˆametro na fronteira do espa¸co param´etrico, o que representa viola¸c˜ao de uma das condi¸c˜oes de regularidade. Neste casos, n˜ao pode-se garantir que a distribui¸c˜ao aproximada da estat´ıstica da raz˜ao de verossimilhan¸cas seja qui-quadrado (CASELLA; BERGER,2002) e a escolha do modelo deve ser realizada com base nos demais crit´erios (Gr´afico, AIC e BIC).

4 O pacote flexcure

O pacote nomeado por flexcure (Regression for a flexible parametric survival models with cure fraction) proposto neste trabalho, implementa um conjunto de fun¸c˜oes usando o ambiente R para dar suporte aos modelos estudados nos Cap´ıtulos 2e 3. Neste programa, al´em dos MTFA usuais em an´alise de dados sobrevivˆencia, pode-se considerar os MTFA: log-gama generalizado, log-F generalizado, exponencial na forma estendida de Marshall Olkin e Weibull na forma estendida de Marshall Olkin, para modelar os tempos dos elementos suscept´ıveis e, em todos os casos podem estimar a fra¸c˜ao de curados com base em um modelo de mistura padr˜ao ou tempo de promo¸c˜ao. Um esquema completo dos recursos, em termo de modelos, dispon´ıveis atrav´es do pacote flexcure pode ser visto na Figura 3.

LISA: R Basics Fall 2013

Análise de dados de sobrevivência

Modelos flexíveis

Fração de cura

: flexcure

Gama Generalizado estendido Prentice (1974) • Exponencial • Weibull • Gompertz • Gama • Qui-quadrado • Log-normal Modelo de Mistura padrão Boag (1949) e Berkson & Gage

(1952) Modelo de Tempo de Promoção Yakovlev & Tsodikov (1996) Abordagem Unificada Rodrigues et al. (2009a) F Generalizado

Prentice (1975) • Log-logístico

Marshall-Olkin Marshall & Olkin

(1997)

• Exponencial • Weibull

Figura 3 – Esquema descritivo dos recursos dispon´ıveis atrav´es do pacote flexcure.

A fun¸c˜ao principal desenvolvida ´e denominda de curereg e serve para ajustar modelos de regress˜ao param´etricos `a dados de sobrevivˆencia com fra¸c˜ao de cura. Esta fun¸c˜ao permite estimar, simultaneamente, o efeito das covari´aveis sobre o tempo at´e a ocorrˆencia do evento e sobre a fra¸c˜ao de curados. De modo geral, essa fun¸c˜ao ´e usada para maximizar o logaritmo da fun¸c˜ao de verossimilhan¸ca apresentada no Cap´ıtulo 3, express˜ao (3.7). Para detalhes sobre os argumentos dessa fun¸c˜ao, ver ApˆendiceC.

Neste contexto, para maximizar (3.7) a fun¸c˜ao curereg usa a fun¸c˜ao optim do pacote stats (R Core Team, 2015), que ´e o otimizador padr˜ao da linguagem R. Atrav´es desta, s˜ao

Cap´ıtulo 4. O pacote flexcure 47

disponibilizados os algoritmos de otimiza¸c˜ao: Nelder-Mead, BFGS, Gradiente Conjugado e arrefecimento simulado (simulate annealing ou simplesmente SANN ) e todos eles podem ser usados no processo de otimiza¸c˜ao do logaritmo da fun¸c˜ao verossimilhan¸ca.

Apesar da simplicidade da fun¸c˜ao optim, a rotina embutida na fun¸c˜ao curereg faz uso dela atrav´es do pacote flexsurv (vers˜ao 0.6), da autoria de Jackson(2014). Essa preferˆencia, deve-se ao fato de que neste est´a implementado a fun¸c˜ao flexsurvreg, que ´e uma interface mais amig´avel para o uso da sub-rotina optim para tratar problemas de otimiza¸c˜ao dentro do contexto de an´alise de dados de sobrevivˆencia. Al´em disso, a fun¸c˜ao flexsurvreg facilita o ajuste de modelos de regress˜ao e, ainda possibilita a transferˆencia de argumentos para fun¸c˜ao optim quando deseja-se modificar alguns dos crit´erios de convergˆencia do algoritmo de otimiza¸c˜ao utilizado, bem como, outros argumentos associados a essa fun¸c˜ao. O pacote flexsurv ainda disponibiliza a implementa¸c˜ao das fun¸c˜oes de densidade e de sobrevivˆencia dos modelos gama generalizado e F generalizado, da forma apresentada no Cap´ıtulo 2.

Os erros padr˜ao das estimativas s˜ao obtidos com base na inversa da matriz de informa¸c˜ao observada, o negativo da matriz hessiana. A matriz hessiana ´e obtida de forma direta no processo de otimiza¸c˜ao, que utiliza internamente a fun¸c˜ao optimHess, para calcular uma hessiana aproximada, usando o m´etodo de diferen¸cas finitas (NOCEDAL; WRIGHT,2006). O c´alculo anal´ıtico das segundas derivadas para os modelos considerados ´e n˜ao trivial, pois as fun¸c˜oes de densidade e de sobrevivˆencia podem depender das fun¸c˜oes gama, beta, integral gama incompleta, dentre outras. Tendo em vista que s˜ao necess´arias aproxima¸c˜oes num´ericas para estas fun¸c˜oes, pode-se considerar mais apropriado (e pr´atico) a obten¸c˜ao num´erica da matriz hessiana. Contudo, quando poss´ıvel ´e interessante obter uma aproxima¸c˜ao mais precisa da matriz hessiana.

Os recursos dispon´ıveis atrav´es do pacote flexcure v˜ao al´em do ajuste de modelos de sobrevivˆencia flex´ıveis com fra¸c˜ao de cura. Al´em do ajuste, ´e disponibilizado um conjundo de rotinas para explorar os objetos da classe curereg, algumas delas s˜ao: confint.curereg (estima intervalo de confian¸ca para os parˆametros usando os erros padr˜ao obtidos com base na matriz de informa¸c˜ao observada), curefraction (estima a fra¸c˜ao de cura), plot.curereg (retorna gr´afico da sobrevivˆencia estimatida por Kaplan-Meier sobreposta a estimada pelo modelo ajustado) e lines.curereg (desenha sobre plot.curereg a sobrevivˆencia estimada para outro modelo ajustado, ´util para realizar compara¸c˜oes). S˜ao implementadas tamb´em, as fun¸c˜oes de densidade de probabilidade, sobrevivˆencia impr´opria para algumas distribui¸c˜oes cl´assicas e para os modelos flex´ıveis apresentados no Cap´ıtulo 2. Geradores de amostras aleat´orias censuradas com fra¸c˜ao de curados tamb´em s˜ao disponibilizados e foram usados nas simula¸c˜oes apresentadas no Cap´ıtulo5. No ApˆendiceC´e feita uma ilustra¸c˜ao completa do uso do pacote para analisar dados de sobrevivˆencia na presen¸ca de elementos curados.

5 Estudo de simula¸c˜ao

Neste cap´ıtulo s˜ao apresentados estudos de simula¸c˜ao, com o intuito de ilustrar a capacidade do pacote proposto em obter as estimativas de m´axima verossimilhan¸ca para os modelos log-gama generalizado estendido e log-F generalizado estendido com fra¸c˜ao de cura, com e sem covari´aveis. Al´em disso, no caso dos modelos de mistura padr˜ao log-gama generalizado estendido e log-F generalizado sem covari´aveis, as estimativas obtidas com o pacote proposto foram comparadas `as estimativas obtidas com o pacote gfcure (PENG; DEAR; DENHAM, 1998).

Assim como apresentado emFonseca, Valen¸ca e Bolfarine (2013), com o prop´osito de avaliar separadamente a consequˆencia do aumento da propor¸c˜ao de censuras entre os n˜ao curados e imunes nas estimativas de m´axima verossimilhan¸ca dos parˆametros dos modelos estudados. Para tal, calculou-se a propor¸c˜ao de censura em rela¸c˜ao ao total de elementos sujeitos ao evento de interesse (denotado por pc1) e o percentual de censurados ou imunes (denotado por pc2), que em aplica¸c˜oes ´e indicado simplesmente como o percentual de censura. Definindo π como a fra¸c˜ao de curados, pode-se calcular o percentual de elementos censurados ou imunes da seguinte forma:

pc2 = pc1(1 − π) + π.

Para simula¸c˜ao foi usado o ambiente R (vers˜ao 3.2.2), a plataforma 64 bits do sistema operacional Windows e o pacote flexcure (vers˜ao 0.1), aqui prosposto. Como foi mencionado no cap´ıtulo anterior, podem ser especificados qualquer um dos m´etodos de otimiza¸c˜ao dispon´ıveis atrav´es da fun¸c˜ao optim. Neste sentido, para realizar o processo de otimiza¸c˜ao do logaritmo da fun¸c˜ao de verossimilhan¸ca, foram utilizados os m´etodos de busca BFGS (m´etodo quasi-Newton proposto simultˆaneamente por Broyden, Fletcher, Goldfarb e Shanno) e arrefecimento simulado (simulated annealing ou SANN ), ambos com as configura¸c˜oes padr˜ao da rotina optim. Destaca-se, que o m´etodo arrefecimento simulado somente foi utilizado para o modelo log-gama generalizado estendido com covari´avies. Apesar deles serem usados em problemas diferentes, no contexto dessas simula¸c˜oes, o objetivo foi observar se as solu¸c˜oes obtidas pelos dois m´etodos s˜ao consistentes para, em seguida, definir um melhor m´etodo a ser adotado como padr˜ao pelo pacote. Salientando que esses m´etodos foram escolhidos ap´os a explora¸c˜ao de tantos outros dispon´ıveis atrav´es do software R.

No processo de obten¸c˜ao dos dados simulados, todos os modelos estudados foram analisados atrav´es de simula¸c˜oes de Monte Carlo (10000 para o caso sem covari´aveis e 1000 para o caso com covari´aveis), segundo quatro tamanhos de amostra (n = 50, 100, 500

Cap´ıtulo 5. Estudo de simula¸c˜ao 49

Tabela 1 – Parˆametros para simula¸c˜ao dos cen´arios do modelo de mistura padr˜ao e tempo de promo¸c˜ao sem covari´aveis:

Parˆametros Modelo

µ σ q p π log-gama generalizado estendido log-F generalizado

5 1,5 2 - 0,10 x - 0,45 x - 0,65 x - -2 0,10 x - 0,45 x - 0,65 x - 1 0,10 - x 0,45 - x 0,65 - x

e 1000). Deste modo, considera-se como sendo um cen´ario a realiza¸c˜ao da simula¸c˜ao de Monte Carlo de um modelo, para os quatro tamanhos de amostra adotados. Al´em disso, os parˆametros dos modelos simulados s˜ao fixados de maneira que contemplem trˆes propor¸c˜oes de curados: 10%, 45% e 65% (π = 0, 1, 0, 45 e 0, 65) e 20% de censura entre os n˜ao imunes (pc1 = 0, 2), que corresponde, respectivamente, a 28%, 56% e 72% de censura observada (pc2 = 0, 28, 0, 56 e 0, 72).

Assim como j´a mencionado, foram considerados casos com e sem covari´aveis. No caso, sem covari´aveis, tˆem-se os modelos de tempo de promo¸c˜ao e mistura padr˜ao log-gama generalizado estendido e log-F generalizado e, para estes, foram simuladados as estruturas apresentadas na Tabela 1. O parˆametro π apresentado nessa tabela est´a relacionado com a distribui¸c˜ao de M e, quando o modelo ´e o de mistura padr˜ao, o n´umero de causas que podem acarretar na ocorrˆencia do evento ´e gerado de uma Bernoulli de parˆametro (1 − θ), com θ = π. J´a se o modelo ´e o de tempo de promo¸c˜ao, essa vari´avel aleat´oria ´e gerada de uma distribui¸c˜ao Poisson com m´edia igual `a θ, sendo θ = − log (π). Ent˜ao, para cada um dos elementos n˜ao curados (M > 0), uma amostra de tamanho m ´e gerada dos modelos log-gama generalizado estendido (de parˆametros µ, σ, q) ou log-F generalizado (de parˆametros µ, σ, q, p), em que os valores assumidos para os parˆametros est˜ao expostos nas Tabelas 1. Desta forma, o logaritmo do tempo at´e a falha ´e obtido tomando o menor valor da amostra gerada, ou seja, r = min {z1, . . . , zm}.

Para controlar o percentual de censura, gera-se o tempo de censura (c) de uma vari´avel aleat´oria Uniforme (0, λ), em que o valor de λ afeta inversamente a propor¸c˜ao de censura na amostra. Logo, uma vez gerado o tempo de censura, o logaritmo do tempo observado ´e obtido tomando y = min {r, log (c)}. Da´ı, ´e associado a cada logaritmo do tempo observado um indicador de censura, sendo δ = 1, se r < log (c) e δ = 0, caso contr´ario. No caso em que o elemento ´e curado (M = 0), o logaritmo do tempo observado recebe o logaritmo de um tempo de censura e o indicador de censura recebe zero.

Para a situa¸c˜ao com covari´aveis, tˆem-se tamb´em os modelos de tempo de promo¸c˜ao e mistura padr˜ao log-gama generalizado estendido e log-F generalizado e, para estes, foram simuladados as estruturas apresentadas na Tabela 2. Sendo assim, quando tinha-se o modelo de mistura padr˜ao para cada elemento, foram gerados valores de Mi como uma

amostra da distribui¸c˜ao Bernoulli de parˆametro (1 − θi), com θi = _{1+exp(γ0+γ1}exp(γ0+γ1zi)_z_i). J´a se o

modelo ´e o de tempo de promo¸c˜ao, essa vari´avel aleat´oria ´e gerada de uma distribui¸c˜ao Poisson com m´edia igual `a θi, sendo θi = exp (γ0+ γ1zi). Desta forma, os valores escolhidos

para γ0 e γ1 foram restringidos, de tal maneira que, quando combinado com a covari´avel, a m´edia das πi fra¸c˜oes de cura ficariam em torno de 10%, 45% e 65%, a depender da situa¸c˜ao

considerada. Em ambos os casos, a covari´avel zi foi gerada de uma distribui¸c˜ao Uniforme

[0, 1] fixando uma semente igual a nove para o gerador de uniformes do software R. Ent˜ao, para cada um dos elementos n˜ao curados (Mi > 0), uma amostra de

tamanho mi ´e gerada dos modelos log-gama generalizado estendido (de parˆametros µi,

σ, q) ou log-F generalizado (de parˆametros µi, σ, q, p), em que os valores assumidos

para os parˆametros est˜ao expostos na Tabela 2. Em todos os casos foram assumidos que µi = β0+ β1xi, sendo xi = zi e β0 e β1 escolhidos arbitrariamente. Desta forma, o logaritmo

dos tempos at´e a falha s˜ao obtidos tomando o menor valor da amostra gerada, ou seja, ri = min {zi1, . . . , zimi}.

Assim como no caso sem covari´aveis, para controlar o percentual de censura, gera-se os tempos de censura ci de uma vari´avel aleat´oria Uniforme (0, λ), em que o valor de λ

afeta inversamente a propor¸c˜ao de censura na amostra. Desta forma, uma vez que s˜ao gerados os tempos de censura, o logaritmo dos tempos observados ´e obtido tomando yi = min {ri, log (ci)}. Da´ı, ´e associado a cada logaritmo do tempo observado um indicador

de censura, sendo δi = 1, se ri < log (ci) e δi = 0, caso contr´ario. No caso em que o

elemento ´e curado (Mi = 0), o logaritmo do tempo observado recebe o logaritmo de um

tempo de censura e o indicador de censura recebe zero.

Atrav´es do pacote flexcure foram utilizados os geradores de n´umeros aleat´orios de amostras censuradas na presen¸ca de elementos curados das distribui¸c˜oes exponencial, Wei- bull, gama, log-normal, log-log´ıstica, log-gama generalizada, log-F generalizada, exponencial na forma estendida de Marshall-Olkin e Weibull na forma estendida de Marshall-Olkin, que s˜ao associadas no pacote, respectivamente, `as fun¸c˜oes rexpsm e rexppt, rweibullsm e rweibullpt, rgammasm e rgammapt, rlnormsm e rlnormpt, rllogissm e rllogispt, rgengammasm e rgengammapt, rgenfsm e rgenfpt, rmoeesm e rmoeept e rmoeevsm e rmoeevpt. Note que, tˆem-se duas fun¸c˜oes para cada distribui¸c˜ao e que sempre o sufixo de uma delas ´e sm e o da outra ´e pt, que indica, respectivamente, se o modelo ´e da classe mistura padr˜ao (standard mixture) ou da classe tempo de promo¸c˜ao (promotion time). Os comandos em R para a gera¸c˜ao dos dados, como descritos acima, podem ser obtidos mediante solicita¸c˜ao ao autor deste trabalho.

Cap´ıtulo 5. Estudo de simula¸c˜ao 51

Tabela 2 – Parˆametros para simula¸c˜ao dos modelos de mistura padr˜ao e tempo de promo¸c˜ao com covari´aveis:

Parˆametros Modelo

β0 β1 σ q p γ0 γ1 log-gama generalizado estendido log-F generalizado

Mistura padr˜ao -0,5 2 1,5 -2 - -1,84 -0,75 x - -0,79 1,15 x - 1,11 -0,95 x - 2 -1,84 -0,75 x - -0,79 1,15 x - 1,11 -0,95 x - 1 -1,84 -0,75 - x -0,79 1,15 - x 1,11 -0,95 - x Tempo de promo¸c˜ao -0,5 2 1,5 2 - 0,50 0,70 x - 0,50 -1,50 x - 0,50 -3,10 x - -2 1 0,50 0,70 x - 0,50 -1,50 x - 0,50 -3,10 x - 0,50 0,70 - x 0,50 -1,50 - x 0,50 -3,10 - x

Para an´alise das simulac˜oes foram considerados al´em de tabelas contendo resumos que incluem m´edias, erros padr˜ao (EP) e raiz dos erros quadr´aticos m´edios emp´ıricos (REQM), gr´aficos boxplot’s com descri¸c˜ao mais detalhada dos resultados (ver Apˆendice

D). Estes gr´aficos permitem a identifica¸c˜ao de estimativas discrepantes.

Belgede Okul öncesi eğitimde alan gezilerinin uygulanmasına ilişkin öğretmen görüşlerinin incelenmesi (sayfa 40-47)