2.8. Alan Gezileri Yapılabilecek Mekanlar
2.8.2. Okul Dışı Alanlar:
De acordo comKalbfleisch e Prentice(2002), existem muitos m´etodos formais, bem como, informais de avaliar a qualidade do ajuste de um modelo espec´ıfico aos dados ou a sele¸c˜ao de um melhor entre v´arios concorrentes. Dentre os m´etodos formais, destaca-se os que s˜ao baseados em teste de hip´oteses e os informais, que s˜ao subjetivos e geralmente envolvem t´ecnicas gr´aficas. Diante disso, na aplica¸c˜ao apresentada no Cap´ıtulo 6 para sele¸c˜ao dos modelos, foram considerados os seguintes crit´erios:
❼ Crit´erio gr´afico: esse crit´erio ´e amplamente difundido em an´alise de dados de sobre- vivˆencia e consiste basicamente em comparar a curva de sobrevivˆencia estimada, utilizando o estimador de Kaplan-Meier com as curvas de sobrevivˆencia estimadas, conforme os modelos propostos. O modelo mais adequado ´e aquele em que sua curva de sobrevivˆencia mais se aproxima da curva de Kaplan-Meier;
❼ Teste da raz˜ao de verossimilhan¸cas: essa forma de discriminar modelos ´e por meio de teste de hip´oteses e, em geral, para utilizar esse teste necessita-se identificar um modelo generalizado, tal que, os modelos a serem discriminados sejam seus casos particulares, ou seja, inserindo alguma restri¸c˜ao sobre o vetor de parˆametros do modelo geral, obtem-se o modelo que ser´a avaliado a adequa¸c˜ao. Formalmente, o que deseja-se ´e fazer inferˆencia sobre uma parti¸c˜ao do vetor de parˆametros ψ. Sendo assim, considere de modo geral que ψ =ψ⊤1, ψ⊤2⊤ e que o interesse seja testar as seguintes hip´oteses:
H0 : ψ1 = ψ10 versus H1 : ψ1 6= ψ10,
em que ψ10 ´e um vetor de valores especificados para ψ1, de modo a obter-se o modelo a ser discriminado, isto ´e, o modelo restrito. A estat´ıstica do teste da raz˜ao de verossimilhan¸cas pode ser obtida da seguinte forma:
SRV = 2
h
lψˆ1, ˆψ2; D− lψ10, ˜ψ2; Di,
sendo ˜ψ2 a estimativa de m´axima verossimilhan¸ca de ψ2, dado que ψ1 = ψ10. Assim, considerando algumas condi¸c˜oes gerais de regularidade, pode-se mostrar que sob H0 essa estat´ıstica tem aproximadamente distribui¸c˜ao qui-quadrado com graus de liberdade determinado pela dimens˜ao de ψ1;
❼ Crit´erio de Informa¸c˜ao Akaike (AIC): esse crit´erio ´e fundamentado na informa¸c˜ao de Kullback-Leiber e foi desenvolvido por Akaike (1974). ´E uma medida relativa a quantidade de informa¸c˜ao perdida por se usar um modelo aproximado, pois admite a existˆencia de um modelo verdadeiro que descreve os dados, que ´e desconhecido e, tenta escolher dentre um grupo de modelos avaliados o que minimiza a informa¸c˜ao de Kullback-Leiber. A estimativa do AIC pode ser obtida da seguinte forma:
AIC = −2lψb; D+ 2p,
em que lψb; D´e o valor do logaritmo da fun¸c˜ao de verossimilhan¸ca do modelo a ser avaliado e p representa o n´umero de parˆametros que indexam este modelo. Neste contexto, ´e dito que um particular modelo ´e o melhor se este apresentar o menor valor de AIC;
❼ Criterio de Informa¸c˜ao Bayesiano (BIC): esse crit´erio foi proposto por Schwarz et al.
(1978), e consiste em selecionar os modelos em termos da probabilidade a posteriori. Diferente do AIC, esse pressup˜oe que entre os modelos a serem avaliados existe o modelo verdadeiro, ou seja, aquele que melhor descreve o mecanismo gerador dos dados. Por isto, ele ´e definido como a estat´ıstica que maximiza a probabilidade de se identificar o verdadeiro modelo dentre os avaliados. O valor do crit´erio BIC para um particular modelo ´e dado por:
BIC = −2lψb; D+ 2p ln (n) ,
em que lψb; D´e o valor do logaritmo da fun¸c˜ao de verossimilhan¸ca do modelo a ser avaliado, p representa o n´umero de parˆametros que indexam este modelo e n o n´umero de elementos na amostra. Analogamente ao AIC, quanto menor a estimativa do BIC, maior ´e a evidˆencia que tal modelo descreve o mecanismo gerador dos dados.
Deve-se salientar, que o teste da raz˜ao de verossimilhan¸cas somente deve ser utilizado nas situa¸c˜oes em que as condi¸c˜oes de regularidade sobre o modelo s˜ao satisfeitas, pois mesmo com uma parametriza¸c˜ao alternativa adequada alguns dos submodelos da
Cap´ıtulo 3. Modelando dados de sobrevivˆencia com fra¸c˜ao de cura 45
log-F generalizada s˜ao obtidos quando a hip´otese nula coloca o parˆametro na fronteira do espa¸co param´etrico, o que representa viola¸c˜ao de uma das condi¸c˜oes de regularidade. Neste casos, n˜ao pode-se garantir que a distribui¸c˜ao aproximada da estat´ıstica da raz˜ao de verossimilhan¸cas seja qui-quadrado (CASELLA; BERGER,2002) e a escolha do modelo deve ser realizada com base nos demais crit´erios (Gr´afico, AIC e BIC).
4 O pacote flexcure
O pacote nomeado por flexcure (Regression for a flexible parametric survival models with cure fraction) proposto neste trabalho, implementa um conjunto de fun¸c˜oes usando o ambiente R para dar suporte aos modelos estudados nos Cap´ıtulos 2e 3. Neste programa, al´em dos MTFA usuais em an´alise de dados sobrevivˆencia, pode-se considerar os MTFA: log-gama generalizado, log-F generalizado, exponencial na forma estendida de Marshall Olkin e Weibull na forma estendida de Marshall Olkin, para modelar os tempos dos elementos suscept´ıveis e, em todos os casos podem estimar a fra¸c˜ao de curados com base em um modelo de mistura padr˜ao ou tempo de promo¸c˜ao. Um esquema completo dos recursos, em termo de modelos, dispon´ıveis atrav´es do pacote flexcure pode ser visto na Figura 3.
LISA: R Basics Fall 2013
Análise de dados de sobrevivência
Modelos flexíveis
Fração de cura
: flexcure
Gama Generalizado estendido Prentice (1974) • Exponencial • Weibull • Gompertz • Gama • Qui-quadrado • Log-normal Modelo de Mistura padrão Boag (1949) e Berkson & Gage(1952) Modelo de Tempo de Promoção Yakovlev & Tsodikov (1996) Abordagem Unificada Rodrigues et al. (2009a) F Generalizado
Prentice (1975) • Log-logístico
Marshall-Olkin Marshall & Olkin
(1997)
• Exponencial • Weibull
Figura 3 – Esquema descritivo dos recursos dispon´ıveis atrav´es do pacote flexcure.
A fun¸c˜ao principal desenvolvida ´e denominda de curereg e serve para ajustar modelos de regress˜ao param´etricos `a dados de sobrevivˆencia com fra¸c˜ao de cura. Esta fun¸c˜ao permite estimar, simultaneamente, o efeito das covari´aveis sobre o tempo at´e a ocorrˆencia do evento e sobre a fra¸c˜ao de curados. De modo geral, essa fun¸c˜ao ´e usada para maximizar o logaritmo da fun¸c˜ao de verossimilhan¸ca apresentada no Cap´ıtulo 3, express˜ao (3.7). Para detalhes sobre os argumentos dessa fun¸c˜ao, ver ApˆendiceC.
Neste contexto, para maximizar (3.7) a fun¸c˜ao curereg usa a fun¸c˜ao optim do pacote stats (R Core Team, 2015), que ´e o otimizador padr˜ao da linguagem R. Atrav´es desta, s˜ao
Cap´ıtulo 4. O pacote flexcure 47
disponibilizados os algoritmos de otimiza¸c˜ao: Nelder-Mead, BFGS, Gradiente Conjugado e arrefecimento simulado (simulate annealing ou simplesmente SANN ) e todos eles podem ser usados no processo de otimiza¸c˜ao do logaritmo da fun¸c˜ao verossimilhan¸ca.
Apesar da simplicidade da fun¸c˜ao optim, a rotina embutida na fun¸c˜ao curereg faz uso dela atrav´es do pacote flexsurv (vers˜ao 0.6), da autoria de Jackson(2014). Essa preferˆencia, deve-se ao fato de que neste est´a implementado a fun¸c˜ao flexsurvreg, que ´e uma interface mais amig´avel para o uso da sub-rotina optim para tratar problemas de otimiza¸c˜ao dentro do contexto de an´alise de dados de sobrevivˆencia. Al´em disso, a fun¸c˜ao flexsurvreg facilita o ajuste de modelos de regress˜ao e, ainda possibilita a transferˆencia de argumentos para fun¸c˜ao optim quando deseja-se modificar alguns dos crit´erios de convergˆencia do algoritmo de otimiza¸c˜ao utilizado, bem como, outros argumentos associados a essa fun¸c˜ao. O pacote flexsurv ainda disponibiliza a implementa¸c˜ao das fun¸c˜oes de densidade e de sobrevivˆencia dos modelos gama generalizado e F generalizado, da forma apresentada no Cap´ıtulo 2.
Os erros padr˜ao das estimativas s˜ao obtidos com base na inversa da matriz de informa¸c˜ao observada, o negativo da matriz hessiana. A matriz hessiana ´e obtida de forma direta no processo de otimiza¸c˜ao, que utiliza internamente a fun¸c˜ao optimHess, para calcular uma hessiana aproximada, usando o m´etodo de diferen¸cas finitas (NOCEDAL; WRIGHT,2006). O c´alculo anal´ıtico das segundas derivadas para os modelos considerados ´e n˜ao trivial, pois as fun¸c˜oes de densidade e de sobrevivˆencia podem depender das fun¸c˜oes gama, beta, integral gama incompleta, dentre outras. Tendo em vista que s˜ao necess´arias aproxima¸c˜oes num´ericas para estas fun¸c˜oes, pode-se considerar mais apropriado (e pr´atico) a obten¸c˜ao num´erica da matriz hessiana. Contudo, quando poss´ıvel ´e interessante obter uma aproxima¸c˜ao mais precisa da matriz hessiana.
Os recursos dispon´ıveis atrav´es do pacote flexcure v˜ao al´em do ajuste de modelos de sobrevivˆencia flex´ıveis com fra¸c˜ao de cura. Al´em do ajuste, ´e disponibilizado um conjundo de rotinas para explorar os objetos da classe curereg, algumas delas s˜ao: confint.curereg (estima intervalo de confian¸ca para os parˆametros usando os erros padr˜ao obtidos com base na matriz de informa¸c˜ao observada), curefraction (estima a fra¸c˜ao de cura), plot.curereg (retorna gr´afico da sobrevivˆencia estimatida por Kaplan-Meier sobreposta a estimada pelo modelo ajustado) e lines.curereg (desenha sobre plot.curereg a sobrevivˆencia estimada para outro modelo ajustado, ´util para realizar compara¸c˜oes). S˜ao implementadas tamb´em, as fun¸c˜oes de densidade de probabilidade, sobrevivˆencia impr´opria para algumas distribui¸c˜oes cl´assicas e para os modelos flex´ıveis apresentados no Cap´ıtulo 2. Geradores de amostras aleat´orias censuradas com fra¸c˜ao de curados tamb´em s˜ao disponibilizados e foram usados nas simula¸c˜oes apresentadas no Cap´ıtulo5. No ApˆendiceC´e feita uma ilustra¸c˜ao completa do uso do pacote para analisar dados de sobrevivˆencia na presen¸ca de elementos curados.
5 Estudo de simula¸c˜ao
Neste cap´ıtulo s˜ao apresentados estudos de simula¸c˜ao, com o intuito de ilustrar a capacidade do pacote proposto em obter as estimativas de m´axima verossimilhan¸ca para os modelos log-gama generalizado estendido e log-F generalizado estendido com fra¸c˜ao de cura, com e sem covari´aveis. Al´em disso, no caso dos modelos de mistura padr˜ao log-gama generalizado estendido e log-F generalizado sem covari´aveis, as estimativas obtidas com o pacote proposto foram comparadas `as estimativas obtidas com o pacote gfcure (PENG; DEAR; DENHAM, 1998).
Assim como apresentado emFonseca, Valen¸ca e Bolfarine (2013), com o prop´osito de avaliar separadamente a consequˆencia do aumento da propor¸c˜ao de censuras entre os n˜ao curados e imunes nas estimativas de m´axima verossimilhan¸ca dos parˆametros dos modelos estudados. Para tal, calculou-se a propor¸c˜ao de censura em rela¸c˜ao ao total de elementos sujeitos ao evento de interesse (denotado por pc1) e o percentual de censurados ou imunes (denotado por pc2), que em aplica¸c˜oes ´e indicado simplesmente como o percentual de censura. Definindo π como a fra¸c˜ao de curados, pode-se calcular o percentual de elementos censurados ou imunes da seguinte forma:
pc2 = pc1(1 − π) + π.
Para simula¸c˜ao foi usado o ambiente R (vers˜ao 3.2.2), a plataforma 64 bits do sistema operacional Windows e o pacote flexcure (vers˜ao 0.1), aqui prosposto. Como foi mencionado no cap´ıtulo anterior, podem ser especificados qualquer um dos m´etodos de otimiza¸c˜ao dispon´ıveis atrav´es da fun¸c˜ao optim. Neste sentido, para realizar o processo de otimiza¸c˜ao do logaritmo da fun¸c˜ao de verossimilhan¸ca, foram utilizados os m´etodos de busca BFGS (m´etodo quasi-Newton proposto simultˆaneamente por Broyden, Fletcher, Goldfarb e Shanno) e arrefecimento simulado (simulated annealing ou SANN ), ambos com as configura¸c˜oes padr˜ao da rotina optim. Destaca-se, que o m´etodo arrefecimento simulado somente foi utilizado para o modelo log-gama generalizado estendido com covari´avies. Apesar deles serem usados em problemas diferentes, no contexto dessas simula¸c˜oes, o objetivo foi observar se as solu¸c˜oes obtidas pelos dois m´etodos s˜ao consistentes para, em seguida, definir um melhor m´etodo a ser adotado como padr˜ao pelo pacote. Salientando que esses m´etodos foram escolhidos ap´os a explora¸c˜ao de tantos outros dispon´ıveis atrav´es do software R.
No processo de obten¸c˜ao dos dados simulados, todos os modelos estudados foram analisados atrav´es de simula¸c˜oes de Monte Carlo (10000 para o caso sem covari´aveis e 1000 para o caso com covari´aveis), segundo quatro tamanhos de amostra (n = 50, 100, 500
Cap´ıtulo 5. Estudo de simula¸c˜ao 49
Tabela 1 – Parˆametros para simula¸c˜ao dos cen´arios do modelo de mistura padr˜ao e tempo de promo¸c˜ao sem covari´aveis:
Parˆametros Modelo
µ σ q p π log-gama generalizado estendido log-F generalizado
5 1,5 2 - 0,10 x - 0,45 x - 0,65 x - -2 0,10 x - 0,45 x - 0,65 x - 1 0,10 - x 0,45 - x 0,65 - x
e 1000). Deste modo, considera-se como sendo um cen´ario a realiza¸c˜ao da simula¸c˜ao de Monte Carlo de um modelo, para os quatro tamanhos de amostra adotados. Al´em disso, os parˆametros dos modelos simulados s˜ao fixados de maneira que contemplem trˆes propor¸c˜oes de curados: 10%, 45% e 65% (π = 0, 1, 0, 45 e 0, 65) e 20% de censura entre os n˜ao imunes (pc1 = 0, 2), que corresponde, respectivamente, a 28%, 56% e 72% de censura observada (pc2 = 0, 28, 0, 56 e 0, 72).
Assim como j´a mencionado, foram considerados casos com e sem covari´aveis. No caso, sem covari´aveis, tˆem-se os modelos de tempo de promo¸c˜ao e mistura padr˜ao log-gama generalizado estendido e log-F generalizado e, para estes, foram simuladados as estruturas apresentadas na Tabela 1. O parˆametro π apresentado nessa tabela est´a relacionado com a distribui¸c˜ao de M e, quando o modelo ´e o de mistura padr˜ao, o n´umero de causas que podem acarretar na ocorrˆencia do evento ´e gerado de uma Bernoulli de parˆametro (1 − θ), com θ = π. J´a se o modelo ´e o de tempo de promo¸c˜ao, essa vari´avel aleat´oria ´e gerada de uma distribui¸c˜ao Poisson com m´edia igual `a θ, sendo θ = − log (π). Ent˜ao, para cada um dos elementos n˜ao curados (M > 0), uma amostra de tamanho m ´e gerada dos modelos log-gama generalizado estendido (de parˆametros µ, σ, q) ou log-F generalizado (de parˆametros µ, σ, q, p), em que os valores assumidos para os parˆametros est˜ao expostos nas Tabelas 1. Desta forma, o logaritmo do tempo at´e a falha ´e obtido tomando o menor valor da amostra gerada, ou seja, r = min {z1, . . . , zm}.
Para controlar o percentual de censura, gera-se o tempo de censura (c) de uma vari´avel aleat´oria Uniforme (0, λ), em que o valor de λ afeta inversamente a propor¸c˜ao de censura na amostra. Logo, uma vez gerado o tempo de censura, o logaritmo do tempo observado ´e obtido tomando y = min {r, log (c)}. Da´ı, ´e associado a cada logaritmo do tempo observado um indicador de censura, sendo δ = 1, se r < log (c) e δ = 0, caso contr´ario. No caso em que o elemento ´e curado (M = 0), o logaritmo do tempo observado recebe o logaritmo de um tempo de censura e o indicador de censura recebe zero.
Para a situa¸c˜ao com covari´aveis, tˆem-se tamb´em os modelos de tempo de promo¸c˜ao e mistura padr˜ao log-gama generalizado estendido e log-F generalizado e, para estes, foram simuladados as estruturas apresentadas na Tabela 2. Sendo assim, quando tinha-se o modelo de mistura padr˜ao para cada elemento, foram gerados valores de Mi como uma
amostra da distribui¸c˜ao Bernoulli de parˆametro (1 − θi), com θi = 1+exp(γ0+γ1exp(γ0+γ1zi)zi). J´a se o
modelo ´e o de tempo de promo¸c˜ao, essa vari´avel aleat´oria ´e gerada de uma distribui¸c˜ao Poisson com m´edia igual `a θi, sendo θi = exp (γ0+ γ1zi). Desta forma, os valores escolhidos
para γ0 e γ1 foram restringidos, de tal maneira que, quando combinado com a covari´avel, a m´edia das πi fra¸c˜oes de cura ficariam em torno de 10%, 45% e 65%, a depender da situa¸c˜ao
considerada. Em ambos os casos, a covari´avel zi foi gerada de uma distribui¸c˜ao Uniforme
[0, 1] fixando uma semente igual a nove para o gerador de uniformes do software R. Ent˜ao, para cada um dos elementos n˜ao curados (Mi > 0), uma amostra de
tamanho mi ´e gerada dos modelos log-gama generalizado estendido (de parˆametros µi,
σ, q) ou log-F generalizado (de parˆametros µi, σ, q, p), em que os valores assumidos
para os parˆametros est˜ao expostos na Tabela 2. Em todos os casos foram assumidos que µi = β0+ β1xi, sendo xi = zi e β0 e β1 escolhidos arbitrariamente. Desta forma, o logaritmo
dos tempos at´e a falha s˜ao obtidos tomando o menor valor da amostra gerada, ou seja, ri = min {zi1, . . . , zimi}.
Assim como no caso sem covari´aveis, para controlar o percentual de censura, gera-se os tempos de censura ci de uma vari´avel aleat´oria Uniforme (0, λ), em que o valor de λ
afeta inversamente a propor¸c˜ao de censura na amostra. Desta forma, uma vez que s˜ao gerados os tempos de censura, o logaritmo dos tempos observados ´e obtido tomando yi = min {ri, log (ci)}. Da´ı, ´e associado a cada logaritmo do tempo observado um indicador
de censura, sendo δi = 1, se ri < log (ci) e δi = 0, caso contr´ario. No caso em que o
elemento ´e curado (Mi = 0), o logaritmo do tempo observado recebe o logaritmo de um
tempo de censura e o indicador de censura recebe zero.
Atrav´es do pacote flexcure foram utilizados os geradores de n´umeros aleat´orios de amostras censuradas na presen¸ca de elementos curados das distribui¸c˜oes exponencial, Wei- bull, gama, log-normal, log-log´ıstica, log-gama generalizada, log-F generalizada, exponencial na forma estendida de Marshall-Olkin e Weibull na forma estendida de Marshall-Olkin, que s˜ao associadas no pacote, respectivamente, `as fun¸c˜oes rexpsm e rexppt, rweibullsm e rweibullpt, rgammasm e rgammapt, rlnormsm e rlnormpt, rllogissm e rllogispt, rgengammasm e rgengammapt, rgenfsm e rgenfpt, rmoeesm e rmoeept e rmoeevsm e rmoeevpt. Note que, tˆem-se duas fun¸c˜oes para cada distribui¸c˜ao e que sempre o sufixo de uma delas ´e sm e o da outra ´e pt, que indica, respectivamente, se o modelo ´e da classe mistura padr˜ao (standard mixture) ou da classe tempo de promo¸c˜ao (promotion time). Os comandos em R para a gera¸c˜ao dos dados, como descritos acima, podem ser obtidos mediante solicita¸c˜ao ao autor deste trabalho.
Cap´ıtulo 5. Estudo de simula¸c˜ao 51
Tabela 2 – Parˆametros para simula¸c˜ao dos modelos de mistura padr˜ao e tempo de promo¸c˜ao com covari´aveis:
Parˆametros Modelo
β0 β1 σ q p γ0 γ1 log-gama generalizado estendido log-F generalizado
Mistura padr˜ao -0,5 2 1,5 -2 - -1,84 -0,75 x - -0,79 1,15 x - 1,11 -0,95 x - 2 -1,84 -0,75 x - -0,79 1,15 x - 1,11 -0,95 x - 1 -1,84 -0,75 - x -0,79 1,15 - x 1,11 -0,95 - x Tempo de promo¸c˜ao -0,5 2 1,5 2 - 0,50 0,70 x - 0,50 -1,50 x - 0,50 -3,10 x - -2 1 0,50 0,70 x - 0,50 -1,50 x - 0,50 -3,10 x - 0,50 0,70 - x 0,50 -1,50 - x 0,50 -3,10 - x
Para an´alise das simulac˜oes foram considerados al´em de tabelas contendo resumos que incluem m´edias, erros padr˜ao (EP) e raiz dos erros quadr´aticos m´edios emp´ıricos (REQM), gr´aficos boxplot’s com descri¸c˜ao mais detalhada dos resultados (ver Apˆendice
D). Estes gr´aficos permitem a identifica¸c˜ao de estimativas discrepantes.