La plupart des techniques d’inf´erence d’arbre minimisant les crit`eres MP effectuent une re- cherche locale. Le logiciel DNAPARSdu package PHYLIP(Felsenstein, 1993) cherche `a optimi-
ser la parcimonie de Fitch. Il offre une impl´ementation de la recherche GRASP, alternant, pour chaque esp`ece, un algorithme d’insertion et une recherche locale par descente sur un voisinage NNI. Le logiciel PAUP* (Swofford, 2002) propose l’impl ´ementation d’une recherche locale par descente sur des voisinages NNI, SPR et TBR pour optimiser les parcimonies de Fitch et Sankoff. L’arbre de d´epart est construit par un algorithme d’insertion, o`u l’ordre d’insertion des esp `eces est al´eatoire. Il est possible de lancer plusieurs recherches locales `a partir de plusieurs arbres de d´epart. Le logiciel TNT (Goloboff et al., 2003) propose les mˆemes types de recherche locale que PAUP* pour optimiser la parcimonie de Fitch mais offre des temps d’ex ´ecution bien plus rapides. Il permet en outre d’appliquer une technique de bruitage, appel´ee parsimony ratchet (Nixon, 1999), consistant, lorsque un minimum local est atteint, premi`erement `a pond´erer al´eatoirement certains sites et de continuer la recherche locale avec ce jeu de s ´equences bruit´ees, puis,
3.3 Mod`eles probabilistes d’´evolution des s´equences g´en´etiques 47
deuxi`emement et lorsqu’un nouveau minimum local est atteint, `a continuer la recherche locale avec le jeu de s´equences initiales.
Il est courant d’observer que plusieurs arbres minimisent les crit `eres MP. Dans ce cas de figure, une approche classique consiste `a combiner l’ensemble des arbres phylog´en´etiques les plus parcimonieux en une unique topologie par une technique de consensus (pour plus de d ´etails, cf Bryant, 2003). Le plus courant, nomm´e consensus strict, renvoie l’arbre phylog´en´etique enra- cin´e (resp. non enracin´e) contenant l’ensemble des clades (resp. des bipartitions de feuilles) induits par tous les arbres les plus parcimonieux.
N´eanmoins, ces m´ethodes d’inf´erence sont bas´ees sur des crit`eres sp´ecifiques. Les crit`eres MP n’utilisent pas de mod`eles explicites caract´erisant les changements entre s´equences de ca- ract`eres. De plus, il a ´et´e montr´e que l’optimisation des crit`eres MP peut conduire `a une esti- mation inconsistante des arbres optimaux (i.e. tous les arbres optimaux sont diff ´erents de l’arbre vrai) si on consid`ere des caract`eres mol´eculaires de type ADN, ARN ou prot´eine (Felsenstein, 1978a). Ce biais, nomm´e art´efact d’attraction des longues branches (Felsenstein, 1978a; Hendy and Penny, 1989), s’explique par le fait que si beaucoup de mutations sont induites le long de deux branches d’un arbre phylog´en´etique, alors la minimisation des crit`eres MP tendra `a rappro- cher ces deux branches dans les topologies des arbres phylog ´en´etiques optimaux. Ces obser- vations, qui peuvent ˆetre consid´er´ees comme une faiblesse m´ethodologique, ont donc men´e `a la consid´eration de mod`eles d’´evolution des s´equences g´en´etiques.
3.3 Mod`eles probabilistes d’´evolution des s´equences
g´en´etiques
Les m´ethodes d’inf´erence phylog´en´etique bas´ees sur un mod`ele probabiliste de l’´evolution s’appuient sur certaines hypoth`eses. Ces hypoth`eses g´en´erales sont pour la plupart simpli- ficatrices mais n´eanmoins n´ecessaires pour permettre de d´ecrire avec un cerain formalisme l’´evolution des s´equences g´en´etiques. Ces diff´erentes hypoth`eses sont d´ecrites ci-dessous, ainsi que les implications pratiques dans la d´efinition de diff´erents mod`eles de l’´evolution des s´equences g´en´etiques.
Les hypoth`eses axiomatiques sur l’´evolution des s´equences g´en´etiques
Etant donn´es un arbre
T
, une branche{u, v}
deT
et une s´equence g´en´etiqueS
uassoci´ee `au
, l’´evolution le long de cette branche transformeS
u en une nouvelle s´equenceS
v associ´ee aunoeud
v
. Un mod`ele d’´evolution d´ecrit, pour chaque caract`ere composantS
u, les probabilit´esp
x→yde passage de l’´etat de caract`erex
initial, i.e. enu
, `a un ´etat de caract`erey
final, i.e. env
. Si, par exemple, les s´equences g´en´etiques sont des brins d’ADN, les ´etats de caract`eresx
etles transformations des s´equences de caract`eres g´en´etiques s’appuient sur les hypoth`eses sui- vantes.
•
Les s´equences ´evoluent majoritairement par le m´ecanisme de substitution nucl´eotidique. Les ´ev`enements mutationels de type insertion ou d´el´etion ne sont pas trait´es.•
Les sites ´evoluent ind´ependamment les uns des autres. Les transformations affectant un site `a un instantt
ne sont affect´ees ni par les ´etats des autres caract`eres de la s´equence, ni par les transformations les affectant (hypoth`ese d’ind´ependance), ni par la place de ce site dans la s´equence (hypoth`ese de distribution identique).•
Le processus d’´evolution est markovien d’ordre 1, homog`ene et stationnaire. L’´evolution d’une s´equence ne d´epend que de son ´etat actuel `a l’instantt
et non de la suite d’´ev`enements mutationels qui a conduit `a cette s´equence (processus markovien), et de- meure le mˆeme pour toutes les branches deT
(homog´en´eit´e). La probabilit´eπ
xd’observerun ´etat de caract`ere
x
ne d´epend pas du moment de l’observation (stationnarit´e).•
Il ne peut se produire qu’au plus une mutation par unit´e de temps. Sur un intervalle minime de tempsdt
, il ne peut se produire qu’une unique mutation.Quelques mod`eles classiques de l’´evolution des s´equences de type ADN
Cons´equemment `a ces diff´erentes hypoth`eses, l’expression math´ematique d’un mod`ele de sub- stitution sur une s´equence g´en´etique est une matrice
Q
de taux de substitution par site et par unit´e de tempsdt
. Cette matrice, dite de taux instantan´es, repr´esente les taux de substitu- tion pour tranformer un ´etat de caract`erex
en un ´etat de caract`erey
. Par la suite, le mod`ele d’´evolution des s´equences d’ADN sera choisi pour illustrer les mod `eles d’´evolution. Pour les s´equences d’ADN, le mod`ele d’´evolution r´eversible le plus g´en´eral (GTR ; General Time Re-versible ; Lanave et al., 1984 ; Rodriguez et al., 1990) est repr´esent´e par la matrice de taux
instantan´es suivante :
Q
GTR=
˜
λ
Aµaπ˜
Cµbπ˜
Gµcπ˜
T˜
µaπ
Aλ˜
Cµdπ˜
Gµeπ˜
T˜
µbπ
Aµdπ˜
Cλ˜
Gµf π˜
T˜
µcπ
Aµeπ˜
Cµf π˜
G˜λ
T
,
(3.1)o`u les
λ˜
xsont tels que la somme de chaque ligne est nulle, e.g.˜λ
T=−˜µ(cπ
A+ eπ
C+ f π
G)
.Le facteur
µ˜
repr´esente la vitesse `a laquelle se produisent les diff´erentes substitutions. Cette vitesse globale est modifi´ee par les taux relatifsa, b, c, d, e
etf
propres `a chaque substitution tranformant l’´etat de caract`erex
en l’´etat de caract`erey
. Les param`etresπ
A,π
C,π
G etπ
Tsont les probabilit´es d’observer les ´etats A, C, G et T, respectivement. Ces derniers param`etres, assum´es comme constants par l’hypoth`ese de stationnarit´e, sont le plus souvent estim´es par les fr´equences d’apparition dans les s´equences.
3.3 Mod`eles probabilistes d’´evolution des s´equences g´en´etiques 49
Si on connait les probabilit´es d’apparition
A(t)
,C(t)
,G(t)
etT (t)
des quatre nucl ´eotides au tempst
, on peut utiliser la matriceQ
pour calculer les nouvelles probabilit ´es au tempst + dt
. En notantL(t) = (A(t), C(t), G(t), T (t))
le vecteur des probabilit ´es des ´etats de caract`eres `a l’instantt
, on obtient les probabilit´es au tempst + dt
par l’´equationL(t + dt) = L(t) + L(t) Q dt
, qui se r´e´ecritdL(t)/dt = L(t) Q
. La solution de cette derni`ere ´equation estL(t) = L(0)e
Qt, o`uL(0)
est le vecteur des probabilit´es ancestrales (Cox and Miller, 1965; Yang, 1994). Le calcul dee
Qt=P
+∞p=1
(Q
pt
p/p!)
s’effectue en d´ecomposantQ = RDR
−1 avec une matrice diagonaleD
et une matrice inversibleR
. On obtient alors, apr`es calcul, le r´esultate
Qt= R e
DtR
−1. Or l’exponentielle d’une matrice diagonaleD
cor- respond `a la matrice obtenue en prenant l’exponentielle de ses termes diagonaux. Ainsi, `a partir de la matriceQ
des taux de substitution instantan´es, il est possible d’obtenir les probabilit´esp
x→y(t) = (e
Qt)
xy de changement d’un ´etat de caract`erex
en un ´etat de caract`erey
du-rant un intervalle de temps
t
. Etant donn´e un arbre phylog´en´etique enracin´e valu´eT
et une s´equence d’ADN correspondant `a la racine deT
, ces probabilit´es peuvent ˆetre utilis´ees pour simuler l’´evolution de cette s´equence le long des branches deT
suivant un mod`ele pr´ed´efini (Rambaut and Grassly, 1997).Le mod`ele GTR est le plus g´en´eral des mod`eles r´eversibles, i.e. consid´erant que
π
xp
x→y(t) = π
yp
y→x(t)
, pour tout couples d’´etats de caract`erex, y
. Il n´ecessite d’estimer lescinq des six param`etres
a, b, c, d, e
etf
(il existe une d´ependance lin´eaire entre eux), ainsi que les trois param`etresπ
A,π
C,π
G(trois seulement sont n´ecessaires carπ
A+π
C+π
G+π
T= 1
).Le mod`ele GTR est donc un mod`ele `a huit param`etres libres. N´eanmoins il existe des mod`eles plus simples qui sont des cas particuliers du mod `ele GTR. Parmi ceux-l`a, le mod`ele JC (Jukes and Cantor, 1969) suppose que la probabilit´e d’observer un nucl´eotide est la mˆeme pour chacun des quatre (i.e.
π
A= π
C= π
G= π
T= 1/4
) et que tous les types de substitution ont lemˆeme taux d’apparition (i.e.
a = b = c = d = e = f = 1
). Si on pose le param `etreα = ˜˜
µ/4
, alorsα˜
est l’unique param`etre du mod`ele JC caract´eris´e par la matrice de taux instantan´es :Q
JC=
−3˜α
α˜
α˜
α˜
˜
α
−3˜α
α˜
α˜
˜
α
α˜
−3˜α
α˜
˜
α
α˜
α˜
−3˜α
.
Il est alors ais´e d’obtenir directement, `a partir de
Q
JC, les diff´erentes probabilit´es de changementp
x→y(t) = (1− e
−4 ˜αt)/4
six
6= y
etp
x→x(t) = (1 + 3e
−4 ˜αt)/4
sinon. Un autre mod`ele,plus simple que le mod`ele GTR mais induisant plus de param`etres que le mod`ele JC, suppose ´egalement que les fr´equences sont les mˆemes (i.e.
π
A= π
C= π
G= π
T= 1/4
) maisdistingue deux types d’´ev`enement mutationnel. Les nucl´eotides formant les s´equences d’ADN sont class´es en deux cat´egories biochimiques, les purines (
A
etG
) et les pyrimidines (C
etT
), en ce sens que les r´eactions chimiques permettant de transformer un nucl´eotide d’une famille en celui de l’autre famille sont moins probables. Une transition transforme un nucl ´eotide d’une familleen un nucl´eotide de la mˆeme famille (i.e.
A
↔ G
etC
↔ T
) et une transversion transforme un nucl´eotide d’une famille en un nucl´eotide de l’autre famille. Le mod`ele K2P (Kimura, 1980) suppose que les taux de tranversion sont ´egaux (i.e.a = c = d = f = 1
) et que les taux de transitions sont plus ´elev´esb = e = ˜κ
≥ 1
. Si on pose les deux param`etresα = ˜˜
µ˜κ/4
et˜
β = ˜µ/4
, alors le mod`ele K2P est caract´eris´e par la matrice de taux instantan´es :Q
K2P=
−˜α− 2 ˜β
β˜
α˜
β˜
˜
β
−˜α− 2 ˜β
β˜
α˜
˜
α
β˜
−˜α− 2 ˜β
β˜
˜
β
α˜
β˜
−˜α− 2 ˜β
,
o`u
κ =˜
α/ ˜˜
β
repr´esente le taux de transition/transvertion. Lorsque˜κ = 1
, on re- vient au mod`ele JC `a un param`etre. On obtient alors directement les diff´erentes proba- bilit´es de changementp
x→y(t) = (1− e
−4 ˜βt)/4
six
6= y
correspond `a une transver-sion,
p
x→y(t) = (1− 2e
−2( ˜α+ ˜β)t+ e
−4 ˜βt)/4
six
6= y
correspond `a une transition etp
x→y(t) = (1 + 2e
−2( ˜α+ ˜β)t+ e
−4 ˜βt)/4
six = y
.Si le param`etre