Papadakis++
Un ajustement multi-dimentionnel du Phénotype à l’Environnement
Notice d’utilisation du logiciel
Ph. Baradat et Th. Perrier (UMR AMAP / INRA Dept FMN)
Juin 2003
Résumé
La méthode dite « de Papadakis » d’ajustement à des effets environnementaux, appliquée à des
valeurs individuelles, a pour principe, dans sa variante présentée ici, d’éliminer de la valeur
phénotypique de chaque individu (individu-pivot) un effet environnemental concernant un
caractère donné par régression multiple sur une covariable constituée par la moyenne de
« résidus », pour ce même caractère, d’individus voisins. La position relative moyenne de ces
voisins par rapport au pivot peut être définie par des « mailles » ou configurations de voisinage.
Les résidus sont définis comme les écarts de chaque individu à la moyenne de la classe
génotypique dont il fait partie (population, famille, clone…). Une méthode étendue utilisant ce
principe est implémentée dans le logiciel DIOGENE ; elle diffère de la méthode traditionnelle par
la prise en compte simultanée de mailles multiples et de résidus moyens calculés sur un nombre
quelconque de variables. Elle est mise en œuvre par trois modules constituant chacun un méta-
programme. Un méta-programme est défini dans DIOGENE comme une séquence ordonnée de
programmes différents, interfacés les uns par rapport aux autres, et manipulant des fichiers de
formats compatibles. Cette séquence de programmes, qui permet de traiter un modèle spécifique,
est référencée par un nom. Le chaînage des programme élémentaires est effectué automatiquement
par le superviseur utilisé pour générer le script de pilotage de la chaîne de traitement (OPEP si
l’on n’utilise pas le gestionnaire de menu déroulant, OPEP2 dans le cas contraire). On peut
réaliser un rééchantillonnage (Jackknife ou Bootstrap) sur une chaîne de traitement incluant
Papadakis++. La façon d’opérer est indiquée en détail. Par ailleurs, il est possible d’intégrer un
effet bloc dans le modèle général et de tester son apport à l’ajustement aux effets
environnementaux. Un autre module, FLGENE (flux de gènes), relevant de la rubrique
« génétique des populations », suit une logique très semblable et sera présenté brièvement. La
version actuelle du logiciel (mise à jour du 21/05/2003) permet de contrôler la composition
génotypique des configurations de voisinage en comparant ou non chaque voisin à l’individu-pivot
ou en triant ces voisins sur une liste en fonction de leur génotype. Elle permet également, dans le
cas d’une configuration à géométrie de maille unique ou multiple, d’utiliser pour l’ajustement une
régression multiple pondérée selon une fonction définie par l’utilisateur des effectifs d’individus
vivants dans une maille de référence. Cette méthodologie est particulièrement adaptée à
l’affinement de l’estimation de paramètres génétiques en populations naturelles (en forêt, par
exemple). Elle peut prendre en compte, en effet, l’évolution dans le temps des positions
sociologiques des individus dans un peuplement.
2
Sommaire
-1- Présentation du modèle et des algorithmes
-1.1- Principes généraux 4
-1.2- Amélioration de l’ajustement (génotypes des voisins) 7
-1.3- Amélioration de l’ajustement (effectif « utile » par maille) 8
-2- Mise en œuvre pratique
-2.1- Programmes élémentaires, modules et enchaînement 11
-2.2- Exemple de mise en œuvre 13
-2.2.1- Construction de la chaîne de traitement et paramétrage
-2.2.2- Interprétation et synthèse des résultats
-2.2.3- Comparaison avec la méthode d’ajustement traditionnelle (blocs)
-2.3- Limites de la méthode et biais possibles 17
-3- Module PAPA3 : rééchantillonnage (Jackknife, Bootstrap)
-3.1- Principe 17
-3.2- Exemple de mise en œuvre 19
-3.2.1- Description du plan de croisements et présentation des modèles
statistique et génétique
-3.2.2- Construction et paramétrage de la chaîne de traitement
-4- Test de la pertinence et réalisation d’ajustements
combinant Papadakis++ et un effet bloc 25
-5- Autres possibilités d’utilisation et points particuliers 33
-6- Notes sur le rééchantillonnage 34
-7- En guise de conclusion 36
Bibliographie 37
Annexes
(Listings et résultats des calculs sur les exemples traités)
Annexe 1. Premiers enregistrements des données primaires et ajustées selon Papadakis ++ 39
Annexe 2. Script de pilotage de PAPA1 (procédure iris) 39
Annexe 3. Script de pilotage de PAPA2 (procédure lis) 42
Annexe 3-bis. Script de pilotage de PAPA2 « ad libitum » (procédure bleuet) 48
Annexe 4. Principaux résultats de la chaîne PAPA1 (procédure iris) 55
Annexe 5. Principaux résultats de la chaîne PAPA2 (procédure lis) 62
Annexe 6. Script de pilotage de chaîne de rééchantillonnage PAPA3 (procédure violette) 63
3
-1- Présentation du modèle et des algorithmes
-1.1- Principes généraux
Le modèle de base, « plus proches voisins » (« nearest neighbours »), était initialement
envisagé au niveau de parcelles expérimentales et non au niveau individuel (Papadakis 1937, 1940
& 1984, Dagnélie 1987 & 1989, Pichot 1993). C’est une variante particulière des statistiques
spatiales dont Cilas (1995) à fait un inventaire et qu’il a comparées à d’autres méthodes
d’ajustement aux effets environnementaux. Souvent baptisé ‘ARMA’ dans la littérature anglo-
saxonne (autoregressive moving average), le modèle est fondé sur l’existence d’une forte
corrélation entre les performances de parcelles contiguës ; il peut être considéré comme une
généralisation de l’ajustement par rapport à des parcelles témoins (Dagnélie 1987), en réitérant
éventuellement cet ajustement par un traitement symétrique des parcelles voisines que l’on ajuste
les unes par rapport aux autres (Bartlett 1978, Bezag 1983, Azais et al. 1990, Goumari 1990). Une
prise en compte de la compétition entre parcelles adjacentes a été proposée (Besag et Kempton
1986). De nombreuses variantes ont été suggérées ou inventoriées (Gleeson et Cullis 1987,
Sébastien 1993), ce dernier auteur montrant que les paramètres de la régression obtenue par
réitération convergent vers ceux attendus par la méthode du maximum de vraisemblance. Kempton
et Howes (1981) ont proposé et et testé un modèle d’ajustement utilisant simultanément la
régression sur les plus proches voisins et la prise en compte d’un effet bloc, approche reprise dans
la méthode présentée ici. Transposée au niveau individuel (Pichot 1993), la méthode de Papadakis
consiste à générer autour de tout ou partie des individus d’un essai agronomique une
« covariable » représentant la moyenne d’un groupe de voisins pour la même variable que celle
qui est observée sur l’ensemble de l’essai. Plus précisément, la covariable est la moyenne des
résidus d’un modèle d’analyse de variance à un facteur que nous supposerons de nature génétique
et aléatoire puisque la méthode présentée ici doit avant tout servir à affiner des estimations de
paramètres génétiques ou à augmenter des espérances de gain génétique lors d’une sélection, sur
index par exemple. Cette définition n’est en aucune façon restrictive, car on pourrait appliquer
exactement la même méthode en partant d’un modèle d’analyse de variance à effets fixés). La
covariable sert à ajuster l’observation portant sur chaque individu-pivot, de façon à réduire le
« bruit de fond » environnemental, par une régression linéaire simple de la valeur de l’individu-
pivot sur le résidu moyen. Le modèle présenté ci-dessous a été largement utilisé par Bertrand sur
C. arabica (2002), avec une efficacité globalement supérieure à celle d’un ajustement à l’effet
bloc, tant pour l’accroissement des valeurs d’héritabilité que pour la réduction de leurs intervalles
de confiance.
Nous supposerons que tout individu de l’expérience peut être rattaché à une unité
génétique
Gi
d’effectif
2
ni
; en d’autres termes, que l’on peut calculer un résidu pour chacun.
Ainsi, on peut écrire :
),( ji
Eij
Gi
Yij
(1)
avec :
T
i
ni
jYij
N
Y1 1
1
..
ˆ
Y
ni
jYij
ni
Yi
Gi..
1
1
ˆ
.
ˆ
Yi
Yij
Eij .
ˆ
4
est la moyenne générale de l’essai et
Gi
est l’effet de l’unité génétique i. Les autres
notations suivent les conventions habituelles et ne seront pas commentées.
L’ajustement le plus courant, s’il existe un dispositif de terrain, consiste à éliminer dans
la valeur du phénotype la partie attribuable à un effet bloc fixé, selon le modèle :
Eihj
h
Gi
Yihj
(2)
Considérons une structure de voisinage théorique,
, de forme et de dimensions
précisées ci-dessous (Figure 1), ou un cas particulier correspondant à une ellipse « pleine » (Figure
2), et soit un individu-pivot
Yxy)(
, repéré par un couple de coordonnées cartésiennes (x, y),
auquel on peut faire correspondre un groupe de voisins
r
(groupe de voisinage relatif
correspondant à la structure
). On peut écrire, en combinant les deux notions indépendantes de
repérage dans le plan et d’appartenance à une unité génétique :
Exyij
r
Eb
Gi
Yxyij
)(
)(
)(
(3)
avec :
nxy
r
Yji Eji
r
E)(
ˆ
)(
nxy)(
est l’effectif du groupe de voisinage relatif,
r
, rattaché à l’individu de coordonnées
(x,y). Cet effectif est a priori considéré comme variable, du fait de mortalités et/ou d’absence de
mesures sur certains individus ainsi que de la position du couple de coordonnées (x, y) par rapport
aux bordures (troncature possible de la configuration de voisinage théorique,
).
On pose :
)()( ijji
, ce qui veut dire que l’une des deux coordonnées au moins est différente de
(x, y), car l’individu- pivot doit être exclu du groupe de voisinage, pour limiter autant que possible
les auto-corrélations d’origine génétique.
Si l’on suppose que l’on a mesuré p variables sur chaque individu de l’essai, on peut
transformer le modèle (3), en remplaçant une régression simple par une régression multiple :
Exyij
r
Ep
bp
r
E
b
r
E
bGi
Yxyij
)(
)(...)(
2
2
)(
1
1
)(
(4)
Ce groupe de variables peut inclure ou non celle qui est observée sur l’individu-pivot.
Le nouveau modèle est supposé apurer de façon optimale la valeur observée sur chaque
individu-pivot de la variabilité environnementale. L’efficacité de l’ajustement sera mesurée,
comme pour les modèles (2) et (3), par la réduction de la variance résiduelle,
2
E
. Au fil des
réitérations, on tendra vers un palier correspondant à la stabilisation du système (relations entre
arbre-pivot et voisins, lorsque l’on a éliminé le plus possible dans les résidus leur composante
génétique).
5
First dimension
Second dimension
W
N
S
180
360
90 270
E
R2
R1
Fig. 1. Determination des structures de voisinage (ou mailles) entourant chaque individu.
Un groupe de voisins est situé à l’intersection de l’angle

avec la zone grisée représentant la
couronne d’ellipse. Le centre de l’ellipse représente l’individu-pivot
-

est le coefficient d’aplatissement de l’ellipse
- R1 est son rayon minimum, selon la première dimension (lignes de plantation)
- R2 est son rayon maximum) selon cette première dimension
-

est l’orientation de la bissectrice du secteur de couronne par rapport à la direction de
référence (base des lignes de plantation)
-

est l’angle d’ouverture du secteur de couronne d’ellipse.
Deuxième dimension
Première dimension
1 / 71 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !