Un ajustement multi-dimentionnel du Phénotype à l

publicité
Papadakis++
Un ajustement multi-dimentionnel du Phénotype à l’Environnement
Notice d’utilisation du logiciel
Ph. Baradat et Th. Perrier (UMR AMAP / INRA Dept FMN)
Juin 2003
Résumé
La méthode dite « de Papadakis » d’ajustement à des effets environnementaux, appliquée à des
valeurs individuelles, a pour principe, dans sa variante présentée ici, d’éliminer de la valeur
phénotypique de chaque individu (individu-pivot) un effet environnemental concernant un
caractère donné par régression multiple sur une covariable constituée par la moyenne de
« résidus », pour ce même caractère, d’individus voisins. La position relative moyenne de ces
voisins par rapport au pivot peut être définie par des « mailles » ou configurations de voisinage.
Les résidus sont définis comme les écarts de chaque individu à la moyenne de la classe
génotypique dont il fait partie (population, famille, clone…). Une méthode étendue utilisant ce
principe est implémentée dans le logiciel DIOGENE ; elle diffère de la méthode traditionnelle par
la prise en compte simultanée de mailles multiples et de résidus moyens calculés sur un nombre
quelconque de variables. Elle est mise en œuvre par trois modules constituant chacun un métaprogramme. Un méta-programme est défini dans DIOGENE comme une séquence ordonnée de
programmes différents, interfacés les uns par rapport aux autres, et manipulant des fichiers de
formats compatibles. Cette séquence de programmes, qui permet de traiter un modèle spécifique,
est référencée par un nom. Le chaînage des programme élémentaires est effectué automatiquement
par le superviseur utilisé pour générer le script de pilotage de la chaîne de traitement (OPEP si
l’on n’utilise pas le gestionnaire de menu déroulant, OPEP2 dans le cas contraire). On peut
réaliser un rééchantillonnage (Jackknife ou Bootstrap) sur une chaîne de traitement incluant
Papadakis++. La façon d’opérer est indiquée en détail. Par ailleurs, il est possible d’intégrer un
effet bloc dans le modèle général et de tester son apport à l’ajustement aux effets
environnementaux. Un autre module, FLGENE (flux de gènes), relevant de la rubrique
« génétique des populations », suit une logique très semblable et sera présenté brièvement. La
version actuelle du logiciel (mise à jour du 21/05/2003) permet de contrôler la composition
génotypique des configurations de voisinage en comparant ou non chaque voisin à l’individu-pivot
ou en triant ces voisins sur une liste en fonction de leur génotype. Elle permet également, dans le
cas d’une configuration à géométrie de maille unique ou multiple, d’utiliser pour l’ajustement une
régression multiple pondérée selon une fonction définie par l’utilisateur des effectifs d’individus
vivants dans une maille de référence. Cette méthodologie est particulièrement adaptée à
l’affinement de l’estimation de paramètres génétiques en populations naturelles (en forêt, par
exemple). Elle peut prendre en compte, en effet, l’évolution dans le temps des positions
sociologiques des individus dans un peuplement.
Sommaire
-1- Présentation du modèle et des algorithmes
-1.1- Principes généraux
-1.2- Amélioration de l’ajustement (génotypes des voisins)
-1.3- Amélioration de l’ajustement (effectif « utile » par maille)
4
7
8
-2- Mise en œuvre pratique
-2.1- Programmes élémentaires, modules et enchaînement
-2.2- Exemple de mise en œuvre
11
13
-2.2.1- Construction de la chaîne de traitement et paramétrage
-2.2.2- Interprétation et synthèse des résultats
-2.2.3- Comparaison avec la méthode d’ajustement traditionnelle (blocs)
-2.3- Limites de la méthode et biais possibles
17
-3- Module PAPA3 : rééchantillonnage (Jackknife, Bootstrap)
-3.1- Principe
-3.2- Exemple de mise en œuvre
17
19
-3.2.1- Description du plan de croisements et présentation des modèles
statistique et génétique
-3.2.2- Construction et paramétrage de la chaîne de traitement
-4- Test de la pertinence et réalisation d’ajustements
combinant Papadakis++ et un effet bloc
-5- Autres possibilités d’utilisation et points particuliers
-6- Notes sur le rééchantillonnage
-7- En guise de conclusion
Bibliographie
25
33
34
36
37
Annexes
(Listings et résultats des calculs sur les exemples traités)
Annexe 1. Premiers enregistrements des données primaires et ajustées selon Papadakis ++
Annexe 2. Script de pilotage de PAPA1 (procédure iris)
Annexe 3. Script de pilotage de PAPA2 (procédure lis)
Annexe 3-bis. Script de pilotage de PAPA2 « ad libitum » (procédure bleuet)
Annexe 4. Principaux résultats de la chaîne PAPA1 (procédure iris)
Annexe 5. Principaux résultats de la chaîne PAPA2 (procédure lis)
Annexe 6. Script de pilotage de chaîne de rééchantillonnage PAPA3 (procédure violette)
2
39
39
42
48
55
62
63
-1- Présentation du modèle et des algorithmes
-1.1- Principes généraux
Le modèle de base, « plus proches voisins » (« nearest neighbours »), était initialement
envisagé au niveau de parcelles expérimentales et non au niveau individuel (Papadakis 1937, 1940
& 1984, Dagnélie 1987 & 1989, Pichot 1993). C’est une variante particulière des statistiques
spatiales dont Cilas (1995) à fait un inventaire et qu’il a comparées à d’autres méthodes
d’ajustement aux effets environnementaux. Souvent baptisé ‘ARMA’ dans la littérature anglosaxonne (autoregressive moving average), le modèle est fondé sur l’existence d’une forte
corrélation entre les performances de parcelles contiguës ; il peut être considéré comme une
généralisation de l’ajustement par rapport à des parcelles témoins (Dagnélie 1987), en réitérant
éventuellement cet ajustement par un traitement symétrique des parcelles voisines que l’on ajuste
les unes par rapport aux autres (Bartlett 1978, Bezag 1983, Azais et al. 1990, Goumari 1990). Une
prise en compte de la compétition entre parcelles adjacentes a été proposée (Besag et Kempton
1986). De nombreuses variantes ont été suggérées ou inventoriées (Gleeson et Cullis 1987,
Sébastien 1993), ce dernier auteur montrant que les paramètres de la régression obtenue par
réitération convergent vers ceux attendus par la méthode du maximum de vraisemblance. Kempton
et Howes (1981) ont proposé et et testé un modèle d’ajustement utilisant simultanément la
régression sur les plus proches voisins et la prise en compte d’un effet bloc, approche reprise dans
la méthode présentée ici. Transposée au niveau individuel (Pichot 1993), la méthode de Papadakis
consiste à générer autour de tout ou partie des individus d’un essai agronomique une
« covariable » représentant la moyenne d’un groupe de voisins pour la même variable que celle
qui est observée sur l’ensemble de l’essai. Plus précisément, la covariable est la moyenne des
résidus d’un modèle d’analyse de variance à un facteur que nous supposerons de nature génétique
et aléatoire puisque la méthode présentée ici doit avant tout servir à affiner des estimations de
paramètres génétiques ou à augmenter des espérances de gain génétique lors d’une sélection, sur
index par exemple. Cette définition n’est en aucune façon restrictive, car on pourrait appliquer
exactement la même méthode en partant d’un modèle d’analyse de variance à effets fixés). La
covariable sert à ajuster l’observation portant sur chaque individu-pivot, de façon à réduire le
« bruit de fond » environnemental, par une régression linéaire simple de la valeur de l’individupivot sur le résidu moyen. Le modèle présenté ci-dessous a été largement utilisé par Bertrand sur
C. arabica (2002), avec une efficacité globalement supérieure à celle d’un ajustement à l’effet
bloc, tant pour l’accroissement des valeurs d’héritabilité que pour la réduction de leurs intervalles
de confiance.
Nous supposerons que tout individu de l’expérience peut être rattaché à une unité
génétique G i d’effectif n i  2 ; en d’autres termes, que l’on peut calculer un résidu pour chacun.
Ainsi, on peut écrire : (i, j )
Y ij    G i  E ij (1)
avec :
̂  Y .. 
1 T ni
  Y
N i 1 j 1 ij
Gˆ i  Y i.  ˆ 
1 ni
 Y ij  Y ..
n i j 1
Eˆ ij  Y ij  Y i.
3
où  est la moyenne générale de l’essai et G i est l’effet de l’unité génétique i. Les autres
notations suivent les conventions habituelles et ne seront pas commentées.
L’ajustement le plus courant, s’il existe un dispositif de terrain, consiste à éliminer dans
la valeur du phénotype la partie attribuable à un effet bloc fixé, selon le modèle :
Y ihj    Gi   h  E ihj (2)
Considérons une structure de voisinage théorique,  , de forme et de dimensions
précisées ci-dessous (Figure 1), ou un cas particulier correspondant à une ellipse « pleine » (Figure
2), et soit un individu-pivot Y ( xy) , repéré par un couple de coordonnées cartésiennes (x, y),
auquel on peut faire correspondre un groupe de voisins  r (groupe de voisinage relatif
correspondant à la structure ). On peut écrire, en combinant les deux notions indépendantes de
repérage dans le plan et d’appartenance à une unité génétique :
Y ij ( xy)    G i  bE ( r )  E ij ( xy) (3)
avec : E ( r ) 

Eˆ i j 

Y i j  r
n ( xy)
où n ( xy) est l’effectif du groupe de voisinage relatif,  r , rattaché à l’individu de coordonnées
(x,y). Cet effectif est a priori considéré comme variable, du fait de mortalités et/ou d’absence de
mesures sur certains individus ainsi que de la position du couple de coordonnées (x, y) par rapport
aux bordures (troncature possible de la configuration de voisinage théorique, ).
On pose : (i j )  (ij ) , ce qui veut dire que l’une des deux coordonnées au moins est différente de
(x, y), car l’individu- pivot doit être exclu du groupe de voisinage, pour limiter autant que possible
les auto-corrélations d’origine génétique.
Si l’on suppose que l’on a mesuré p variables sur chaque individu de l’essai, on peut
transformer le modèle (3), en remplaçant une régression simple par une régression multiple :
Y ij ( xy)    G i  b1 E 1( r )  b 2 E 2 ( r )  ...  b p E p ( r )  E ij ( xy) (4)
Ce groupe de variables peut inclure ou non celle qui est observée sur l’individu-pivot.
Le nouveau modèle est supposé apurer de façon optimale la valeur observée sur chaque
individu-pivot de la variabilité environnementale. L’efficacité de l’ajustement sera mesurée,
comme pour les modèles (2) et (3), par la réduction de la variance résiduelle,  2 . Au fil des
E
réitérations, on tendra vers un palier correspondant à la stabilisation du système (relations entre
arbre-pivot et voisins, lorsque l’on a éliminé le plus possible dans les résidus leur composante
génétique).
4
Première
dimension
Firs t dimens ion
180
W
N
R2


90
270
Deuxième
dimension
Second
dimens
ion
R1
S
360
E
Fig. 1. Determination des structures de voisinage (ou mailles) entourant chaque individu.
Un groupe de voisins est situé à l’intersection de l’angle avec la zone grisée représentant la
couronne d’ellipse. Le centre de l’ellipse représente l’individu-pivot
- est le coefficient d’aplatissement de l’ellipse
- R1 est son rayon minimum, selon la première dimension (lignes de plantation)
- R2 est son rayon maximum) selon cette première dimension
- est l’orientation de la bissectrice du secteur de couronne par rapport à la direction de
référence (base des lignes de plantation)
- est l’angle d’ouverture du secteur de couronne d’ellipse.
5
Fig. 2. Exemple de configuration de voisinage (maille) correspondant à une ellipse « pleine » à
grand axe orienté perpendiculairement aux lignes de plantation.
Espacement entre lignes : 7.5 m. (soit 1.5 unité d’abscisse).
Espacement entre individus sur la ligne : 5 m.
Rayon minimum (R1) : 0
Rayon maximum (R2) : 8.64 m (1.73 unité d’abscisse).
Les individus autres que le pivot sont représentés par ce symbole.
Le centre de l’ellipse représente l’individu-pivot, identifié par ce symbole.
 est le coefficient d’aplatissement de l’ellipse, rayon perpendiculaire / rayon sur la ligne : 1.94
est l’orientation de la bissectrice du secteur de couronne : quelconque (0 degré, par exemple).
est l’angle d’ouverture du secteur de couronne d’ellipse : 360 degrés.
Une deuxième étape dans la généralisation du modèle de Papadakis consiste à ne pas
privilégier une configuration de voisinage (ou maille) donnée, mais à tester, parmi c mailles, celles
qui permettent le meilleur ajustement de la variable observée sur l’individu-pivot, en utilisant
toujours les p variables du modèle (4). Ceci revient, en fait, à construire un modèle de régression
multiple avec c x p « variables explicatives » :
1
1
Y ij ( xy)    G i  b11 E 1
1( r )  b 21 E 2 ( r )  ...  b p1 E p ( r )
 ...  b cp E cp ( r )  E ij ( xy) (5)
6
On peut, enfin, combiner les modèles (3) et (5), en ajustant simultanément les observations
du pivot par un effet bloc et par régression multiple sur des variables environnementales. Ce
modèle composite s’écrit :
1
1
Y ijh( xy)    G i   h  b11 E 1
1( r )  b 21 E 2 ( r )  ...  b p1 E p ( r )
 ...  b cp E cp ( r )  E ijh( xy) (6)
Dans les modèles (4), (5) et (6), une régression multiple descendante avec p ou c x p
« variables explicatives » au premier palier et une seule au dernier palier (Snedecor et Cochran
1980) permettra d’identifier les variables ou les combinaisons configuration x variable les plus
efficaces pour l’ajustement et de tester leur signification.
Une fois ce choix réalisé, les calculs peuvent être réitérés, de façon à ajuster les variables
retenues chez les voisins (qui deviennent à leur tour des arbres-pivots), selon la méthode
« Papadakis réitérée » (Pichot 1993). Il en résulte logiquement une réduction du terme d’erreur,
mesurable par la diminution de la variance résiduelle. Il faut noter que la symétrie de traitement
entre individus-pivots et voisins (en principe, un même individu passe tour à tour d’une catégorie
dans l’autre) suggère que l’on traite les mêmes observations sur l’ensemble des arbres de l’essai,
même si l’on ne cherche à ajuster qu’une partie d’entre eux (cf. 2.2). Toutefois, l’implémentation
actuelle du modèle permet de définir dans la population deux groupes d’individus :
- Ceux qui ne serviront que de pivots ;
- Ceux qui serviront à la fois de pivots et de membres de groupes de voisinage.
Sur le premier groupe, on peut ne disposer que de « caractères d’intérêt » relativement
difficiles à mesurer (par exemple, des rapports isotopiques C13/C12 ou des analyses biochimiques),
alors que le deuxième sera caractérisé, par exemple, par des caractères « dendrométriques »
(hauteur, diamètre, caractéristiques de l’architecture…).
Les deux aspects nouveaux de ce modèle : covariables multiples et « mailles » multiples
(d’où l’appellation « Papadakis++ »), doivent en principe le rendre plus puissant et mieux adapté
sur le plan biologique que le modèle de Papadakis traditionnel. En effet, les voisins proches de
l’individu-pivot pourront avoir avec lui des relations de compétition, plus importants que les effets
d’environnement commun, se traduisant par une corrélation négative pour le même caractère. En
revanche, ceux qui sont plus éloignés et échappent à ce type de relation traduiront alors uniquement
des effets d’environnement commun (corrélation positive avec l’individu-pivot). Par ailleurs, la
sensibilité à la compétition étant variable selon les caractères, la régression multiple descendante
classera automatiquement les caractères dans les « mailles critiques » correspondant à ces deux
types de relations (compétition et environnement commun). Enfin, les mailles pourront être soit
disjointes (par exemple, couronnes de cercles emboîtées) ou présenter des individus communs (par
exemple, cercles de rayon variable) : le modèle de régression multiple autorise, en effet, des autocorrélations entre mailles pour les diverses variables. Le premier type de maille est plus adapté à
l’analyse biologique, puisqu’on peut ainsi comparer les propriétés de groupes disjoints pour leurs
relations avec l’individu-pivot. En revanche, les mailles « chevauchantes » correspondent mieux
aux préoccupations pratiques du sélectionneur (ajustement optimal des données avec le minimum
de « trous » dans certaines mailles).
-1.2- Amélioration de l’ajustement en tenant compte du génotype des voisins
Les modèles présentés ci-dessus excluent a priori l’individu-pivot de la configuration de
voisinage ; ceci pour éviter une covariance génétique entre le résidu moyen et sa valeur
phénotypique, qui conduirait, lors de l’ajustement, à éliminer une partie de sa composante
7
génétique. Poussant plus loin ce raisonnement, on peut penser qu’il est, pour les mêmes raisons,
souhaitable d’éliminer du calcul des résidus moyen tous les individus apparentés au pivot (a
fortiori s’il s’agit de génotypes identiques, lorsque le modèle est appliqué à un essai clonal ou à des
lignées). Par ailleurs, on peut souhaiter faire jouer un rôle privilégié dans l’ajustement à certains
groupes d’individus. Ces individus peuvent constituer des catégories génotypiques particulièrement
sensibles aux variations environnementales, pour les caractères observés (par exemple, des clones
très sensibles à la rouille, introduits dans test de descendance de peupliers dont l’un des objectifs
est la sélection de génotypes résistants) ; il peut également s’agir de « témoins » introduits dans
l’essai selon une répartition plus ou moins régulière, et dont le rôle pourrait être en partie de
constituer des « ponts » entre plusieurs essais comparant des unités génétiques au moins en partie
différentes d’un essai à l’autre. Enfin, le même principe permet de distinguer les deux groupes
d’individus définis plus haut (observés pour des « caractères d’intérêt » ou pour des variables
dendrométriques).
Papadakis++ propose à cet effet l’option TRIGENE (cinquième paramètre du programme
COMPEX), qui peut prendre quatre modalités différentes.
- 0 : Le génotype des individus inclus dans la maille n’est pas contrôlé (seul l’individu-pivot
est exclu quels que soient les paramètres de la maille) ;
- 1 : Les individus ayant le même code génotypique que le pivot sont exclus ;
- 2 : Les individus dont les codes sont sur une « liste d’inclusion » peuvent faire partie de la
maille, ceux qui ont le même code génotypique que le pivot étant exclus ;
- 3 : Les individus dont les codes ne figurent pas sur une « liste d’exclusion » peuvent faire
partie de la maille, ceux qui ont le même code génotypique que le pivot étant exclus.
Si l’on choisit les modalités 2 ou 3, on indique le nom du fichier de norme ANTAR, avec le
format : 1 indicatif, 1 individu et 0 caractère (cf. le manuel général de DIOGENE), qui donne la
liste des codes génotypiques concernés. Ce fichier peut être soit directement créé dans la directory
de travail avec l’utilitaire de saisie de DIOGENE (STOCK) soit être généré avec EXCEL et
transcodé par l’utilitaire ASCBIN après son importation par FTP.
Par souci de concision, les exemples développés ci-dessous ne concernent que la modalité 0
de l’option TRIGENE ainsi que les modalités « n » et 0 de l’option REGPOND décrite dans le
paragraphe suivant. Toutefois, les conclusions générales qui en sont tirées sont valables pour les
modalités 1, 2 et 3 du paramètre.
-1.3- Amélioration de l’ajustement en y intégrant l’effectif « utile » par maille
Que l’on ait choisi une seule géométrie de maille ou plusieurs, on peut ajuster le phénotype
par une régression multiple selon le critère des « moindres carrés pondérés », c’est-à-dire
minimisant la somme des carrés des écarts des valeurs observés de l’individu-pivot en affectant à
l’individu i une masse mi . Le critère devient :  m i (Y i Yˆ i ) 2 minimum.
i
Les q coefficients de régression partiels : b1 , b 2 , … b q , sont alors estimés sous forme
matricielle par :
1
'
'
bˆ  ( X  M  X )  X  M Y  (7)

8
où
 X  est
la matrice (n, q) des q variables explicatives mesurées sur les n individus,
Y  le
vecteur colonne (n, 1) de la variable expliquée et  M  une matrice carrée (n, n) qui comporte les
éléments mi sur sa diagonale et des « 0 » ailleurs.
Les quatre valeurs possibles du paramètre REGPOND sont alors les suivantes :
- 0 : régression multiple non pondérée ;
1 n i
- 1 : mi 
(moyenne arithmétique de l’effectif du pivot et de la maille associée) ;
2
- 2 : mi  n i (moyenne géométrique) ;
2 ni
- 3 : mi 
(moyenne harmonique).
1 n i
Les effectifs utilisés pour cette pondération seront ceux correspondant au premier « jeu » de
paramètres ; il convient alors que celui-ci corresponde à la maille la plus « interne » (celle pour
laquelle les voisins sont les plus proches du pivot). En effet, c’est pour cette maille que l’effectif
jouera le rôle le plus « limitant » pour la précision de l’estimation des variables explicatives.
La pondération permet de tenir compte des inégalités locales d’effectifs dues aux
différences de mortalité ainsi que des effets de bordure qui tronquent la structure géométrique
théorique de la maille. La moyenne arithmétique donne aux mailles un poids pratiquement
proportionnel à leur effectif. La moyenne harmonique aboutit à limiter l’influence de mailles de
très faible effectif et à égaliser celle des mailles d’effectifs moyens et forts, car elle vaut au
minimum mi  1 pour n i 1 et tend asymptotiquement vers une valeur limite mi  2 lorsque ni  1 .
La moyenne géométrique réalise un compromis entre ces deux systèmes de pondération. Un autre
avantage de la pondération est de réduire l’hétéroscédasticité des résidus de la régression, si elle
existe (Antoniadis et al. 1992, Ryan 1997).
Sur le plan pratique, l’option « régression multiple pondérée » est paramétrée au niveau des
modules élémentaires :
- COMPEX (deux modalités, « o » ou « n »). C’est le sixième paramètre (il suit
TRIGENE qui a été explicité en 1.2). Si TRIGENE vaut 2 ou 3, il sera décalé en septième position,
puisque le nom du fichier donnant la liste d’inclusion/exclusion des génotypes sera donné après la
modalité de TRIGENE ;
- MATCOR (les quatre modalités 0-3 indiquées ci-dessus). Il suit alors la modalité
concernant le choix de chaînage de la régression multiple (REGMUL = « o »), le paramètre ne
figurant pas si REGMUL = « n » (le choix étant forcément « o » dans le cadre des modules PAPA1
et PAPA2). Il est alors le neuvième paramètre.
Si REGPOND = « o », le module COMPEX crée un fichier spécialisé, weights, avec son
fichier paramètre weights.p (donc, facilement éditable par l’utilisateur avec les utilitaires LIRE et
LECTUR). Ce fichiers a autant d’enregistrements que d’individus-pivots, chacun comportant 0
indicatif, un « individu » , les effectifs du pivot pour chaque caractère (1 chaque fois), puis les
effectifs par caractère pour chaque maille : caractère 1, maille 1, caractère 1, maille 2, caractère 1,
maille 3,…caractère (nbcar), maille (nbmaille).
Si REGPOND = 1, 2, ou 3, le programme MATCOR lit le fichier weights, calcule le
nombre de caractères et de mailles, et utilise les effectifs de la première maille définie dans le
9
paramétrage de COMPEX pour utiliser les pondérations décrites ci-dessus dans le calcul des
matrices se variances-covariances et le calcul du vecteur de moyennes (moyennes « simples »
remplacées par des moyennes pondérées). Le programme REGMUL opère alors sur cette matrice
et ce vecteur redéfinis sans qu’il soit besoin de modifier son paramétrage. Le paramétrage du
programme RIVES, qui calcule les valeurs ajustées, est également inchangé.
Remarque : L’option REGPOND exige que le fichier de données de départ comporte un seul
individu/enregistrement. Si ce n’est pas le cas, en changer le format avec l’utilitaire COMPAC.
10
-2- Mise en œuvre pratique
-2.1- Programmes élémentaires, modules et enchaînement
Les programmes utilisés sont un sous-ensemble du logiciel DIOGENE et appartiennent à
deux groupes ou « modules », gérés de façon transparente pour l’utilisateur par le gestionnaire de
menus déroulants (DIOGENE) et les deux superviseurs (OPEP et OPEP2).
Module PAPA1 :
Ce module comporte la chaîne ordonnée des cinq programmes suivants :
- CRECAR : génération des résidus du modèle d’analyse de variance à un facteur pour
chaque variable étudiée, selon la formule (1).
- COMPEX : réalisation des configurations de voisinage,  r , correspondant à tout ou
partie des individus représentés dans le dispositif ; le programme utilise les 5 paramètres détaillés
dans la légende de la figure (1) :  , R1, R2,  et  .
- FUSION : mise en correspondance dans un fichier unique des moyennes de résidus et des
observations brutes correspondant aux individus-pivots.
- MATCOR : calcul des matrices de variances-covariances et de corrélations sur l’ensemble
des « variables » (en considérant comme une « variable » chacune des c x p moyennes concernant
les combinaisons entre caractères et configurations de voisinage). Le nombre total de « variables »
est alors au maximum de c ( p 1) .
- REGMUL : régression multiple descendante des q p variables d’intérêt observées sur les
individus-pivots sur les c x p moyennes de résidus.
C’est ce dernier programme qui permet de sélectionner le sous-ensemble utile parmi les c x
p moyennes de résidus. Les paramètres correspondants seront utilisés pour le lancement du module
suivant qui se fera par l’intermédiaire du moteur de réitération, JBSTAR, qui gère à la fois ce
module et les diverses possibilités de rééchantillonnage par les méthodes du Jackknife et du
Bootstrap. A ce niveau, des sous-programmes adaptés à une optimisation contextuelle permettent
de réitérer seulement une partie de la chaîne de traitement, ou de réaliser une sauvegarde
intelligente du fichier de données primaires (bascule permettant de choisir entre sauvegarde des
données primaires ou régénération des observations brutes dans ce fichier).
Module PAPA2 :
Ce module comporte une chaîne ordonnée de 7 programmes différents dont 3 sont
communs avec PAPA1 (mais seront paramétrés différemment). Le premier module (PINEDE) a en
fait deux fonctions :
- Calcul des variances résiduelles initiales et après chaque réitération ;
- Ecriture de ces variances résiduelles dans un fichier de service (INDEX) qui sera exploité
par un dernier module annexé à la chaîne (JBPAP).
11
C’est ce dernier module qui permet de déterminer l’évolution de la variance résiduelle au fil
des itérations et de tracer la courbe correspondante (voir précisions ci-dessous). Les formules
d’ajustement écrites ci-dessous sont conformes aux modèles (4) et (5) ; celles qui dérivent des
modèles (2) et (6), qui comportent un effet bloc, s’en déduisent sans difficulté.
- PINEDE : réalisation d’une analyse de variance à un facteur selon la formule (1).
- CRECAR : génération des résidus du modèle à un facteur pour chacune des variables
sélectionnées après exécution de PAPA1, selon la formule (1).
- COMPEX : réalisation des configurations de voisinage,  r , correspondant aux individuspivots ; il fonctionne comme dans le module précédent mais ne génère ici que les résidus
correspondant au sous-ensemble utile parmi les c x p combinaisons groupe de voisins-variables ; ce
sous-ensemble aura été sélectionné par l’utilisateur.
- FUSION : mise en correspondance dans un fichier unique des moyennes de résidus et des
observations brutes correspondant aux individus-pivots, exactement comme pour le module
précédent.
- MATCOR : calcul des matrices de variances-covariances et de corrélations sur l’ensemble
des « variables » retenues après exécution du module PAPA1.
- REGMUL : régression multiple des q caractères d’intérêt sur l’ensemble des résidus
moyens des configurations de voisinage ; concernant le paramétrage, on gardera pour chacune de
ces q variables expliquées le même nombre de « variables » explicatives au dernier palier qu’au
premier. Ainsi, on aura le même nombre de degrés de liberté pour le carré moyen d’erreur de
chacune de ces variables dans les analyses de variances portant sur les données ajustées (par
exemple, analyse selon un plan de croisements afin d’estimer des paramètres génétiques ou de
calculer des index de sélection).
- RIVES : calcul des valeurs ajustées de chacune des variables étudiées sur les individuspivots (sortie dans le fichier de service DUMAS) : Y ij ( xy)  Y ij ( xy)  Yˆ ij ( xy)  ̂
Ce programme redirige in fine le contenu de DUMAS et de son fichier paramètre vers son
propre fichier de données d’entrée et son fichier paramètre, qui sont aussi les fichiers d’entrée du
programme de début de chaîne (PINEDE) : dans l’exemple traité, le fichier mal4d aura le format et
le contenu de DUMAS.
non
Fin ?
oui
JBPAP (chaînage automatique via JBSTAR)
Cette chaîne est réitérée (quelques dizaines de fois sont en principe suffisantes dans la
plupart des cas) par le moteur de réitération JBSTAR, de façon à visualiser la réduction de la
variance résiduelle du modèle à un facteur. Les résiduelles successives (initiales et après 1, 2, …u
réitérations), sont stockées dans un fichier de service INDEX dont le contenu sera repris par un
12
module terminal, JBPAP, qui donnera son variation absolue et relative, tout en générant un fichier
de sortie normalisé, au nom fixe (evares). Les variances successives y sont exprimées en
pourcentage de la variance initiale (qui vaut alors 100). Ce fichier permettra à l’utilisateur de tracer
(sous EXCEL, par exemple) le graphique de l’évolution relative de  2 en fonction du numéro
E
d’itération, de 1 à u + 1 (analyse de variance initiale suivie des u réitérations) Utiliser alors le
programme de transcodage TOTEM pour convertir ce fichier en ASCII avant son importation dans
EXCEL.
Module PAPA2 « ad libitum »:
Ce module est une extension de PAPA2 où la séquence de programmes décrite ci-dessus est
précédée ou suivie par une séquence permettant à la fois un ajustement complémentaire (pour un
effet bloc, mais par toute autre méthode, une analyse de covariance par exemple) et la recopie des
valeurs ajustées dans le fichier de données primaires (mal4d dans l’exemple donné ici). Ce
«module étendu » est reconnu par JBSTAR qui le valide comme entièrement rétirable et demande
alors à l’utilisateur les codes du premier programme et du dernier programme mis en œuvre
(comme s’il s’agissait d’un rééchantillonnage). La procédure bleuet (Annexe 3-bis) est un exemple
de cette extension avec un ajustement à l’effet bloc suivant l’ajustement par régression (ENVIR
« post-fixé »).
-2.2- Exemple de mise en œuvre
Le fichier mal4d, dont le début du listing figure ci-dessous (Annexe 1), représente une partie
de tranche de « verger à graines » de pin maritime avec les mesures de trois caractères à 12 ans
depuis la pépinière (hauteur, circonférence à 1.30 m et écart à la verticalité, ce dernier caractère
étant lié à la rectitude générale du fût). On se propose d’ajuster ces trois caractères en utilisant
Papadakis++ à partir de configurations de voisinage circulaires « pleines » de rayons respectifs = 2,
3 et 4 unités d’abscisse. Cette tranche comporte 12 lignes de plantation espacées de 4 m d’axe en
axe et des plants espacés de 1.10 m sur chaque ligne (2273 arbres/hectare), l’abscisse maximum
étant de 100 (donnes tronquées précisément à l’abscisse 100). Le paramètre r = « espacement entre
lignes en unités d’abscisse » vaut donc 4/1.10 = 3.64. On n’a retenu que les 837 arbres pour
lesquels les 3 caractères avaient été observés (mais, on aurait pu également, sans changer les
résultats, représenter l’ensemble des arbres installés à l’origine, en codant par « -5 » un caractère
non observable et « -9 » un caractère concernant un arbre mort au moment des observations).
Les arbres appartiennent à 28 familles maternelles, issues d’un plan de croisements
hiérarchique (18 pères en tout, chaque père étant croisé avec une ou deux mères). Le modèle à un
facteur concernera donc la famille maternelle (deuxième niveau de la hiérarchie).
Un autre fichier est requis, préalablement au démarrage des deux modules : le fichier des
coordonnées des arbres-pivots. Il doit impérativement ne comporter que deux indicatifs. Dans
l’ordre : numéro de ligne et abscisse (position sur la ligne). Le plus facile pour l’obtenir est de
tronquer les enregistrements de la population totale (programme MAJF7). Dans cet exemple, on ne
conservera que les deux premiers indicatifs. C’est ce fichier qui déterminera le nombre de pivots.
On peut, par exemple, en exclure les individus de bordure, afin de réaliser l’ajustement sur un
ensemble plus homogène (ou correspondant effectivement à la partie utile de l’essai). Ce fichier se
nomme coord dans l’exemple traité.
Remarque importante. Le fichier de données primaires, à ce stade là, comporte les données
d’origine plus les c x p « covariables ». Pour continuer sur PAPA2, il faut rétablir le fichier
d’origine. Les solutions les plus simples sont :
13
a) De supprimer ces c x p valeurs excédentaires par troncature des enregistrements (programme
MAJF7) ;
b) De remplacer ce fichier et son fichier paramètre par une sauvegarde réalisée avant lancement de
PAPA1 (par exemple, en utilisant le programme COCON)
A défaut de prendre ces précautions, les résultats obtenus seront évidemment complètement
faux…mais le fichier des données brutes ne sera pas perdu, car il sera sauvegardé par JBSTAR
sous le nom : [nom fichier]//back (ainsi que son fichier paramètre, sous le nom de [nom
fichier]//back.p). On régénèrera alors le fichier initial et son fichier paramètre avec MAJF7.
14
-2.2.1- Construction de la chaîne de traitement et paramétrage
L’Annexe 2 donne le script de pilotage des 7 programmes de la chaîne PAPA1 (iris),
précédés par les deux modules de tête (ANTAR et DEFCAR), lancés automatiquement par le
superviseur. Il est suivi des 9 fichiers paramètres correspondant à chaque programme. L’Annexe 3
donne le script (lis) correspondant au contrôle de PAPA2 et les 11 fichiers paramètres associés.
Les résidus moyens de chaque caractère sont calculés pour l’ensemble des mailles retenues ;
ils sont enregistrés dans un fichier unique nommé « voisxxx » où « xxx » représente le numéro du
caractère suivi de trois chiffres donnant le numéro d’ordre de la variable explicative (001, 002 etc.).
Si p est le nombre de variables retenues pour l’ajustement, il y aura donc p fichiers voisxxx. Il
faudra ainsi réaliser p fusions pour mettre en relation les q valeurs phénotypiques des « caractères
d’intérêt » des individus-pivots et les c x p résidus moyens (cf. le fichier paramètre iris.don.005).
Le principe reste évidemment valable pour le module PAPA2 (cf. le fichier paramètre lis.don.006),
avec, toutefois, une contrainte essentielle soulignée et expliquée par la remarque ci-dessous.
Remarque importante. Le fait que PAPA2 soit réitéré impose une contrainte implicite : Au début
de chaque réitération, le fichier de données doit revenir à son « état initial », l’ensemble des
caractères étant remplacés par leurs homologues issus des ajustements réalisés au cours de cette
réitération (par la séquence REGMUL-RIVES). Si q représente le nombre de caractères d’intérêt
(ceux que l’on souhaite ajuster), ceci impose de ne conserver dans ce fichier, en fonction des
résultats de PAPA1, que les q  variables utiles, avec q  q   p , chacune étant à la fois
« expliquée » et « explicative » (traitement symétrique des individus-pivots et de leurs voisins). On
utilisera le programme MAJF7 pour générer, si besoin est, le nouveau fichier. Il est par ailleurs
essentiel de paramétrer le programme RIVES comme cela est indiqué (fichier paramètre
lis.don.011), ceci que l’on conserve ou non l’ensemble des p variables de départ. Pour notre part,
nous considérons que, sauf cas exceptionnel, on peut garder au niveau de PAPA2 l’ensemble des p
variables retenues pour le module PAPA1 (cf. la « stratégie » retenue pour l’exemple traité). Le tri
ne concernera plus alors que les configurations de voisinage, ou mailles, utiles pour l’ajustement.
-2.2.2- Interprétation et synthèse des résultats
Les résultats donnés ci-dessous sont très partiels (ne sont transcrits que ceux qui sont
indispensables à la compréhension et à la connaissance de la structure des sorties des programmes
des deux modules). Pour une meilleure lisibilité, la plupart sont reportés en Annexe. L’Annexe 4
donne une partie des sorties de COMPEX et les principaux résultats des analyses de régression
multiple descendante (REGMUL). L’Annexe 5 indique l’essentiel des résultats permettant de
chiffrer l’efficacité des réitérations dans la réduction des variances résiduelles (module PAPA2).
L’analyse des résultats de la régression multiple descendante conduit à éliminer la configuration la
plus grande (quatre unités d’abscisse). On retient donc in fine, pour le module PAPA2, les six
« variables explicatives » combinant les trois variables étudiées et les deux cercles chevauchants
dont les rayons valent deux et de trois unités d’abscisse. D’autres stratégies sont possibles, mais
celle retenue est à notre avis à la fois la plus simple et la plus efficace. L’effet des 50 premières
réitérations est visualisé par la Figure 3. On constate une efficacité largement prépondérante des
toutes premières réitérations pour les deux premiers caractères. Quant au troisième (écart à la
verticalité), il a un comportement très différent (diminution plus faible mais régulière et quasilinéaire au début de la variance résiduelle). La réduction finale de la résiduelle est finalement du
même ordre de grandeur sur ce caractère que sur la circonférence.
15
100
95
variance résiduelle (% de valeur initiale)
90
85
80
75
hauteur_94
circonf_94
ecvert_94
70
65
60
55
50
45
40
35
1
6
11
16
21
26
31
36
41
46
51
numéro de l'itération
Fig. 3 Evolution des variances résiduelles des trois caractères exprimées en pourcentage de la
valeur initiale: hauteur, circonférence et écart à la verticalité, en fonction du numéro d’itération.
Données non ajustées à l’effet bloc.
-2.2.3- Comparaison avec la méthode d’ajustement traditionnelle (blocs)
Il convient tout d’abord de vérifier que Papadakis++, plus compliqué à mettre en œuvre
qu’un ajustement sur un effet bloc, est réellement plus efficace dans la réduction de la variance
résiduelle. Les résultats ci-dessous montrent que c’est bien le cas avec les deux configurations de
voisinage et les trois caractères retenus. Si l’on ajuste sur les effets des 24 « macroblocs »
(restructuration par rapport à la configuration d’origine de cette partie du verger qui comprenait 30
blocs à parcelles unitaires monoarbre), avec 35 arbres en moyenne par macrobloc, on obtient les
résultats ci-dessous (Tableau 2) :
Tableau 2. Résultats de l’analyse de variance en classification croisée (24 « macroblocs » x
28 familles). Test de l’effet macrobloc sur les 3 caractères et comparaison de diverses variances
résiduelles, sans ajustement, ou après ajustement par différentes méthodes
tests F de l’effet macrobloc (23 et 452 d.l.)
(Les significations sont données en %)
caractère
valeur de F
signification (%)
y 1
ht94
15.767
0.000
y 2
ci94
4.607
0.000
y 3
ev94
0.941
15.970
Variances intra-famille calculées sur les valeurs non ajustées, ajustées à l’effet bloc, ajustées
selon Papadakis++ et Papadakis++ puis effet bloc(50 réitérations)
caractère
sans ajustement à l’effet bloc
ajustement à l’effet bloc
Papadakis++ seul
Papadakis++ puis effet bloc
y 1
ht94
2.1859E+04
1.5614E+04
8.6436E+03
8.0303E+03
y 2
ci94
1.0926E+04
1.0029E+02
8.1282E+01
7.5254E+01
16
y 3
ev94
7.5293E+00
7.4729E+00
5.7635E+00
6.0997E+00
L’ajustement selon Papadakis++ est donc ici toujours plus efficace qu’un simple ajustement
à l’effet bloc, même si celui-ci est hautement significatif. Il faut noter que cela ne s’explique pas
par l’existence d’une interaction bloc x famille pour les caractères hauteur_94 et ecvert_94
(interaction non significative). Pour le caractère circonf_94, cette interaction est significative (au
seuil de 5 %), mais beaucoup moins que les effets principaux famille et bloc (qui est significative
au seuil de 0.001 %). Par ailleurs, la prise en compte de l’effet bloc après Papadakis++ apporte une
réduction sensible de la variance résiduelle pour les deux premiers caractères…mais une légère
augmentation pour le troisième. Le comportement particulier de l’écart à la verticalité peut
s’expliquer par une taille des blocs sub-optimale pour ce caractère de forme, qui est un
« syndrome » résultant de causes diverses, telles que les attaques de rouille courbeuse, Melampsora
pinitorqua, ou des conditions moins favorables à l’ancrage racinaire, qui varient à une échelle
spatiale plus importante que les facteurs influençant les deux premiers caractères. De fait, si l’on
adopte un découpage en 18 blocs (moins favorable pour les deux premiers caractères), la variance
résiduelle passe à 5.7057 E+00 (donc, reste pratiquement stable). Pourquoi ajuster, dans la
réitération, à l’effet bloc après Papadakis++ et non l’inverse ? Ce point sera discuté et illustré au
chapitre 4.
-2.3- Limites de la méthode Papadakis++ et biais possibles
Il est difficile de donner une liste exhaustives de ces limites. Toutefois, des dispositifs très
« troués » peuvent conduire à des précisions très différentes de la qualité de l’ajustement en passant
d’un individu-pivot à un autre. Il peut ainsi en résulter paradoxalement un accroissement de
l’hétérogénéité des valeurs ajustées, par rapport aux valeurs brutes. L’option « REGPOND »
présentée ci-dessus, a pour objet de limiter ces artefacts. De même, dans des peuplements mélangés
avec des espèces ayant des caractéristiques de croissance très variées, notamment au cours de la vie
du peuplement, l’utilisation de la méthode peut être délicate. Il faudrait, par exemple, disposer de
covariables permetant de reconstituer les « statuts sociaux » des individus au cours du temps
(largeurs de cernes, niveaux des verticilles…).
-3- Module PAPA3 : rééchantillonnage (Jackknife, Bootstrap)
-3.1- Principe
Les principes généraux du Jackknife et du Bootstrap sont résumés par Sokal et Rohlf (1995,
p. 820-826). Si l’on veut que les calculs de variance d’échantillonnage selon l’une ou l’autre de ces
méthodes intègrent la structuration de la variabilité environnementale dans le dispositif étudié, il
faut évidemment réaliser un rééchantillonnage incluant tous les aléas liés à l’ajustement selon
Papadakis++. C’est exactement le même problème que si l’on opère par ajustement à des effets
blocs : Un calcul non biaisé des variances d’échantillonnage doit, si le programme ENVIR est
utilisé pour cet ajustement, l’inclure dans la chaîne réitérée (sinon, ces variances seraient sousestimées). Dans le cas d’un ajustement réitéré utilisant Papadakis++ et un effet bloc, on adoptera le
même principe (voir ci-dessus la description de la sous-option « ad libitum » de PAPA2).
- Cas de Papadakis++ sans effet bloc : Il faut lancer la chaîne de 3 programmes indiquée
ci-dessous, qui sera réitérée par le moteur de réitération JBSTAR (cf. le chapitre 6 consacré au
rééchantillonnage). Le fichier de départ correspondra à la sauvegarde du dernier « produit de
fusion », lors de l’exécution du module PAPA2 réitéré (par le programme FUSION). Ce fichier a
pour nom : fubackup. Si certaines mailles n’autorisent aucun ajustement, car aucun voisin du pivot
n’est utilisable, il faudra « compacter » ce fichier fubackup, en utilisant le programme CRECAR
avec les paramètres indiqués dans la procédure trifu (qui permet d’obtenir un noouveau fichier de
départ, dénommé fubacktri dans l’example traité.
17
- Cas de Papadakis++ avec effet bloc : Il suffit d’intercaler le programme ENVIR entre
PAPA3 et le programme d’analyse de variance où se fait l’estimation des paramètres auxquels on
s’intéresse. Le fichier d’entrée de ce programme sera alors VAJUST, le fichier standard de sortie
des valeurs ajustées à un effet bloc.
Notons que les principes qui viennent d’être définis s’étendent sans difficulté au cas ou les
paramètres d’intérêt seraient situés en « aval » du programme d’analyse de variance (espérances de
gains génétiques, par exemple) : il suffit de déclarer l’ensemble des modules constituant la chaîne
de traitement qui permet d’estimer ces paramètres et d’indiquer, lors du lancement de JBSTAR, le
dernier module comme élément terminal de la réitération.
18
- MATCOR : calcul des matrices de variances-covariances et de corrélations sur l’ensemble des
« variables » retenues pour le module PAPA2.
- REGMUL : nouveau calcul par régression multiple des estimations des q caractères
d’intérêt sur l’ensemble des résidus moyens retenus dans les configurations de voisinage, modifiées
par le rééchantillonnage des individus-pivots.
- RIVES : calcul des valeurs ajustées de chacune des variables étudiées sur les individuspivots (sortie dans le fichier de service DUMAS) : Y ij  Y ij  Yˆ ij  ̂
- Programme de MANOVA (HIERA dans l’exemple traité).
non
Fin ?
oui
JBMAT ou JBVEC (chaînage automatique via JBSTAR)
Le fichier fubackup comprend les q caractères d’intérêt des individus pivots suivis par les c
x p « covariables » (en principe q = p, comme cela a été discuté plus haut)
On peut également faire suivre le programme de MANOVA de toute une chaîne conduisant
aux paramètres dont on veut obtenir les intervalles de confiance par rééchantillonnage (par
exemple, chaîne conduisant aux calculs d’espérances de gains génétiques).
-3.2- Exemple de mise en œuvre
L’exemple traité ci-dessous concerne l’estimation de paramètres génétiques sur un plan de
croisements hiérarchique chez le Pin maritime. Il se généralise facilement à tout autre plan de
croiements (factoriel, diallèle avec ou sans effets réciproques) par choix du module approprié
d’analyse de variance multivariable (CASOAR, DIAL ou REDIAL, respectivement). Un exemple
concernant le modèle diallèle est donné dans Baradat et Despez-Loustau (1997). Les formules
donnant les coefficients de prédiction génétique indiquées plus haut devront évidemment être
adaptées à chaque situation. Dans le cas d’un modèle de demi-frères (descendances maternelles ou
plan de croisement « polycross ») ou de pleins-frères obtenu par un plan « single-pair » (familles de
pleins-frères déconnectées), le module PINEDE donnera directement les coefficients de prédiction
et de corrélation génétique avec le paramétrage approprié.
-3.2.1- Description du plan de croisements et présentation des modèles
statistique et génétique
Les 28 familles de pleins-frères du fichier de données mal4d sont issues d’un plan de
croisements hiérarchique à 18 pères (niveau 1) et 28 mères (niveau 2, une ou deux mères/père) et le
modèle statistique correspondant, sans ajustement aux effets du milieu, est :
Y ijk    P i  M ij  E ijk
(8)

= moyenne générale
Pi
= effet du père i (aléatoire), de variance  2
P
19
M ij = effet de la mère j|père i (aléatoire), de variance  2
MP
E ijk = déviation intra-famille, de variance  2E
En condensant les notations et en supprimant le repérage explicite utilisé plus haut de
chaque individu-pivot par un couple de coordonnées (x, y), le modèle prenant en compte
l’ajustement selon Papadakis++ devient :
c p
Y ijk (r )    P i  M ij    b rt E ( rt )  E ijk (r ) (9)
r 1t 1
c p
où   b rt E ( rt ) représente la contribution des cp « covariables » combinant chacune la maille
r 1t 1
r et le caractère t.
Le modèle où l’ajustement se fait uniquement sur l’effet bloc,  h , s’écrit :
Y ijhk    Pi  M ij   h  E ijhk (10)
et, si l’on ajuste simultanément sur les cp covariable et un effet bloc, on obtient :
c p
Y ijhk (r )    P i  M ij    b rt E ( rt )   h  E ijhk (r ) (11)
r 1t 1
Comme indiqué en 1.1, l’évolution des quatre variances résiduelles associées aux modèles :
2
 E ,  2E  ,  2E  et  2E  mesure l’efficacité des méthodes d’ajustement. Toutefois, comme dans les
modèles (2), (3), (4) et (5), la réduction des biais sur les estimations des effets génétiques doit
logiquement influer sur les estimations de  2 et  2
et, en espérance, toujours dans le sens
P
MP
d’une réduction. Il en résulte que, globalement, on n’est pas assuré d’obtenir des estimations
d’héritabilité plus fortes quand l’efficacité de l’ajustement aux effets du milieu augmente.
Si F est le coefficient de consanguinité moyen de la population dont sont issus les parents,
les estimateurs des héritabilités au sens large et au sens strict (régression de la valeur génétique du
caractères sur sa valeur génétique) et des coefficients de prédiction génétique (régression
standardisée de la valeur génétique du caractère t sur la valeur phénotypique du caractère t  - ou
vice-versa -) sont donnés par :
4ˆ 2P
(1 F )(ˆ 2P ˆ 2 ˆ 2E)
MP
2
(1 F )ˆ 2
P ˆ M P
2
hˆ sl  4
2
2
2
(1 F ) 2 (ˆ P ˆ M P ˆ E )
2
hˆ ss 
20
(tt )
CPˆ G ss 
4 côv (Ptt')
(1 F ) ˆ 2P(t ) ˆ 2(t ) ˆ 2E(t ) ˆ 2P(t ) ˆ 2(t ) ˆ 2E(t )
MP
MP
(tt )
CPˆ G sl  4
(1 F ) côv (Ptt')  côv (tt')
MP
(1 F ) 2 ˆ 2P(t ) ˆ 2(t ) ˆ 2E(t ) ˆ 2P(t ) ˆ 2(t ) ˆ 2E(t )
MP
MP
-3.2.2- Construction et paramétrage de la chaîne de traitement
Dans cette application, la valeur choisie pour le paramètre F est de 0. En fait, ce choix est
implicite dans la valeur entrée à la ligne 19 de violette.don.008 (0.25). On récupère comme fichier
de données primaires la dernière version du fichier fubackup, qui correspond, dans l’exemple
traité, au fichier des valeurs ajustées après 35 réitérations de PAPA2 et des résidus moyens qui ont
servi à cet ajustement. Le rééchantillonnage est réalisé par le programme MATCOR et les données
des individus-pivots sont réajustées par régression sur les résidus moyens (séquence REGMULRIVES), qui subissent les fluctuations dues au choix des individus retenus à chaque réitération.
RIVES écrit les valeurs ajustées dans le fichier de service DUMAS, qui est lu par le programme de
MANOVA, HIERA (cf. le fichier paramètre violette.don.006) comme nouveau fichier de données
primaires. Comme « caractères étudiés », il est logique de ne choisir à ce niveau que les variables
expliquées (ici, les 3 premières variables). Dans cet exemple, on rentrera alors la valeur « -3 » pour
ce paramètre. La différence essentielle avec PAPA2 est que le fichier de départ (fubackup) est
constant à chaque réitération (en « phase stationnaire »), alors qu’il est remis à jour à chaque
réitération, dans le cas de PAPA2, du fait du nouveau calcul des valeurs des individus-pivots et des
résidus moyens.
-3.2.3- Résultats commentés
Les résultats ci-dessous, qui comparent les coefficients de prédiction génétique (héritabilités sur
la diagonale) des trois caractères étudiés selon le plan de croisements hiérarchique, après un
ajustement selon Papadakis++, un ajustement sur l’effet macrobloc (restructuration avec 24
macroblocs) et sans ajustement, montrent que l’ajustement selon Papadakis++ joue de deux
façons :
- Accroissement des héritabilités, au sens strict comme au sens large ;
- Réduction très importante des erreurs d’échantillonnage.
Le deuxième aspect est au moins aussi important que le premier. En fait, la réduction du biais
sur les moyennes de famille joue dans le sens d’une diminution de l’héritabilité « apparente », alors
que la réduction de la variance intra-famille a évidemment une action inverse. On peut donc
globalement considérer que la qualité d‘une méthode d’ajustement est essentiellement de permettre
une meilleure approximation de la valeur des paramètres à estimer et pas forcément de
« maximiser » cette valeur. Remarquons tout de même que l’héritabilité au sens strict de la hauteur
passe de 0.162 à 0.279 (+72 %) et celle de la circonférence de 0.348 à 0.451 (+ 23 %).
L’ajustement au macrobloc présente ici une efficacité inférieure pour hauteur et la circonférence et
quasiment identique pour l’écart à la verticalité.
Pour ne pas alourdir cette présentation, nous ne donnons pas d’exemple du calcul des
paramètres génétiques après un simple ajustement à l’effet bloc. Nous invitons le lecteur à réaliser
ces calculs par lui-même (chaîne : ENVIR-HIERA réitérée).
21
(a) Après ajustement selon Papadakis++
Programme JBMAT : E.S. et intervalles de confiance d'elements de matrices
Methode utilisee pour calcul des E.S. = JACKKNIFE
Seuil choisi pour les intervalles de confiance =
Coefficient des E.S. calcule =
95.000%
1.9600
Pour les intervalles de confiance, ligne 1 = limite sup., ligne 2 = limite inf.
nombre de degres de liberte pour les E.S. =
820
Parametres et tests de la matrice numero
9
coefficients de prediction genetique au sens strict
y
1:
ht94
E.stand:
Test t:
Signif.(%):
y 2:
ci94
E.stand:
Test t:
Signif.(%):
y 3:
ev94
E.stand:
Test t:
Signif.(%):
y 1
ht94
0.279
0.014
20.159
0.000
0.329
0.010
32.447
0.000
0.059
0.015
4.013
0.011
y 2
ci94
y 3
ev94
0.451
0.008
57.406
0.000
0.161
0.013
12.454
0.000
0.154
0.036
4.237
0.005
Intervalles de confiance de la matrice
9
coefficients de prediction genetique au sens strict
y
1:
ht94
y
2:
ci94
y
3:
ev94
y 1
ht94
0.306
0.252
0.349
0.309
0.087
0.030
y 2
ci94
y 3
ev94
0.466
0.435
0.187
0.136
0.225
0.083
Parametres et tests de la matrice numero
10
coefficients de prediction genetique au sens large
y
1:
ht94
E.stand:
Test t:
Signif.(%):
y 2:
ci94
E.stand:
Test t:
Signif.(%):
y 3:
ev94
E.stand:
Test t:
Signif.(%):
y 1
ht94
0.279
0.014
20.159
0.000
0.329
0.010
32.447
0.000
0.059
0.015
4.013
0.011
y 2
ci94
y 3
ev94
0.451
0.008
57.406
0.000
0.161
0.013
12.454
0.000
0.154
0.036
4.237
0.005
Intervalles de confiance de la matrice
10
coefficients de prediction genetique au sens large
y
1:
ht94
y
2:
ci94
y
3:
ev94
y 1
ht94
0.306
0.252
0.349
0.309
0.087
0.030
y 2
ci94
y 3
ev94
0.466
0.435
0.187
0.136
0.225
0.083
22
_
_
_
_
(b) Sans aucun ajustement
Parametres et tests de la matrice numero
9
coefficients de prediction genetique au sens strict
y
1:
ht94
E.stand:
Test t:
Signif.(%):
y 2:
ci94
E.stand:
Test t:
Signif.(%):
y 3:
ev94
E.stand:
Test t:
Signif.(%):
y 1
ht94
0.162
0.088
1.833
6.368
0.210
0.089
2.359
1.766
0.060
0.084
0.713
51.695
y 2
ci94
y 3
ev94
0.348
0.100
3.480
0.066
0.158
0.094
1.683
8.871
0.296
0.138
2.147
3.031
Intervalles de confiance de la matrice
9
coefficients de prediction genetique au sens strict
y
1:
ht94
y
2:
ci94
y
3:
ev94
y 1
ht94
0.306
0.252
0.349
0.309
0.087
0.030
y 2
ci94
y 3
ev94
0.466
0.435
0.187
0.136
0.225
0.083
Parametres et tests de la matrice numero
10
coefficients de prediction genetique au sens large
y
1:
ht94
E.stand:
Test t:
Signif.(%):
y 2:
ci94
E.stand:
Test t:
Signif.(%):
y 3:
ev94
E.stand:
Test t:
Signif.(%):
y 1
ht94
0.162
0.088
1.833
6.368
0.210
0.089
2.359
1.766
0.060
0.084
0.713
51.695
y 2
ci94
y 3
ev94
0.348
0.100
3.480
0.066
0.158
0.094
1.683
8.871
0.296
0.138
2.147
3.031
Intervalles de confiance de la matrice
10
coefficients de prediction genetique au sens large
y
1:
ht94
y
2:
ci94
y
3:
ev94
y 1
ht94
0.335
0.000
0.385
0.036
0.224
-0.104
y 2
ci94
y 3
ev94
0.544
0.152
0.343
-0.026
0.565
0.026
(c) Après ajustement à l’effet macrobloc (24 macroblocs)
Parametres et tests de la matrice numero
9
coefficients de prediction genetique au sens strict
y 1 : hauteur_94
E. standard :
Test t :
Signif. (%) :
y 2 : circonf_94
E. standard :
Test t :
y 1
y 2
hauteur_94 circonf_94
0.196
0.132
1.483
13.415
0.258
0.404
0.119
0.117
2.168
3.452
y 3
ecvert_94
23
_
_
_
_
Signif. (%) :
y 3 : ecvert_94
E. standard :
Test t :
Signif. (%) :
2.876
0.095
0.103
0.927
64.319
0.073
0.184
0.103
1.785
7.095
0.299
0.132
2.265
2.252
Intervalles de confiance de la matrice
9
coefficients de prediction genetique au sens strict
y
1 : hauteur_94
y
2 : circonf_94
y
3 :
ecvert_94
y 1
y 2
hauteur_94 circonf_94
0.454
0.000
0.491
0.633
0.025
0.174
0.297
0.387
-0.106
-0.018
y 3
ecvert_94
0.558
0.040
Parametres et tests de la matrice numero
10
coefficients de prediction genetique au sens large
y 1 : hauteur_94
E. standard :
Test t :
Signif. (%) :
y 2 : circonf_94
E. standard :
Test t :
Signif. (%) :
y 3 : ecvert_94
E. standard :
Test t :
Signif. (%) :
y 1
y 2
hauteur_94 circonf_94
0.196
0.132
1.483
13.415
0.258
0.404
0.119
0.117
2.168
3.452
2.876
0.073
0.095
0.184
0.103
0.103
0.927
1.785
64.319
7.095
y 3
ecvert_94
0.299
0.132
2.265
2.252
Intervalles de confiance de la matrice
10
coefficients de prediction genetique au sens large
y
1 : hauteur_94
y
2 : circonf_94
y
3 :
ecvert_94
y 1
y 2
hauteur_94 circonf_94
0.454
0.000
0.491
0.633
0.025
0.174
0.297
0.387
-0.106
-0.018
y 3
ecvert_94
0.558
0.040
24
-4- Test de la pertinence et réalisation d’ajustements
combinant Papadakis++ et un effet bloc
Les ajustements fondés seulement sur un effet bloc (ENVIR) ou par régression précédés
d’une analyse de variance à « zéro facteur » , à un facteur ou à deux facteurs sont ceux
habituellement pratiqués. Dans DIOGENE, Il s’agit respectivement des séquences MATCORREGMUL-RIVES, PINEDE-COVAR1-RIVES et CASOAR-COVAR2-RIVES (voir dans la
notice générale les paragraphes concernant ces programmes). On évitera en général d’utiliser les
trois dernières méthodes pour des applications en sélection, sauf si l’on est assuré que les variables
explicatives ont une variabilité d’ordre quasi-exclusivement environnemental (sinon, il en résultera
soit une réduction corrélative de l’héritabilité des variables expliquées, soit une modification du
leur contrôle génétique des variables physiologiques sous-jacentes).
Le chapitre 1 a montré la possibilité consiste à combiner l’ajustement à un effet bloc (selon
le modèlenon-orthogonal implémenté dans ENVIR) avec l’ajustement selon Papadakis++ :
modèles (2) et (5) où  h est l’effet du bloc h sur l’individu-pivot pour un caractère donné. Encore
faut-il disposer d’un critère permettant de juger si un tel modèle permet de réaliser un meilleur
ajustement que Papadakis++ seul, ou bien si Papadakis++, plus difficile à mettre en œuvre qu’un
simple ajustement à un effet bloc, se justifie vraiment. Pratiquement, on procèdera de la façon
suivante :
Première méthode
(a) Ajuster selon Papadakis++ ;
(b) Tester l’existence d’un effet bloc significatif sur les valeurs ajustées correspondantes (tests F
d’ENVIR) ;
(c) Si c’est le cas, réitérer une séquence correspondant à « PAPA2 ad libitum » décrit en 2.1, avec
ENVIR post-fixé : à chaque réitération, ENVIR ajuste pour l’effet bloc les valeurs qui viennent
d’être ajustées par régression sur les résidus moyens. On utilise alors le modèle (11) ; sinon, on
considére que l’ajustement optimal est réalisé sans prendre en compte l’effet bloc : modèle (10).
Le Tableau 3 ci-dessous donne les résultats de cette démarche appliquée à l’exemple traité.
L’effet bloc reste significatif après l’ajustement selon Papadakis++, pour les deux premiers
caractères. Les 6 degrés de liberté liés à cet ajustement ont été pris en compte pour calculer le
carré moyen d’erreur et le seuil de signification approprié dans les tests F présentés ci-dessous.
Tableau 3. Test de la rémanence d’un effet bloc significatif après ajustement selon
Papadakis++ avec les 6 combinaisons maille x variable retenues. Ajustement selon le modèle de la
formule (5). L’ajustement initial de chaque caractère a été réalisé selon Papadakis++.
tests F de l’effet bloc (23 et 433 d.l.)
(Les significations sont données en %)
caractère
valeur de F
signification (%)
y 1
ht94
1.566
4.715
y 2
ci94
1.687
2.519
y 3
ev94
1.670
2.753
Deuxième méthode
(a) Ajuster à l’effet bloc (ENVIR) ;
(b) Tester l’existence de régressions significatives pour des combinaisons maille-caractère, en
partant des valeurs ajustées générées par ENVIR ;
25
(c) Si c’est le cas, ajuster selon Papadakis++ & effet bloc selon le modèle (11) ; sinon, considérer
que le modèle (9) donne un ajustement optimal.
En fait, cette deuxième méthode est a priori moins efficace et moins indiquée sur le plan
biologique, pour les raisons qui seront illustrées et commentées ci-dessous. Il est donc inutile d’en
donner un exemple numérique.
C’est finalement la réitération conjointe des deux types d’ajustement qui permettra de juger
de l’intérêt réel de la prise en compte de l’effet bloc, par la valeur asymptotique de la variance
résiduelle. Le figures 5 à 13 ci-dessous comparent l’évolution des variances résiduelles des trois
caractères lorsque l’ajustement à l’effet macrobloc est réalisé avant ou après l’ajustement par
régression selon Papadakis++. Il y a cinq tailles de macrobloc selon la restructuration pratiquée :
- 209 arbres/macrobloc (4 macroblocs)
- 84 arbres/macrobloc (10 macroblocs)
- 56 arbres/macrobloc (15 macroblocs)
- 46 arbres/macrobloc (18 macroblocs)
- 35 arbres/macrobloc (24 macroblocs)
On constate que, pour la hauteur, la valeur asymptotique est toujours nettement plus faible
lorsque l’ajustement au macrobloc intervient en second, les tailles les plus faibles donnant les
meilleurs résultats (56 arbres ou moins). En ce qui concerne la circonférence, les résultats sont
pratiquement les mêmes pour les deux méthodes. Enfin, l’écart à la verticalité réagit toujours de
façon nettement plus favorable à un ajustement au macrobloc après l’ajustement par régression.
Ces résultats peuvent s’expliquer par le fait que le « lissage » de la variabilité environnementale par l’ajustement à l’effet bloc gomme en grande partie les variations à faible distance dont
tire justement partie l’ajustement par régression. D’où l’intérêt de faire intervenir cet ajustement
après la régression. La hauteur et l’écart à la verticalité seraient les plus sensibles à ce phénomène
parce que soumis à une variabilité environnementale à échelle relativement large (fertilité et
approvisionnement hydrique dans le premier cas, répartition des « accidents » et des attaques de
rouille courbeuse dans le second). En revanche, la circonférence serait surtout influencée par des
effets environnementaux variant à un pas de distance plus faible, tels que ceux liés à la
concurrence.
Toujours est-il que, quelle que soit l’interprétation biologique, on peut conclure sur cet
exemple que l’ajustement bloc prenant place après celui réalisé par régression est toujours au moin
aussi efficace qu’un ajustement où l’effet bloc est pris en compte avant. Pour vérifier la généralité
de cette conclusion, il faudra tester les deux méthodes sur une gamme aussi large que possible
d’essais, ainsi que dans le cadre de populations naturelles, ou, du moins, « non-expérimentales »,
ainsi que sur des caractères plus diversifiés. Une approche par simulation, modélisant différentes
structuration spatiale des effets environnementaux serait également tout à fait indiquée.
26
100
95
variance résiduelle (% de valeur initiale)
90
85
80
75
hauteur_94
circonf_94
ecvert_94
70
65
60
55
50
45
40
35
1
6
11
16
21
26
31
36
41
46
51
numéro de l'itération
Fig. 4 Evolution des variances résiduelles des trois caractères exprimées en pourcentage de la
valeur initiale: hauteur, circonférence et écart à la verticalité, en fonction du numéro d’itération.
Données ajustées à l’effet bloc. L’ajustement à l’effet bloc est réalisé avant l’ajustement selon
Papadakis (4 blocs).
100
95
variance résiduelle (% de valeur initiale)
90
85
80
75
hauteur_94
circonf_94
ecvert_94
70
65
60
55
50
45
40
35
1
6
11
16
21
26
31
36
41
46
51
numéro de l'itération
Fig. 5 Evolution des variances résiduelles des trois caractères exprimées en pourcentage de la
valeur initiale: hauteur, circonférence et écart à la verticalité, en fonction du numéro d’itération.
Données ajustées à l’effet bloc. L’ajustement à l’effet bloc est réalisé après l’ajustement selon
Papadakis (4 blocs).
27
100
95
variance résiduelle (% de valeur initiale)
90
85
80
75
hauteur_94
circonf_94
ecvert_94
70
65
60
55
50
45
40
35
1
6
11
16
21
26
31
36
41
46
51
numéro de l'itération
Fig. 6 Evolution des variances résiduelles des trois caractères exprimées en pourcentage de la
valeur initiale: hauteur, circonférence et écart à la verticalité, en fonction du numéro d’itération.
Données ajustées à l’effet bloc. L’ajustement à l’effet bloc est réalisé avant l’ajustement selon
Papadakis (10 blocs).
100
95
variance résiduelle (% de valeur initiale)
90
85
80
75
hauteur_94
circonf_94
ecvert_94
70
65
60
55
50
45
40
35
1
6
11
16
21
26
31
36
41
46
51
numéro de l'itération
Fig. 7 Evolution des variances résiduelles des trois caractères exprimées en pourcentage de la
valeur initiale: hauteur, circonférence et écart à la verticalité, en fonction du numéro d’itération.
Données ajustées à l’effet bloc. L’ajustement à l’effet bloc est réalisé après l’ajustement selon
Papadakis (10 blocs).
28
100
95
variance résiduelle (% de valeur initiale)
90
85
80
75
hauteur_94
circonf_94
ecvert_94
70
65
60
55
50
45
40
35
1
6
11
16
21
26
31
36
41
46
51
numéro de l'itération
Fig. 8 Evolution des variances résiduelles des trois caractères exprimées en pourcentage de la
valeur initiale: hauteur, circonférence et écart à la verticalité, en fonction du numéro d’itération.
Données ajustées à l’effet bloc. L’ajustement à l’effet bloc est réalisé avant l’ajustement selon
Papadakis (15 blocs).
100
95
variance résiduelle (% de valeur initiale)
90
85
80
75
hauteur_94
circonf_94
ecvert_94
70
65
60
55
50
45
40
35
1
6
11
16
21
26
31
36
41
46
51
numéro de l'itération
Fig. 9 Evolution des variances résiduelles des trois caractères exprimées en pourcentage de la
valeur initiale: hauteur, circonférence et écart à la verticalité, en fonction du numéro d’itération.
Données ajustées à l’effet bloc. L’ajustement à l’effet bloc est réalisé après l’ajustement selon
Papadakis (15 blocs).
29
100
95
variance résiduelle (% de valeur initiale)
90
85
80
75
hauteur_94
circonf_94
ecvert_94
70
65
60
55
50
45
40
35
1
6
11
16
21
26
31
36
41
46
51
numéro de l'itération
Fig. 10 Evolution des variances résiduelles des trois caractères exprimées en pourcentage de la
valeur initiale: hauteur, circonférence et écart à la verticalité, en fonction du numéro d’itération.
Données ajustées à l’effet bloc. L’ajustement à l’effet bloc est réalisé avant l’ajustement selon
Papadakis (18 blocs).
100
95
variance résiduelle (% de valeur initiale)
90
85
80
75
hauteur_94
circonf_94
ecvert_94
70
65
60
55
50
45
40
35
1
6
11
16
21
26
31
36
41
46
51
numéro de l'itération
Fig. 11 Evolution des variances résiduelles des trois caractères exprimées en pourcentage de la
valeur initiale: hauteur, circonférence et écart à la verticalité, en fonction du numéro d’itération.
Données ajustées à l’effet bloc. L’ajustement à l’effet bloc est réalisé après l’ajustement selon
Papadakis (18 blocs).
30
100
95
variance résiduelle (% de valeur initiale)
90
85
80
75
hauteur_94
circonf_94
ecvert_94
70
65
60
55
50
45
40
35
1
6
11
16
21
26
31
36
41
46
51
numéro de l'itération
Fig. 12 Evolution des variances résiduelles des trois caractères exprimées en pourcentage de la
valeur initiale: hauteur, circonférence et écart à la verticalité, en fonction du numéro d’itération.
Données ajustées à l’effet bloc. L’ajustement à l’effet bloc est réalisé avant l’ajustement selon
Papadakis (24 blocs).
100
95
variance résiduelle (% de valeur initiale)
90
85
80
75
hauteur_94
circonf_94
ecvert_94
70
65
60
55
50
45
40
35
1
6
11
16
21
26
31
36
41
46
51
numéro de l'itération
Fig. 13 Evolution des variances résiduelles des trois caractères exprimées en pourcentage de la
valeur initiale: hauteur, circonférence et écart à la verticalité, en fonction du numéro d’itération.
Données ajustées à l’effet bloc. L’ajustement à l’effet bloc est réalisé après l’ajustement selon
Papadakis (24 blocs).
31
Remarque importante. Si l’on veut recommencer une « session » de Papaakis++ dans une
directory donnée, en changeant le fichier de départ, mais en gardant des fichiers de même format
d’enregistrement,utiliser, la solution la plus économique est de réutiliser les fichiers paramètres
établis pour PAPA1, PAPA2 et PAPA3, en recopiant simplement dans le fichier des « valeurs
brutes », le contenu du nouveau fichier de données primaires. Cela a été fait pour rester l’effet de
l’ajustement à l’effet macroblocs pour les cinq configurations indiquées plus haut. Il faut également
penser à supprimer supprimer le fichier de sauvegarde (et, tant qu’à faire, tous les fichiers de
sauvegarde, après leur avoir éventuellement affecté leur nom définitif). On lancera donc la
commande UNIX : rm *back* ou la commande de DIOGENE : reset.
qui supprimera ces fichiers avec leurs fichiers paramètres.
Si l’on ne prend pas cette précaution, le système de « bascule » intégré dans JBSTAR
remplacera dans le fichier-source les valeurs ajustées par le contenu du fichier de sauvegarde (en
principe, les valeurs brutes). Mais, si l’on a pris la précaution indiquée ci-dessus, il faudra prendre
en compte pour tout traitement ultérieur le fait que le fichier de sauvegarde peut contenir
désormais les valeurs ajustées à l’effet bloc (la « bascule » aura placé dans ce fichier les valeurs
ajustées contenues dans le nouveau fichier-source).
Synthèse des résultats portant sur l’exemple étudié
On ne peut bien entendu pas tirer de loi générale de ce seul verger de pin maritime. On
peut toutefois noter que la méthode d’ajustement Papadakis++ est nettement plus efficace qu’un
ajustement classique sur les effets bloc, ce qui confirme les résultats de Pichot (1993), mais aussi
les constatations de beaucoup d’expérimentateurs qui ont eu l’occasion de comparer les deux
méthodes. Papadakis++ doit logiquement être au moins aussi efficace que la méthode
traditionnelle, uni-variable et à maille unique.…Naturellement, les conclusions dépendront
fortement, dans chaque cas de figure de la qualité du dispositif et, notamment, du nombre de
répétitions et de l’homogénéité des blocs. Elles dépendront également beaucoup du caractère
considéré. Ainsi, dans cet exemple, la hauteur et la circonférence sont les caractère qui réagissent
le plus favorablement à un ajustement fondé sur Papadakis++.
On constate également, que la prise en compte de l’effet bloc dans un modèle réitéré
unique (Papadakis + effet bloc) peut améliorer encore la qualité de l’ajustement. On a vu
l’importance de réaliser, à chaque réitération, l’ajustement à l’effet bloc après celui utilisant
Papadakis++. Si l’on s’oriente vers une formule « mixte » de ce type, il faudra déterminer quelle
est la meilleure configuration des blocs ; celle-ci ne correspond pas forcément à celle définie à
l’origine par l’expérimentateur…et elle peut d’ailleurs être différente selon les caractères
considérés et selon l’âge du peuplement. Ceci est particulièrement vrai si l’on considère des
peuplements forestiers qui subissent tous des éclaircies au cours de leur vie. Chacune d’entre elle
change complètement l’environnement auquel sont soumis les arbres subsistants.
-5- autres possibilités d’utilisation et points particuliers
Si l’on n’utilise pas les deux méta-programmes sur un essai structuré mais sur une
population naturelle dont tout ou partie des individus peuvent être affectés à des unités génétiques
(espèces, provenances, familles de demi-frères, de pleins-frères…), par leurs caractéristiques
botaniques ou grâce à des marqueurs moléculaires, la transposition à réaliser est très simple : On
relèvera les coordonnées des individus du peuplement par rapport à une origine quelconque et l’on
« discrétisera » ces coordonnées de façon à se ramener au repérage-type mis en oeuvre. On peut,
par exemple, prendre des classes d’un mètre pour chaque coordonnée et affecter chaque individu à
32
la classe la plus proche (avec, donc, une erreur maximum de 50 centimètres). Suivant la précision
effective de la mesure des coordonnées et la taille du peuplement étudié, la définition des classes
pourra naturellement varier. Par ailleurs, les mailles « orientées » ont un intérêt potentiel pour des
ajustements concernant des effets environnementaux « directionnels » (par exemple, attaque d’un
parasite ou d’un ravageur suivant un parcours préférentiel). Dans ce cas, on peut songer à chercher
non point à ajuster les observations faites sur les individus-pivots, mais à s’en servir pour définir
l’orientation privilégiée de la dissémination de spores de champignons ou d’un vol d’insectes en
cause dans la propagation des attaques. Il sera alors plus réaliste de travailler non sur des résidus
mais sur des valeurs brutes, comme dans l’approche « flux de gènes » esquissée ci-dessous. Il suffit
pour cela d’écrire l’option appropriée dans le fichier paramètre de CRECAR. L’option « vardir »,
qui permet de changer l’orientation de chaque maille par rapport à l’individu-pivot (par ajout d’une
constante angulaire introduite à partir d’un fichier spécialisé) peut être utile. En effet, elle
permettrait de faire converger une direction privilégiée des mailles des pivots vers un point
représentant la source de dissémination. Les modalité 2 et 3 de l’option TRIGENE présentent un
intérêt tout particulier pour réaliser un ajustement par rapport à un ou plusieurs témoins, alors que
la modalité 1 peut servir à éliminer des biais dus a la réoccurence fréquente de génotypes
apparentés au voisinage les uns des autres (dispositifs à grandes parcelles unitaires ou essais ou un
nombre limité de génotypes sont mis en comparaison).
La même description de la structure et des dimensions des mailles peut être utilisée pour
étudier les flux géniques au sein d’une population (méta-programme FLGENE). Alors, le logiciel
calcule dans chaque configuration de voisinage des fréquences alléliques soit directement, si l’on
possède des données sur les haplotypes, soit en espérance, si les données de base concernent le
stade diploïde. Un exemple est donné par le tableau ci-dessous (Tableau 4).
33
Tableau 4 . Détermination des fréquences alléliques pour 6 loci haploïdes - ADN chloroplastique
par exemple - et 3 loci diploïdes - ADN nucléaire - (début d’une table de correspondance entre les
codes et les fréquences alléliques à chaque locus).
Haplo Haplo Haplo Haplo Haplo Haplo Diplo Diplo Diplo
Ligne
1
2
3
4
5
6
7
8
9
10
0
1
0
0
1
0
1
0
1
1
1
1
0
0
0
0
0
0
0.5
1
0
0.5
1
0.5
0.5
0.5
0.5
1
0
0
1
0
1
…
1
0
0
1
0
0
1
1
1
0
1
1
0
1
1
0
1
1
1
0
1
1
0
0
0
0
1
0
1
0
0.5
0
1
0.5
0
1
0.5
0
0
1
0
0.5
0
0.5
1
1
0
1
Le code de génotype (en séquence ou non) adresse le numéro de ligne de la table où se
trouvent soit les valeurs (0, 1) pour un haplotype, soit trois valeurs possibles (0, 0.5 et 1)
correspondant respectivement à un homozygote, à un hétérozygote ou à un autre homozygote pour
le locus considéré (allèles co-dominants). Le code 4 est supposé absent, d’où une ligne
correspondante vide. Le numéro de colonne du tableau correspond à l’allèle considéré.
On se reportera au chapitre correspondant de la notice générale pour consulter le mode
d’emploi détaillé du module et prendre connaissance d’un exemple d’utilisation.
-6- Notes sur le rééchantillonnage
Le rééchantillonnage a pour but de calculer les variances d'échantillonnage de divers paramètres
(modèle aléatoire ou mixte), à partir d'un échantillon de n individus (k variables/ individu), d'une
façon indépendante de la fonction qui permet de passer des observations aux estimations ou aux
prédictions des paramètres qui en sont dérivés (linéaires ou non).
Principe
Si n est l'effectif de l'échantillon sur lequel portent les calculs, deux possibilités.
-
Traitement de sous-échantillons tronqués (Jackknife), on génère ainsi n souséchantillons au maximum.
 estimations des paramètres très auto-corrélées (formule de Quenouille- Tukey pour
calcul de la variance d'échantillonnage).
-
Traitement de sous-échantillons tirés au hasard avec remise, n parmi n (Bootstrap) : nn
sous-échantillons possibles (exhaustivité pratiquement irréalisable).
 estimations indépendantes (calcul direct de la variance d'échantillonnage).
34
1)
Réalisation dans DIOGENE
-
Concerne une chaîne de traitement (p programmes)
 Nécessité de définir :
a) où se situe le rééchantillonnage dans la chaîne (lecture des données)
= paramètre AMONT (0-1), entré par l'utilisateur.
b) quel fichier d'entrée traiter pour chaque programme de la chaîne
c) avec quelle définition des variables étudiées : y j  f ( x1, x 2,...x k )
= analyse logique par le moteur de réitération, JBSTAR (sbr. sherlock).
2)
Nature des calculs réitérés
-
matrices triangulaires-basses (variances-covariance, corrélations, CPG…) en format
compressé.
calculs d'E.S. et résultats dérivés par le programme JBMAT.
-
vecteurs d'estimations/prédictions (espérances de gains génétiques…).
calculs d'E.S. et résultats dérivés par le programme JBVEC.
3)
Problèmes d'aiguillage et de circulation
Le système implémenté est à voie unique. Les estimations réitérées sont stockées dans un
seul fichier (INDEX) avant d'être exploitées. Ceci veut dire qu'il y a nécessité de choix entre :
-
Au sein d'un même programme, par exemple, analyse de variance multivariable
(MANOVA), édition de résultats structurés en matrices ou en vecteurs.
Si l'on veut ré-échantillonner les premiers, on pose impérativement :
MATSUP = 1 ou 2 et EFFSUP = 0
Si l'on veut ré-échantillonner les seconds, on doit avoir obligatoirement :
MATSUP = 0 et EFFSUP > 0 (valeurs possibles variables)
-
Entre un programme d'amont (par exemple, MANOVA) et un programme d'aval (par
exemple, prédiction de gains génétiques), on ne peut avoir édition simultanée de
paramètres à réitérer.
Considérons ainsi la chaîne qui conduit au calcul des espérances de gains génétiques dans
des calculs d'index sur un plan de croisements diallèle :
DIAL-INDEX4-DIALOG.
35
On cherche l'intervalle de confiance sur les prédictions de gains génétiques.
Pour DIAL (MANOVA diallèle), on doit avoir, sous peine de résultats incohérents :
MATSUP = 0 et EFFSUP = 0
4)
Aide à l'interprétation
-
5)
tests t de l'hypothèse nulle : "la vraie valeur du paramètre est 0".
intervalles de confiance du paramètre (seuil choisi par l'utilisateur).
fichier des estimations (étude des distributions, intervalles de confiance si non-normalité
de la distribution des estimations : CRESUS).
Remarque finale
Si l'on a par erreur lancé la procédure non-réitérée (non suffixée par ".j" ou ".b"), il est
indispensable de relancer JBSTAR. Si l'on lance proc.j (ou proc.b), après avoir exécuté proc,
en effet, il s'ensuivra des désagrément dont la cause est expliquée ci-après : L'option
"réitération" ayant été prise au niveau d'un ou plusieurs modules de la chaîne, il il y aura eu
des écritures sur le fichier INDEX qui sert à stocker les résultats issus de la chaîne "normale",
puis des réitérations successives. Relancer JBSTAR aura pour effet d'initialiser ce fichier
INDEX, condition sine qua non pour avoir in fine des calculs parfaitement exacts.
-7- En guise de conclusion
La méthode Papadakis++ présentée ici est donc très souple d’emploi grâce à son implémentation très modulaire dans DIOGENE. Si on l’utilise pour des essais qui ont de grandes parcelles
unitaires, rassemblant sur un tronçon plus ou moins important de ligne de plantation des individus
apparentés (dans le cas des essais génétiques), on aura parfois intérêt à utiliser l’option LISU, qui
écarte dans le calcul des résidus moyens les individus qui sont sur la même ligne de plantation que
le pivot. Si les parcelles sont « à deux dimensions », il faudra éliminer, pour chaque pivot, ses
apparentés, en calculant en conséquence les configurations de voisinage (en ignorant les individus
adjacents). Les modalités 1 à 3 de l’option TRIGENE décrite ci-dessus permettent de résoudre ce
problème de façon encore plus simple. La raison de ces précautions est évidente : L’intégration
d’une composante de covariance entre apparentés dans la covariance entre individus-pivots et
résidus moyens entraînera une réduction de la variabilité génétique des valeurs ajustées, en même
temps qu’une réduction de la variabilité environnementale (cas extrême envisageable pour des
lignées ou des clones…). La méthode requiert donc une expertise plus grande que les méthodes
plus classiques utilisant par exemple un ajustement à des blocs ou bien l’Analyse de Covariance
(bien que l’utilisation de cette dernière technique ne doive pas être faite inconsidérément selon les
objectifs que l’on se fixe). Le fait que la méthode Papadakis++, comme la méthode traditionnelle
de Papadakis, soit compatible avec la prise en compte de blocs lui donne une grande souplesse.
Cette complémentarité peut, par exemple, être due au fait qu’elle opère surtout à échelle « microenvironnementale », alors que les blocs traduiront une variabilité à une échelle plus large. La
méthode est particulièrement adaptée à l’affinement de l’estimation de paramètres génétiques en
populations naturelles où les pedigrees peuvent être reconstitués avec des marqueurs moléculaires.
36
Bibliographie
Antoniadis A., Berruyer J. et Carmona R. (1992). Régression non linéaire et applications.
Economica, Paris, 248 p.
Azais J.-M., Denis J.-B., Dhorne T. et Kobilinsky A. (1990). Neighbour analysis of plot experiments: a review of the different approaches. Biométrie-Praximétrie, 30, 15-39.
Baradat Ph. et Desprez-Loustau M.L. (1997). Analyse diallèle et integration dans le programme
d’amélioration du pin maritime de la sensibilité à la rouille courbeuse. Ann. of For. Res., 54, 83106.
Bartlett M S. (1978). Nearest Neighbour Models in the Analysis of Field Experiments. J. R.
Statist. Soc. 2, 147-174.
Besag J. (1983). Contribution to Discussion of Wilkinson et al. Journal of the Royal Statistical
Society. Series B 45, 180-183.
Besag J. et Kempton R. (1986). Statistical Analysis of Field Experiments Using Neighbouring
Plots. Biometrics, 42, 231-251.
Bertrand B. (2002). L’Amélioration génétique de Coffea arabica L. en Amérique Centrale par la
voie hybride F1. Thèse ENSAM, Ecole Doctorale « Biologie Intégrative », Montpellier, 275 p.
Cilas C. (1995) - Dispositifs expérimentaux adaptés aux essais de sélection chez le cacaoyer. In :
Traitements statistiques des essais de sélection, actes du séminaire de biométrie et de génétique
quantitative, Montpellier (France), 12-14 /09/1994, CIRAD ed., p. 151-160.
Dagnélie P. (1987) - La méthode de Papadakis en expérimentation agronomique : considérations
historiques et bibliographiques.
Biométrie-Praximétrie, 27, 49-64.
Dagnélie P. (1989). The method of Papadakis in Agricultural Experimentations. An overview.
Bulletyn Oceny Odmian , 21-22,. 111-122.
Gleason A C. et Cullis B R. (1987). Residual Maximum Likelihood (REML) Estimation of a
Neighbour Model for Field Experiments. Biometrics, 43, 277-288.
Goumari A. (1990). Analyse comparative des resultats d’essais en champ selon les techniques des
blocs aléatoires complets, des lattices et des plus proches voisins. Biométrie-Praximétrie, 30 (3-4),
91-105.
Kempton R A. et Howes C W. (1981). The Use of Neighbouring Plot Values in the Analysis of
Variety Trials. Applied Statistics 30 (1), 59-70.
Papadakis J. (1937). Méthode statistique pour les expériences en champ. Bulletin Scientifique de
l’Institut d’Amélioration des Plantes de Thessalonique, 23, 30 p.
Papadakis J. 1940. Comparaison de différentes méthodes d’expérimentation phytotechnique. Revue
Générale d’Agronomie, 7, 298-362.
37
Papadakis J. (1984). Advances in the analysis of field experiments. Comm. Acad. Athènes, 59,
326-342.
Pearce S C. (1976). Reduction of Experimental Error in Perennial Crops, using adjustment by
Neighbouring Plots. Experimental Agriculure, 12, 267-272.
Pichot C. (1993). Variabilité au stade adulte de Populus trichocarpa et prédiction juvénile-adulte
chez P. trichocarpa et P. deltoides. Thèse de doctorat INA-PG, Paris, 235 p. + annexes.
Ryan T.P. (1997). Modern regression methods. Wiley, NY., 515 p.
Sébastien B. (1993). Modèles linéaires avec résidus spatialement autocorrélés, application à
l'expérimentation agricole. Thèse INA-PG, Paris, 205 p.
Snedecor G.W. et Cochran W.G. (1980). Statistical methods, septième édition. The Iowa State
University Press, Ames, 507 p.
Sokal R. et Rohlf F. 1995. Biometry (3ème édition). Freeman and Cie, NY., 887 p.
38
Annexes
(Listings et principaux résultats des calculs sur les exemples traités)
Annexe 1. Listing des trois premiers enregistrements du fichier de données primaires, puis
des données ajustées selon Papadakis ++ avec les 6 combinaisons mailles x variables retenues en
fonction des résultats du module PAPA1.
listing du fichier : mal4d (837 enregistrements)
indicatifs :
numero 1 = ligne(1-12)
numero 2 = abcisse (1-100)
numero 3 = macrobloc(1-n) : n variable de 1 à 24*
numero 4 = mere(1-28)
numero 5 = pere(1-18)
*Selon les restructurations en macroblocs optimisés de
taille et géométrie variable (par le programme DEBLOC).
caracteres :
x
x
x
1 = hauteur 1994 cm (12 ans)
2 = circonférence à 1.30 m 1994 en cm
3 = écart a la verticalité 1994 en cm
---------------------------------------------------------------------------------------| enreg. |
indicatifs
|
observations
|
|
|
|
|
---------------------------------------------------------------------------------------|
1 |
1
1
1
27 |**
780.000
48.000
9.000 **
|
|
|
17
|
|
---------------------------------------------------------------------------------------|
2 |
1
2
1
28 |**
650.000
22.000
6.000 **
|
|
|
18
|
|
---------------------------------------------------------------------------------------|
3 |
1
3
1
1 |**
790.000
40.000
1.000 **
|
|
|
1
|
|
----------------------------------------------------------------------------------------
Les mêmes trois premiers enregistrements après ajustement (50 réitérations)
---------------------------------------------------------------------------------------| enreg. |
indicatifs
|
observations
|
|
|
|
|
---------------------------------------------------------------------------------------|
1 |
1
1
1
27 |**
802.052
50.210
9.478 **
|
|
|
17
|
|
---------------------------------------------------------------------------------------|
2 1
1
2
1
28 |**
687.305
24.969
6.926 **
|
|
|
18
|
|
---------------------------------------------------------------------------------------|
3 1
1
3
1
1 |**
774.366
38.205
1.757 **
|
|
|
1
|
|
----------------------------------------------------------------------------------------
Annexe 2.
Script de pilotage de PAPA1 (procédure iris)
#!/bin/csh
if(-f erreur) rm erreur
if(-f sortie) rm sortie
if(-f iris.out.001) rm iris.out.*
(antar <iris.don.001>>/dev/null) >>&! erreur
if( $status != 0 ) goto echec
(defcar <iris.don.002>>/dev/null) >>&! erreur
if( $status != 0 ) goto echec
(crecar <iris.don.003>>/dev/null) >>&! erreur
if( $status != 0 ) goto echec
mv sortie iris.out.001
39
(compex <iris.don.004>>/dev/null)
if( $status != 0 ) goto echec
mv sortie iris.out.002
(fusion <iris.don.005>>/dev/null)
if( $status != 0 ) goto echec
mv sortie iris.out.003
(antar <iris.don.006>>/dev/null)
if( $status != 0 ) goto echec
(defcar <iris.don.007>>/dev/null)
if( $status != 0 ) goto echec
(matcor <iris.don.008>>/dev/null)
if( $status != 0 ) goto echec
mv sortie iris.out.004
(regmul <iris.don.009>>/dev/null)
if( $status != 0 ) goto echec
mv sortie iris.out.005
echo procedure iris terminee
cat erreur
if(-f erreur) rm erreur
exit
echec:
echo procedure iris echouee
cat erreur
>>&! erreur
>>&! erreur
>>&! erreur
>>&! erreur
>>&! erreur
>>&! erreur
Fichier paramètre iris.don.001 (ANTAR)
mal4d
n
1
0
1
0
derniere edition
-3
n
#nom du fichier
#option HORACE (o/n)
#numero du premier individu traite/enregistrement
#numero du dernier individu traite/enregistrement (0 : nombre maximum)
#parametre de saut pour passer d'un individu au suivant
#(0) quantitatif, (1) qualitatif avec transf., (2) qualitatif sans transf
#donne l'en-tete du listing (pour identification)
#donne le nombre de caracteres etudies
#edition d'une table de correspondance numerique-alphanumerique (o/n)
Fichier paramètre iris.don.002 (DEFCAR)
x1
x2
x3
Fichier paramètre iris.don.003 (CRECAR)
n
0
n
1
4
28
0
0
residus
#Option rechantillonnage, JACKKNIFE ou BOOTSTRAP (o/n)
#elimination des enregistrements entierement a -5 ou -9 (0) ou maintien (1)
#option VERSUP : suppression du controle des -5 & -9 (o/n)
#entrer le code approprie (0, 1, 2, 3, -1, -2, -3)
#position du code de population dans enregistrement
#valeur maximum du code de population
#nombre de contraintes sur les indicatifs
#nombre de contraintes sur les caracteres observes
#nom du fichier de sortie
Fichier paramètre iris.don.004 (COMPEX)
0
coord
residus
n
0
n
3.64
100
2
12
1
3
n
0
2
0
360
1
n
0
3
#ecriture dans sortie (0)
#nom du fichier donnant les coordonnees des individus-pivots
#nom du fichier de la population globale
#option VARDIR : moyenne par rapport a direction du pivot (o/n)
#Entre le code de l'option TRIGENE (0, 1, 2, ou 3)
#Entre le code de l'option REGPOND (o/n)
#espacement entre lignes (en unites d'abscisse)
#valeur max.de l'abscisse de 1er indiv. d'un enreg.
#position de l'abscisse de 1er individu d'un enreg.
#valeur maximum du numero de ligne
#position du numero de ligne
#nombre de JEUX a etudier
#JEU# 1 option LISU : elimination des voisins sur ligne individu-pivot ( o/n)
#JEU# 1 rayon minimum sur la ligne autour de l'individu-pivot (unites d'absc.)
#JEU# 1 rayon maximum sur la ligne autour de l'individu-pivot (unites d'absc.)
#JEU# 1 direction de bissectrice par rapport a base de la ligne (degres)
#JEU# 1 angle d'ouverture du secteur (degres)
#JEU# 1 coefficient d'aplatissement,t , de l'ellipse (1 -> cercle)
#JEU# 2 option LISU : elimination des voisins sur ligne individu-pivot ( o/n)
#JEU# 2 rayon minimum sur la ligne autour de l'individu-pivot (unites d'absc.)
#JEU# 2 rayon maximum sur la ligne autour de l'individu-pivot (unites d'absc.)
40
0
360
1
n
0
4
0
360
1
3
1
2
3
#JEU# 2 direction de bissectrice par rapport a base de la ligne (degres)
#JEU# 2 angle d'ouverture du secteur (degres)
#JEU# 2 coefficient d'aplatissement,t , de l'ellipse (1 -> cercle)
#JEU# 3 option LISU : elimination des voisins sur ligne individu-pivot ( o/n)
#JEU# 3 rayon minimum sur la ligne autour de l'individu-pivot (unites d'absc.)
#JEU# 3 rayon maximum sur la ligne autour de l'individu-pivot (unites d'absc.)
#JEU# 3 direction de bissectrice par rapport a base de la ligne (degres)
#JEU# 3 angle d'ouverture du secteur (degres)
#JEU# 3 coefficient d'aplatissement,t , de l'ellipse (1 -> cercle)
#Nombre de caracteres a utiliser /JEU
#Position/enregistrement du caractere numero
1
#Position/enregistrement du caractere numero
2
#Position/enregistrement du caractere numero
3
Fichier paramètre iris.don.005 (FUSION)
0
mal4d
vois001
n
n
2
12
1
1
100
2
2
o
vois002
o
o
#ecriture dans sortie (0)
#nom du fichier receveur
#nom du fichier donneur
#option RANCAR : tri sur caracteres fichier receveur (o/n)
#option TRICAR : tri sur caracteres fichier donneur (o/n)
#fusion sur identite de sequence, d'un ou de deux indicatifs (0, 1 ou 2)
#valeur maximum du premier indicatif de fusion
#numero du premier indicatif de fusion/enregistrement receveur
#numero du premier indicatif de fusion/enregistrement donneur
#valeur maximum du second indicatif de fusion
#numero du second indicatif de fusion/enregistrement receveur
#numero du second indicatif de fusion/enregistrement donneur
#Nouveau fichier donneur a fusionner (o/n)
#Nom du nouveau fichier a fusionner (o/n)
#Memes choix de caract. et critere de fusion (o/n)
#Nouveau fichier donneur a fusionner (o/n)
vois003
o
n
#Nom du nouveau fichier a fusionner (o/n)
#Memes choix de caract. et critere de fusion (o/n)
#Nouveau fichier donneur a fusionner (o/n)
Fichier paramètre iris.don.006 (ANTAR)
mal4d
n
1
0
1
0
essai PAPA1
-12
n
#nom du fichier
#option HORACE (o/n)
#numero du premier individu traite/enregistrement
#numero du dernier individu traite/enregistrement (0 : nombre maximum)
#parametre de saut pour passer d'un individu au suivant
#(0) quantitatif, (1) qualitatif avec transf., (2) qualitatif sans transf
#donne l'en-tete du listing (pour identification)
#donne le nombre de caracteres etudies
#edition d'une table de correspondance numerique-alphanumerique (o/n)
Fichier paramètre iris.don.007 (DEFCAR)
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x11
x12
Fichier paramètre iris.don.008 (MATCOR)
n
0
1
0
1
n
n
o
0
1
-99999
#Option reechantillonnage (JACKKNIFE ou BOOTSTRAP)
#constante pour correction nbre d.l. d'erreur (donnees ajustees)
#entre le code correspondant a MATSUP (0, 1 ou 2)
#entre le code correspondant a DENDRO (0 ou 1)
#entre le code correspondant a EFFSUP (0 ou 1)
#option trivar : matrices intra sur plusieurs populations (o/n)
#chainage d'INDEX5 : index de selection massale (o/n)
#chainage de REGMUL : regression multiple descendante (o/n)
#Valeur de REGPOND : regression multiple ponderee (0-3)
#contrainte 1 : position
#contrainte 1 : lim. inf.
41
99999
1
-99999
99999
1
-99999
99999
1
-99999
99999
#contrainte
#contrainte
#contrainte
#contrainte
#contrainte
#contrainte
#contrainte
#contrainte
#contrainte
#contrainte
1
2
2
2
3
3
3
4
4
4
:
:
:
:
:
:
:
:
:
:
lim. sup.
position
lim.inf.
lim.sup.
position
lim.inf.
lim.sup.
position
lim.inf.
lim.sup.
Fichier paramètre iris.don.009 (REGMUL)
0
1
#entre le code correspondant a varsup (0, 1 ou 2)
#option graphique (0) ou valeur ajustee (1)
#option REGOR : regression passant par l'origine (o/n)
#nombre de variables expliquees
#nombre de variables explicatives au premier palier
#nombre de variables explicatives au dernier palier
#numero de la variable expliquee
1
#numero de la variable expliquee
2
#numero de la variable expliquee
3
#numero de la variable explicative
1
#numero de la variable explicative
2
#numero de la variable explicative
3
#numero de la variable explicative
4
#numero de la variable explicative
5
#numero de la variable explicative
6
#numero de la variable explicative
7
#numero de la variable explicative
8
#numero de la variable explicative
9
#changement de jeu de variables ,expliquees & explicatives (o/n)
n
3
9
1
1
2
3
4
5
6
7
8
9
10
11
12
n
Annexe 3.
Script de pilotage de PAPA2 (procédure lis)
#!/bin/csh
if(-f erreur) rm erreur
if(-f sortie) rm sortie
if(-f lis.out.001) rm lis.out.*
(antar <lis.don.001>>/dev/null)
if( $status != 0 ) goto echec
(defcar <lis.don.002>>/dev/null)
if( $status != 0 ) goto echec
(pinede <lis.don.003>>/dev/null)
if( $status != 0 ) goto echec
mv sortie lis.out.001
(crecar <lis.don.004>>/dev/null)
if( $status != 0 ) goto echec
mv sortie lis.out.002
(compex <lis.don.005>>/dev/null)
if( $status != 0 ) goto echec
mv sortie lis.out.003
(fusion <lis.don.006>>/dev/null)
if( $status != 0 ) goto echec
mv sortie lis.out.004
(antar <lis.don.007>>/dev/null)
if( $status != 0 ) goto echec
(defcar <lis.don.008>>/dev/null)
if( $status != 0 ) goto echec
(matcor <lis.don.009>>/dev/null)
if( $status != 0 ) goto echec
mv sortie lis.out.005
(regmul <lis.don.010>>/dev/null)
if( $status != 0 ) goto echec
mv sortie lis.out.006
(rives <lis.don.011>>/dev/null)
if( $status != 0 ) goto echec
mv sortie lis.out.007
echo procedure lis terminee
cat erreur
if(-f erreur) rm erreur
exit
echec:
echo procedure lis echouee
cat erreur
>>&! erreur
>>&! erreur
>>&! erreur
>>&! erreur
>>&! erreur
>>&! erreur
>>&! erreur
>>&! erreur
>>&! erreur
>>&! erreur
>>&! erreur
42
Fichier paramètre lis.don.001 (ANTAR)
mal4d
n
1
0
1
0
essai PAPA2
-3
n
#nom du fichier
#option HORACE (o/n)
#numero du premier individu traite/enregistrement
#numero du dernier individu traite/enregistrement (0 : nombre maximum)
#parametre de saut pour passer d'un individu au suivant
#(0) quantitatif, (1) qualitatif avec transf., (2) qualitatif sans transf
#donne l'en-tete du listing (pour identification)
#donne le nombre de caracteres etudies
#edition d'une table de correspondance numerique-alphanumerique (o/n)
Fichier paramètre lis.don.002 (DEFCAR)
x1
x2
x3
Fichier paramètre lis.don.003 (PINEDE)
1
o
2
6
famille
0
1
0
1
n
n
1
n
n
28
4
4
1
28
1
-99999
99999
1
-99999
99999
1
-99999
99999
#Valeur de SPU
#Option reechantillonnage (JACKKNIFE, BOOTSTRAP, PAPADAKIS++)
#Valeur de AMONT
#nombre de covariables retenues pour l'ajustement
#nom du facteur population (15 caracteres au maximum)
#constante pour correction nbre d.l. d'erreur (donnees ajustees)
#entre le code correspondant a MATSUP (0, 1 ou 2)
#entre le code correspondant a DENDRO (0 ou 1)
#entre le code correspondant a EFFSUP (0 ou 1)
#chainage CORAN (correl.de rangs), DUNCAN ou DAG : classt et comp.effets (o/n)
#chainage d'INDEX1 : fam. & prov. ou INDEX6 : tests de desc. & clonal (o/n)
#coefficient de var.-covar. genetiques additives dans les composantes inter
#chainage DISCRI : Analyse Discriminante, AFD (o/n)
#chainage de COVAR1 : analyse de covariance multiple 1 facteur (o/n)
#limite superieure du code de population
#position du code de population dans enregistrement
#contrainte 1 : position
#contrainte 1 : lim. inf.
#contrainte 1 : lim. sup.
#contrainte 2 : position
#contrainte 2 : lim. inf.
#contrainte 2 : lim. sup.
#contrainte 3 : position
#contrainte 3 : lim. inf.
#contrainte 3 : lim. sup.
#contrainte 4 : position
#contrainte 4 : lim. inf.
#contrainte 4 : lim. sup.
Fichier paramètre lis.don.004 (CRECAR)
n
0
n
1
4
28
0
0
residus
#Option rechantillonnage, JACKKNIFE ou BOOTSTRAP (o/n)
#elimination des enregistrements entierement a -5 ou -9 (0) ou maintien (1)
#option VERSUP : suppression du controle des -5 & -9 (o/n)
#entrer le code approprie (0, 1, 2, 3, -1, -2, -3)
#position du code de population dans enregistrement
#valeur maximum du code de population
#nombre de contraintes sur les indicatifs
#nombre de contraintes sur les caracteres observes
#nom du fichier de sortie
Fichier paramètre lis.don.005 (COMPEX)
0
coord
residus
n
0
o
3.64
100
2
12
1
2
n
0
#ecriture dans sortie (0)
#nom du fichier donnant les coordonnees des individus-pivots
#nom du fichier de la population globale
#option VARDIR : moyenne par rapport a direction du pivot (o/n)
#Entre le code de l'option TRIGENE (0, 1, 2, ou 3)
#Entre le code de l'option REGPOND (o/n)
#espacement entre lignes (en unites d'abscisse)
#valeur max.de l'abscisse de 1er indiv. d'un enreg.
#position de l'abscisse de 1er individu d'un enreg.
#valeur maximum du numero de ligne
#position du numero de ligne
#nombre de JEUX a etudier
#JEU# 1 option LISU : elimination voisins sur ligne indiv.-pivot ( o/n)
#JEU# 1 rayon min. sur la ligne autour de l'individu-pivot (unites d'absc.)
43
2
0
360
1
n
0
3
0
360
1
3
1
2
3
#JEU# 1 rayon max. sur la ligne autour de l'individu-pivot (unites d'absc.)
#JEU# 1 direction de bissectrice par rapport a base de la ligne (degres)
#JEU# 1 angle d'ouverture du secteur (degres)
#JEU# 1 coefficient d'aplatissement,t , de l'ellipse (1 -> cercle)
#JEU# 2 option LISU : elimination voisins sur ligne indiv.-pivot ( o/n)
#JEU# 2 rayon min. sur la ligne autour de l'individu-pivot (unites d'absc.)
#JEU# 2 rayon max. sur la ligne autour de l'individu-pivot (unites d'absc.)
#JEU# 2 direction de bissectrice par rapport a base de la ligne (degres)
#JEU# 2 angle d'ouverture du secteur (degres)
#JEU# 2 coefficient d'aplatissement,t , de l'ellipse (1 -> cercle)
#Nombre de caracteres a utiliser /JEU
#Position/enregistrement du caractere numero
1
#Position/enregistrement du caractere numero
2
#Position/enregistrement du caractere numero
3
Fichier paramètre lis.don.006 (FUSION)
0
mal4d
vois001
n
n
2
12
1
1
100
2
2
o
vois002
o
o
vois003
o
n
#ecriture dans sortie (0)
#nom du fichier receveur
#nom du fichier donneur
#option RANCAR : tri sur caracteres fichier receveur (o/n)
#option TRICAR : tri sur caracteres fichier donneur (o/n)
#fusion sur identite de sequence, d'un ou de deux indicatifs (0, 1 ou 2)
#valeur maximum du premier indicatif de fusion
#numero du premier indicatif de fusion/enregistrement receveur
#numero du premier indicatif de fusion/enregistrement donneur
#valeur maximum du second indicatif de fusion
#numero du second indicatif de fusion/enregistrement receveur
#numero du second indicatif de fusion/enregistrement donneur
#Nouveau fichier donneur a fusionner (o/n)
#Nom du nouveau fichier a fusionner (o/n)
#Memes choix de caract. et critere de fusion (o/n)
#Nouveau fichier donneur a fusionner (o/n)
#Nom du nouveau fichier a fusionner (o/n)
#Memes choix de caract. et critere de fusion (o/n)
#Nouveau fichier donneur a fusionner (o/n)
Fichier paramètre lis.don.007 (ANTAR)
mal4d
n
1
0
1
0
essai PAPA2
-9
n
#nom du fichier
#option HORACE (o/n)
#numero du premier individu traite/enregistrement
#numero du dernier individu traite/enregistrement (0 : nombre maximum)
#parametre de saut pour passer d'un individu au suivant
#(0) quantitatif, (1) qualitatif avec transf., (2) qualitatif sans transf
#donne l'en-tete du listing (pour identification)
#donne le nombre de caracteres etudies
#edition d'une table de correspondance numerique-alphanumerique (o/n)
Fichier paramètre lis.don.008 (DEFCAR)
x1
x2
x3
x4
x5
x6
x7
x8
x9
Fichier paramètre lis.don.009 (MATCOR)
n
0
1
0
1
n
n
o
0
1
-99999
99999
1
#Option reechantillonnage (JACKKNIFE ou BOOTSTRAP)
#constante pour correction nbre d.l. d'erreur (donnees ajustees)
#entre le code correspondant a MATSUP (0, 1 ou 2)
#entre le code correspondant a DENDRO (0 ou 1)
#entre le code correspondant a EFFSUP (0 ou 1)
#option trivar : matrices intra sur plusieurs populations (o/n)
#chainage d'INDEX5 : index de selection massale (o/n)
#chainage de REGMUL : regression multiple descendante (o/n)
#Valeur de REGPOND : regression multiple ponderee (0-3)
#contrainte 1 : position
#contrainte 1 : lim. inf.
#contrainte 1 : lim. sup.
#contrainte 2 : position
44
-99999
99999
1
-99999
99999
1
-99999
99999
#contrainte
#contrainte
#contrainte
#contrainte
#contrainte
#contrainte
#contrainte
#contrainte
2
2
3
3
3
4
4
4
:
:
:
:
:
:
:
:
lim.inf.
lim.sup.
position
lim.inf.
lim.sup.
position
lim.inf.
lim.sup.
Fichier paramètre lis.don.010 (REGMUL)
0
1
n
3
6
6
1
2
3
4
5
6
7
8
9
n
#entre le code correspondant a varsup (0, 1 ou 2)
#option graphique (0) ou valeur ajustee (1)
#option REGOR : regression passant par l'origine (o/n)
#nombre de variables expliquees
#nombre de variables explicatives au premier palier
#nombre de variables explicatives au dernier palier
#numero de la variable expliquee
1
#numero de la variable expliquee
2
#numero de la variable expliquee
3
#numero de la variable explicative
1
#numero de la variable explicative
2
#numero de la variable explicative
3
#numero de la variable explicative
4
#numero de la variable explicative
5
#numero de la variable explicative
6
#changement de jeu de variables ,expliquees & explicatives (o/n)
Fichier paramètre lis.don.011 (RIVES)
0
o
1
o
#(0) = REGMUL, (1) = COVAR1, (2) = COVAR2
#option varsup : suppression des covariables (o/n)
#maintien/suppression des caracteres <>covariables (0/1)
#option REDIR : redirection du fichier de sortie sur le fichier d'entree (o/n)
Ci-dessous sont donnés les enchaînements d’écrans corrrespondant au lancement de la
procédure réitérée par le moteur de réitération JBSTAR.
45
Etape 1 : sélection du pas d’affichage des réitérations
Etape 2 : choix de « Papadakis ++ » comme type de réitération
46
Etape 3 : JBSTAR a identifié la procédure comme PAPA2 « strict». Il emet une « warning »
conseillant de vérifier le fichier de données (mal4d) et demande le nombre de réitérations
Etape 4 : Le nombre de réitération est rentré et JBSTAR donne des indications à
l’utilisateur pour lancer la procédure réitérée et récupérer les résultats.
47
Annexe 3-bis.
Script de pilotage de PAPA2 « ad libitum » (procédure bleuet)
#!/bin/csh
if(-f erreur) rm erreur
if(-f sortie) rm sortie
if(-f bleuet.out.001) rm bleuet.out.*
(antar <bleuet.don.001>>/dev/null) >>&!
if( $status != 0 ) goto echec
(defcar <bleuet.don.002>>/dev/null) >>&!
if( $status != 0 ) goto echec
(pinede <bleuet.don.003>>/dev/null) >>&!
if( $status != 0 ) goto echec
mv sortie bleuet.out.001
(crecar <bleuet.don.004>>/dev/null) >>&!
if( $status != 0 ) goto echec
mv sortie bleuet.out.002
(compex <bleuet.don.005>>/dev/null) >>&!
if( $status != 0 ) goto echec
mv sortie bleuet.out.003
(fusion <bleuet.don.006>>/dev/null) >>&!
if( $status != 0 ) goto echec
mv sortie bleuet.out.004
(antar <bleuet.don.007>>/dev/null) >>&!
if( $status != 0 ) goto echec
(defcar <bleuet.don.008>>/dev/null) >>&!
if( $status != 0 ) goto echec
(matcor <bleuet.don.009>>/dev/null) >>&!
if( $status != 0 ) goto echec
mv sortie bleuet.out.005
(regmul <bleuet.don.010>>/dev/null) >>&!
if( $status != 0 ) goto echec
mv sortie bleuet.out.006
(rives <bleuet.don.011>>/dev/null) >>&!
if( $status != 0 ) goto echec
mv sortie bleuet.out.007
(envir <bleuet.don.012>>/dev/null) >>&!
if( $status != 0 ) goto echec
mv sortie bleuet.out.008
(cocon <bleuet.don.013>>/dev/null) >>&!
if( $status != 0 ) goto echec
mv sortie bleuet.out.009
echo procedure bleuet terminee
cat erreur
if(-f erreur) rm erreur
exit
echec:
echo procedure bleuet echouee
cat erreur
erreur
erreur
erreur
erreur
erreur
erreur
erreur
erreur
erreur
erreur
erreur
erreur
erreur
Fichier paramètre bleuet.don.001 (ANTAR)
mal4d
n
#nom du fichier
#option HORACE (o/n)
1
#numero du premier individu traite/enregistrement
0
#numero du dernier individu traite/enregistrement (0 : nombre maximum)
1
#parametre de saut pour passer d'un individu au suivant
0
#(0) quantitatif, (1) qualitatif avec transf., (2) qualitatif sans transf
verif envir terminal#donne l'en-tete du listing (pour identification)
-3
#donne le nombre de caracteres etudies
n
#edition d'une table de correspondance numerique-alphanumerique (o/n)
Fichier paramètre bleuet.don.002 (DEFCAR)
x1
x2
x3
Fichier paramètre bleuet.don.003 (PINEDE)
1
o
2
9
famille
0
#Valeur de SPU
#Option reechantillonnage (JACKKNIFE, BOOTSTRAP, PAPADAKIS++)
#Valeur de AMONT
#Nombre de variables explicatives conservees pour l'ajustement
#nom du facteur population (15 caracteres au maximum)
#constante pour correction nbre d.l. d'erreur (donnees ajustees)
48
1
0
0
n
n
1
n
n
28
4
4
1
28
1
-99999
99999
1
-99999
99999
1
-99999
99999
#entre le code correspondant a MATSUP (0, 1 ou 2)
#entre le code correspondant a DENDRO (0 ou 1)
#entre le code correspondant a EFFSUP (0 ou 1)
#chainage CORAN (corr. rangs), DUNCAN ou DAG : classt et compar. effets (o/n)
#chainage d'INDEX1 : fam. & prov. ou INDEX6 : tests de desc. & clonal (o/n)
#coefficient de var.-covar. genetiques additives dans les composantes inter
#chainage DISCRI : Analyse Discriminante, AFD (o/n)
#chainage de COVAR1 : analyse de covariance multiple 1 facteur (o/n)
#limite superieure du code de population
#position du code de population dans enregistrement
#contrainte 1 : position
#contrainte 1 : lim. inf.
#contrainte 1 : lim. sup.
#contrainte 2 : position
#contrainte 2 : lim. inf.
#contrainte 2 : lim. sup.
#contrainte 3 : position
#contrainte 3 : lim. inf.
#contrainte 3 : lim. sup.
#contrainte 4 : position
#contrainte 4 : lim. inf.
#contrainte 4 : lim. sup.
Fichier paramètre bleuet.don.004 (CRECAR)
n
0
n
1
4
28
0
0
residus
#Option rechantillonnage, JACKKNIFE ou BOOTSTRAP (o/n)
#elimination des enregistrements entierement a -5 ou -9 (0) ou maintien (1)
#option VERSUP : suppression du controle des -5 & -9 (o/n)
#entrer le code approprie (0, 1, 2, 3, -1, -2, -3)
#position du code de population dans enregistrement
#valeur maximum du code de population
#nombre de contraintes sur les indicatifs
#nombre de contraintes sur les caracteres observes
#nom du fichier de sortie
Fichier paramètre bleuet.don.005 (COMPEX)
0
coord
residus
n
0
n
3.64
100
2
12
1
2
n
0
2
0
360
1
n
0
3
0
360
1
3
1
2
3
#ecriture dans sortie (0)
#nom du fichier donnant les coordonnees des individus-pivots
#nom du fichier de la population globale
#option VARDIR : moyenne par rapport a direction du pivot (o/n)
#Entre le code de l'option TRIGENE (0, 1, 2, ou 3)
#Entre le code de l'option REGPOND (o/n)
#espacement entre lignes (en unites d'abscisse)
#valeur max. de l'abscisse de 1er indiv. d'un enregistrement
#position de l'abscisse de 1er individu d'un enreg.
#valeur maximum du numero de ligne
#position du numero de ligne
#nombre de JEUX a etudier
#JEU# 1 option LISU : elimination voisins sur ligne de pivot ( o/n)
#JEU# 1 rayon min sur ligne autour d'individu-pivot (unites d'absc.)
#JEU# 1 rayon max sur ligne autour d'individu-pivot (unites d'absc.)
#JEU# 1 direction de bissectrice par rapport a base de ligne (deg.)
#JEU# 1 angle d'ouverture du secteur (degres)
#JEU# 1 coefficient d'aplatissement, t, de l'ellipse (1 -> cercle)
#JEU# 2 option LISU : elimination voisins sur ligne de pivot ( o/n)
#JEU# 2 rayon min sur ligne autour d'individu-pivot (unites d'absc.)
#JEU# 2 rayon max sur ligne autour d'individu-pivot (unites d'absc.)
#JEU# 2 direction de bissectrice par rapport a base de ligne (deg.)
#JEU# 2 angle d'ouverture du secteur (degres)
#JEU# 2 coefficient d'aplatissement, t, de l'ellipse (1 -> cercle)
#Nombre de caracteres a utiliser/JEU
#Position/enregistrement du caractere numero
1
#Position/enregistrement du caractere numero
2
#Position/enregistrement du caractere numero
3
Fichier paramètre bleuet.don.006 (FUSION)
0
mal4d
vois001
n
n
2
12
1
1
100
#ecriture dans sortie (0)
#nom du fichier receveur
#nom du fichier donneur
#option RANCAR : tri sur caracteres fichier receveur (o/n)
#option TRICAR : tri sur caracteres fichier donneur (o/n)
#fusion sur identite de sequence, d'un ou de deux indicatifs (0, 1 ou 2)
#valeur maximum du premier indicatif de fusion
#numero du premier indicatif de fusion/enregistrement receveur
#numero du premier indicatif de fusion/enregistrement donneur
#valeur maximum du second indicatif de fusion
49
2
2
o
vois002
o
o
vois003
o
n
#numero du second indicatif de fusion/enregistrement receveur
#numero du second indicatif de fusion/enregistrement donneur
#Nouveau fichier donneur a fusionner (o/n)
#Nom du nouveau fichier a fusionner (o/n)
#Memes choix de caract. et critere de fusion (o/n)
#Nouveau fichier donneur a fusionner (o/n)
#Nom du nouveau fichier a fusionner (o/n)
#Memes choix de caract. et critere de fusion (o/n)
#Nouveau fichier donneur a fusionner (o/n)
Fichier paramètre bleuet.don.007 (ANTAR)
mal4d
n
1
0
1
0
essai papa2
-9
n
#nom du fichier
#option HORACE (o/n)
#numero du premier individu traite/enregistrement
#numero du dernier individu traite/enregistrement (0 : nombre maximum)
#parametre de saut pour passer d'un individu au suivant
#(0) quantitatif, (1) qualitatif avec transf., (2) qualitatif sans transf
#donne l'en-tete du listing (pour identification)
#donne le nombre de caracteres etudies
#edition d'une table de correspondance numerique-alphanumerique (o/n)
Fichier paramètre bleuet.don.008 (DEFCAR)
x1
x2
x3
x4
x5
x6
x7
x8
x9
Fichier paramètre bleuet.don.009 (MATCOR)
n
0
1
0
1
n
n
o
0
1
-99999
99999
1
-99999
99999
1
-99999
99999
1
-99999
99999
#Option reechantillonnage (JACKKNIFE ou BOOTSTRAP)
#constante pour correction nbre d.l. d'erreur (donnees ajustees)
#entre le code correspondant a MATSUP (0, 1 ou 2)
#entre le code correspondant a DENDRO (0 ou 1)
#entre le code correspondant a EFFSUP (0 ou 1)
#option trivar : matrices intra sur plusieurs populations (o/n)
#chainage d'INDEX5 : index de selection massale (o/n)
#chainage de REGMUL : regression multiple descendante (o/n)
#Valeur de REGPOND : regression multiple ponderee (0-3)
#contrainte 1 : position
#contrainte 1 : lim. inf.
#contrainte 1 : lim. sup.
#contrainte 2 : position
#contrainte 2 : lim.inf.
#contrainte 2 : lim.sup.
#contrainte 3 : position
#contrainte 3 : lim.inf.
#contrainte 3 : lim.sup.
#contrainte 4 : position
#contrainte 4 : lim.inf.
#contrainte 4 : lim.sup.
Fichier paramètre bleuet.don.010 (REGMUL)
0
1
n
3
6
6
1
2
3
4
5
6
7
8
9
n
#entre le code correspondant a VARSUP (0, 1 ou 2)
#option graphique (0) ou valeur ajustee (1)
#option REGOR : regression passant par l'origine (o/n)
#nombre de variables expliquees
#nombre de variables explicatives au premier palier
#nombre de variables explicatives au dernier palier
#numero de la variable expliquee
1
#numero de la variable expliquee
2
#numero de la variable expliquee
3
#numero de la variable explicative
1
#numero de la variable explicative
2
#numero de la variable explicative
3
#numero de la variable explicative
4
#numero de la variable explicative
5
#numero de la variable explicative
6
#changement de jeu de variables ,expliquees & explicatives (o/n)
50
Fichier paramètre bleuet.don.011 (RIVES)
0
o
1
o
#(0) = REGMUL, (1) = COVAR1, (2) = COVAR2
#option varsup : suppression des covariables (o/n)
#maintien/suppression des caracteres <>covariables (0/1)
#option REDIR : redirection du fichier de sortie sur le fichier d'entree (o/n)
Fichier paramètre bleuet.don.012 (ENVIR)
n
0
n
bloc
famille
0
0
1
30
3
28
4
0
3
1
30
4
1
28
1
-99999
99999
1
-99999
99999
#Option rechantillonnage (JACKKNIFE ou BOOTSTRAP)
#test F effets principaux modele fixe (0) ou aleatoire (1)
#option mulfac (o/n)
#nom du facteur colonne (15 caracteres max.)
#nom du facteur ligne (15 caracteres max.)
#constante pour correction nbre d.l. d'erreur (donnees ajustees)
#option EFFSUP (0 a 3)
#option vajust (0 a 3)
#valeur maximum du code du facteur colonne
#position du code du facteur colonne dans enregistrement
#valeur maximum du code du facteur ligne
#position du code du facteur ligne dans enregistrement
#val. maximum du code cellule (combinaison ligne * colonne) : 0 si absent
#contrainte 1 : position
#contrainte 1 : lim. inf.
#contrainte 1 : lim. sup.
#contrainte 2 : position
#contrainte 2 : lim. inf.
#contrainte 2 : lim. sup.
#contrainte 3 : position
#contrainte 3 : lim. inf.
#contrainte 3 : lim. sup.
#contrainte 4 : position
#contrainte 4 : lim. inf.
#contrainte 4 : lim. sup.
Fichier paramètre bleuet.don.013 (COCON)
0
vajust
mal4d
o
n
1
0
n
#ecriture dans sortie(0)
#nom du fichier d'entree
#nom du fichier de sortie
#Option KILL : suppression du fichier initial (o/n/c)
#Option PICK-UP : recopie selective (o/n)
#numero du premier enregistrement a lire
#numero du dernier enreg. a lire (0 : fin de fichier)
#Nouveaux transferts a la fin du meme fichier (o/n)
Ci-dessous sont donnés les enchaînements d’écrans corrrespondant au lancement de la
procédure réitérée par le moteur de réitération JBSTAR.
51
Etape 1 : sélection du pas d’affichage des réitérations
Etape 2 : choix de « Papadakis ++ » comme type de réitération
52
Etape 3 : JBSTAR a identifié la procédure comme PAPA2 «ad libitum». Il demande alors le
code du premier programme de la chaîne
Etape 4 : Choix du code du dernier programme de la chaîne réitérée
53
Etape 5 : Après chois du code du dernier programme, JBSTAR emet une « warning »
conseillant de vérifier le fichier de données (mal4d) et demande le nombre de réitérations
Etape 6: Le nombre de réitération est rentré et JBSTAR donne des indications à l’utilisateur
pour lancer la procédure réitérée et récupérer les résultats.
54
Annexe 4. Principaux résultats de la chaîne PAPA1 (procédure iris)
COMPEX : calcul de valeurs moyennes de voisins autour d'individus-pivots (individus a ajuster)
----------------------------------------------------------------------------------------NB : Dans les resultats du programme, 'vivant' signifie 'utilisable pour l'ajustement',
ainsi, les individus mesures mais sans voisins utilisables sont consideres comme 'morts'.
Interpreter le parametre 'taux de survie' en tenant compte de cette definition.
----------------------------------------------------------------------------------------Modalite de l'option TRIGENE =
0
Modalite de l'option REGPOND = n
.......................................................................................
JEU numero 1, CARACTERE numero 1 (ht94)
Caracteristiques angulaires par rapport a la base des lignes :
(angles mesures en degres dans le sens des aiguilles d'une montre)
Direction =
0.000 , Ouverture du secteur =
360.000
Dimensions des configurations de voisinage en unites d'abscisse :
( coefficient d'aplatissement =
1.000 )
Rayon minimum sur ligne
=
0.000 , rayon maximum sur ligne
=
2.000
Rayon minimum entre lignes =
0.000 , rayon maximum entre lignes =
2.000
.......................................................................................
effectif theorique maximum/configuration de voisinage =
numero du point
1
2
3
4
5
6
7
8
9
10
ligne
abscisse
1
1
1
1
1
1
1
1
1
1
1
2
3
4
5
6
8
10
11
13
nombre maximum
4
nombre de vivants
moyenne
2
3
4
4
3
3
2
2
2
3
24.132
79.005
50.527
-14.267
12.612
72.191
-6.111
85.176
191.627
68.053
2
3
4
4
3
3
2
2
2
3
…
831
12
93
4
4
18.656
832
12
94
3
3
71.118
833
12
95
3
3
53.111
834
12
97
3
3
53.042
835
12
98
3
3
104.866
836
12
99
3
3
122.213
837
12
100
2
2
82.131
.......................................................................................
effectif total des individus vivants + morts =
837, taux de survie
=
100.000 %
effectif total des individus vivants
=
837, moyenne generale =
0.000
.......................................................................................
.......................................................................................
JEU numero 2, CARACTERE numero 1 (ht94)
Caracteristiques angulaires par rapport a la base des lignes :
(angles mesures en degres dans le sens des aiguilles d'une montre)
Direction =
0.000 , Ouverture du secteur =
360.000
Dimensions des configurations de voisinage en unites d'abscisse :
( coefficient d'aplatissement =
1.000 )
Rayon minimum sur ligne
=
0.000 , rayon maximum sur ligne
=
3.000
Rayon minimum entre lignes =
0.000 , rayon maximum entre lignes =
3.000
.......................................................................................
effectif theorique maximum/configuration de voisinage =
numero du point
1
2
3
ligne
1
1
1
abscisse
1
2
3
nombre maximum
6
nombre de vivants
3
4
5
3
4
5
55
moyenne
52.116
62.504
16.755
4
5
6
7
8
9
10
1
1
1
1
1
1
1
4
5
6
8
10
11
13
5
5
4
4
3
4
5
5
5
4
4
3
4
5
4.755
26.701
66.164
18.911
149.165
130.481
87.684
…
831
12
93
5
5
32.542
832
12
94
5
5
46.453
833
12
95
5
5
82.594
834
12
97
5
5
66.594
835
12
98
4
4
77.366
836
12
99
3
3
122.213
837
12
100
3
3
83.250
.......................................................................................
effectif total des individus vivants + morts =
837, taux de survie
=
100.000 %
effectif total des individus vivants
=
837, moyenne generale =
0.000
.......................................................................................
.......................................................................................
JEU numero 3, CARACTERE numero 1 (ht94)
Caracteristiques angulaires par rapport a la base des lignes :
(angles mesures en degres dans le sens des aiguilles d'une montre)
Direction =
0.000 , Ouverture du secteur =
360.000
Dimensions des configurations de voisinage en unites d'abscisse :
( coefficient d'aplatissement =
1.000 )
Rayon minimum sur ligne
=
0.000 , rayon maximum sur ligne
=
4.000
Rayon minimum entre lignes =
0.000 , rayon maximum entre lignes =
4.000
.......................................................................................
effectif theorique maximum/configuration de voisinage =
numero du point
1
2
3
4
5
6
7
8
9
10
ligne
abscisse
1
1
1
1
1
1
1
1
1
1
1
2
3
4
5
6
8
10
11
13
nombre maximum
14
nombre de vivants
moyenne
4
5
6
8
9
8
7
8
8
7
42.337
26.336
35.678
29.714
32.510
39.862
58.961
92.624
106.275
64.536
4
5
6
8
9
8
7
8
8
7
…
831
12
93
8
8
81.549
832
12
94
9
9
84.525
833
12
95
8
8
54.827
834
12
97
6
6
67.662
835
12
98
6
6
93.434
836
12
99
6
6
120.440
837
12
100
5
5
122.178
.......................................................................................
effectif total des individus vivants + morts =
837, taux de survie
=
100.000 %
effectif total des individus vivants
=
837, moyenne generale =
0.000
.......................................................................................
.......................................................................................
JEU numero 1, CARACTERE numero 2 (ci94)
Caracteristiques angulaires par rapport a la base des lignes :
(angles mesures en degres dans le sens des aiguilles d'une montre)
Direction =
0.000 , Ouverture du secteur =
360.000
Dimensions des configurations de voisinage en unites d'abscisse :
( coefficient d'aplatissement =
1.000 )
Rayon minimum sur ligne
=
0.000 , rayon maximum sur ligne
=
2.000
Rayon minimum entre lignes =
0.000 , rayon maximum entre lignes =
2.000
.......................................................................................
effectif theorique maximum/configuration de voisinage =
numero du point
1
2
4
ligne
abscisse
nombre maximum
nombre de vivants
moyenne
1
1
1
2
2
3
2
3
3.277
12.712
56
3
4
5
6
7
8
9
10
1
1
1
1
1
1
1
1
3
4
5
6
8
10
11
13
4
4
3
3
2
2
2
3
4
4
3
3
2
2
2
3
5.305
-3.910
1.091
2.877
-9.560
8.994
4.856
6.421
…
831
12
93
4
4
-1.232
832
12
94
3
3
6.876
833
12
95
3
3
7.036
834
12
97
3
3
3.658
835
12
98
3
3
8.264
836
12
99
3
3
10.597
837
12
100
2
2
3.213
.......................................................................................
effectif total des individus vivants + morts =
836, taux de survie
=
99.282 %
effectif total des individus vivants
=
830, moyenne generale =
0.046
.......................................................................................
.......................................................................................
JEU numero 2, CARACTERE numero 2 (ci94)
Caracteristiques angulaires par rapport a la base des lignes :
(angles mesures en degres dans le sens des aiguilles d'une montre)
Direction =
0.000 , Ouverture du secteur =
360.000
Dimensions des configurations de voisinage en unites d'abscisse :
( coefficient d'aplatissement =
1.000 )
Rayon minimum sur ligne
=
0.000 , rayon maximum sur ligne
=
3.000
Rayon minimum entre lignes =
0.000 , rayon maximum entre lignes =
3.000
.......................................................................................
effectif theorique maximum/configuration de voisinage =
numero du point
1
2
3
4
5
6
7
8
9
10
6
ligne
abscisse
nombre maximum
nombre de vivants
moyenne
1
1
1
1
1
1
1
1
1
1
1
2
3
4
5
6
8
10
11
13
3
4
5
5
5
4
4
3
4
5
3
4
5
5
5
4
4
3
4
5
5.702
7.944
1.078
0.678
1.142
4.296
-2.983
10.330
5.288
4.938
…
830
12
92
6
6
1.113
831
12
93
5
5
-1.015
832
12
94
5
5
4.825
833
12
95
5
5
6.452
834
12
97
5
5
3.729
835
12
98
4
4
7.335
836
12
99
3
3
10.597
837
12
100
3
3
6.621
.......................................................................................
effectif total des individus vivants + morts =
836, taux de survie
=
99.282 %
effectif total des individus vivants
=
830, moyenne generale =
0.046
.......................................................................................
.......................................................................................
JEU numero 3, CARACTERE numero 2 (ci94)
Caracteristiques angulaires par rapport a la base des lignes :
(angles mesures en degres dans le sens des aiguilles d'une montre)
Direction =
0.000 , Ouverture du secteur =
360.000
Dimensions des configurations de voisinage en unites d'abscisse :
( coefficient d'aplatissement =
1.000 )
Rayon minimum sur ligne
=
0.000 , rayon maximum sur ligne
=
4.000
Rayon minimum entre lignes =
0.000 , rayon maximum entre lignes =
4.000
.......................................................................................
effectif theorique maximum/configuration de voisinage =
numero du point
ligne
abscisse
nombre maximum
14
nombre de vivants
57
moyenne
1
2
3
4
5
6
7
8
9
10
1
1
1
1
1
1
1
1
1
1
1
2
3
4
5
6
8
10
11
13
4
5
6
8
9
8
7
8
8
7
4
5
6
8
9
8
7
8
8
7
2.687
3.188
3.418
2.457
4.210
1.241
1.480
5.852
4.519
1.908
…
831
12
93
8
8
3.204
832
12
94
9
9
4.568
833
12
95
8
8
2.468
834
12
97
6
6
5.047
835
12
98
6
6
7.248
836
12
99
6
6
9.914
837
12
100
5
5
8.602
.......................................................................................
effectif total des individus vivants + morts =
836, taux de survie
=
99.282 %
effectif total des individus vivants
=
830, moyenne generale =
0.046
.......................................................................................
.......................................................................................
JEU numero 1, CARACTERE numero 3 (ev94)
Caracteristiques angulaires par rapport a la base des lignes :
(angles mesures en degres dans le sens des aiguilles d'une montre)
Direction =
0.000 , Ouverture du secteur =
360.000
Dimensions des configurations de voisinage en unites d'abscisse :
( coefficient d'aplatissement =
1.000 )
Rayon minimum sur ligne
=
0.000 , rayon maximum sur ligne
=
2.000
Rayon minimum entre lignes =
0.000 , rayon maximum entre lignes =
2.000
.......................................................................................
effectif theorique maximum/configuration de voisinage =
numero du point
1
2
3
4
5
6
7
8
9
10
4
ligne
abscisse
nombre maximum
nombre de vivants
1
1
1
1
1
1
1
1
1
1
1
2
3
4
5
6
8
10
11
13
2
3
4
4
3
3
2
2
2
3
2
3
4
4
3
3
2
2
2
3
moyenne
-0.909
-0.852
1.089
-0.089
-2.423
0.664
-1.278
0.858
-2.784
1.226
…
831
12
93
4
4
2.374
832
12
94
3
3
1.199
833
12
95
3
3
4.571
834
12
97
3
3
-0.571
835
12
98
3
3
1.426
836
12
99
3
3
1.554
837
12
100
2
2
-1.946
.......................................................................................
effectif total des individus vivants + morts =
837, taux de survie
=
100.000 %
effectif total des individus vivants
=
837, moyenne generale =
0.000
.......................................................................................
.......................................................................................
JEU numero 2, CARACTERE numero 3 (ev94)
Caracteristiques angulaires par rapport a la base des lignes :
(angles mesures en degres dans le sens des aiguilles d'une montre)
Direction =
0.000 , Ouverture du secteur =
360.000
Dimensions des configurations de voisinage en unites d'abscisse :
( coefficient d'aplatissement =
1.000 )
Rayon minimum sur ligne
=
0.000 , rayon maximum sur ligne
=
3.000
Rayon minimum entre lignes =
0.000 , rayon maximum entre lignes =
3.000
.......................................................................................
effectif theorique maximum/configuration de voisinage =
58
6
numero du point
1
2
3
4
5
6
7
8
9
10
ligne
abscisse
1
1
1
1
1
1
1
1
1
1
1
2
3
4
5
6
8
10
11
13
nombre maximum
nombre de vivants
3
4
5
5
5
4
4
3
4
5
moyenne
3
4
5
5
5
4
4
3
4
5
-1.748
-0.169
0.788
0.788
-0.425
-0.359
-0.624
-0.571
-0.349
0.957
…
831
12
93
5
5
2.293
832
12
94
5
5
2.523
833
12
95
5
5
2.499
834
12
97
5
5
0.493
835
12
98
4
4
1.614
836
12
99
3
3
1.554
837
12
100
3
3
1.215
.......................................................................................
effectif total des individus vivants + morts =
837, taux de survie
=
100.000 %
effectif total des individus vivants
=
837, moyenne generale =
0.000
.......................................................................................
.......................................................................................
JEU numero 3, CARACTERE numero 3 (ev94)
Caracteristiques angulaires par rapport a la base des lignes :
(angles mesures en degres dans le sens des aiguilles d'une montre)
Direction =
0.000 , Ouverture du secteur =
360.000
Dimensions des configurations de voisinage en unites d'abscisse :
( coefficient d'aplatissement =
1.000 )
Rayon minimum sur ligne
=
0.000 , rayon maximum sur ligne
=
4.000
Rayon minimum entre lignes =
0.000 , rayon maximum entre lignes =
4.000
.......................................................................................
effectif theorique maximum/configuration de voisinage =
numero du point
1
2
3
4
5
6
7
8
9
10
ligne
abscisse
1
1
1
1
1
1
1
1
1
1
1
2
3
4
5
6
8
10
11
13
nombre maximum
14
nombre de vivants
4
5
6
8
9
8
7
8
8
7
moyenne
4
5
6
8
9
8
7
8
8
7
-0.841
-0.218
0.730
1.146
0.384
-0.140
-1.054
-0.574
0.171
0.612
…
831
12
93
8
8
2.930
832
12
94
9
9
1.284
833
12
95
8
8
1.212
834
12
97
6
6
0.557
835
12
98
6
6
2.199
836
12
99
6
6
1.263
837
12
100
5
5
0.876
.......................................................................................
effectif total des individus vivants + morts =
837, taux de survie
=
100.000 %
effectif total des individus vivants
=
837, moyenne generale =
0.000
.......................................................................................
--------------------------------------------------------------------------FUSION : fusion de deux ou plusieurs fichiers sur homologie de sequence ou
identite de 1 ou 2 indicatifs.
Ce programme sauvegarde le fichier receveur et son fichier parametre
(REBACKUP).Il sauvegarde egalement le fichier resultant de la derniere
fusion (FUBACKUP). Ces fichiers seront conserves jusqu'a la prochaine
execution du programme FUSION.
------------------------------------------------------------------------------------------------------------------------------------------Fusion terminee : Les fichiers rebackup & fubackup ont ete crees.
59
----------------------------------------------------------------REGMUL : analyse de regression multiple descendante
variable expliquee = numero
1 (
ht94
)
---------------------------------------------palier
* y
9 ,
4 : ht94
1 variable explicative :
001 *
constante de l'equation de regression multiple :
coefficient de correlation multiple :
732.736
0.510
coefficients de regression partiels :
* b
4
=
0.647
coefficients de regression partiels standardises :
* b 4 =
0.510
===================================================================================================
Analyse de variance globale
(test de l'apport de chaque variable)
palier
deg. de liberte
carre moyen
test F
proba.(%)
apport total
1
9
7.1998E+05
49.936
0.000
apport total
2
8
8.0989E+05
56.171
0.000
y 11 :ev94
002
1
7.5318E+02
0.052
81.436
apport total
3
7
9.2539E+05
64.182
0.000
y 5 :ht94
002
1
1.3987E+03
0.097
75.384
apport total
4
6
1.0772E+06
74.708
0.000
y 12 :ev94
003
1
1.4790E+04
1.026
31.257
apport total
5
5
1.2892E+06
89.413
0.000
y 8 :ci94
002
1
1.7034E+04
1.181
27.706
apport total
6
4
1.6067E+06
111.435
0.000
y 9 :ci94
003
1
1.9140E+04
1.327
24.815
apport total
7
3
2.1018E+06
145.777
0.000
y 10 :ev94
001
1
1.2122E+05
8.407
0.396
apport total
8
2
2.9968E+06
207.847
0.000
y 6 :ht94
003
1
3.1197E+05
21.637
0.001
apport total
9
1
4.7325E+06
328.229
0.000
y 7 :ci94
001
1
1.2611E+06
87.464
0.000
deviations
811
1.4418E+04
===================================================================================================
===================================================================================================
variable expliquee = numero
2 (
ci94
)
---------------------------------------------palier
* y
9 ,
4 : ht94
1 variable explicative :
001 *
constante de l'equation de regression multiple :
coefficient de correlation multiple :
30.548
0.274
coefficients de regression partiels :
* b
4
=
0.025
coefficients de regression partiels standardises :
* b
4
=
0.274
===================================================================================================
Analyse de variance globale
60
(test de l'apport de chaque variable)
palier
deg. de liberte
carre moyen
test F
proba.(%)
apport total
1
9
1.3476E+03
13.140
0.000
apport total
2
8
1.5160E+03
14.782
0.000
y 11 :ev94
002
1
1.6807E-01
0.002
96.637
apport total
3
7
1.7324E+03
16.892
0.000
y 8 :ci94
002
1
9.4343E-01
0.009
92.061
apport total
4
6
2.0195E+03
19.692
0.000
y 12 :ev94
003
1
9.8351E+00
0.096
75.511
apport total
5
5
2.4068E+03
23.468
0.000
y 6 :ht94
003
1
8.3113E+01
0.810
62.833
apport total
6
4
2.9768E+03
29.026
0.000
y 5 :ht94
002
1
1.2681E+02
1.236
26.570
apport total
7
3
3.8066E+03
37.118
0.000
y 9 :ci94
003
1
4.8719E+02
4.750
2.795
apport total
8
2
5.2068E+03
50.771
0.000
y 10 :ev94
001
1
1.0063E+03
9.812
0.197
apport total
9
1
7.1762E+03
69.974
0.000
y 7 :ci94
001
1
3.2374E+03
31.568
0.000
deviations
811
1.0256E+02
===================================================================================================
variable expliquee = numero
3 (
ev94
)
---------------------------------------------palier
9 ,
* y 11 : ev94
1 variable explicative :
002 *
constante de l'equation de regression multiple :
coefficient de correlation multiple :
4.320
0.084
coefficients de regression partiels :
* b 11
=
0.171
coefficients de regression partiels standardises :
* b 11
=
0.084
===================================================================================================
Analyse de variance globale
(test de l'apport de chaque variable)
palier
deg. de liberte
carre moyen
test F
proba.(%)
apport total
1
9
1.1132E+01
1.358
20.230
apport total
2
8
1.2413E+01
1.515
14.722
y 7 :ci94
001
1
8.8311E-01
0.108
74.193
apport total
3
7
1.3984E+01
1.706
10.336
y 12 :ev94
003
1
1.4201E+00
0.173
68.057
apport total
4
6
1.6040E+01
1.957
6.870
y 10 :ev94
001
1
1.6465E+00
0.201
65.860
apport total
5
5
1.7955E+01
2.191
5.284
y 4 :ht94
001
1
6.4631E+00
0.789
62.152
apport total
6
4
1.8908E+01
2.307
5.584
y 8 :ci94
002
1
1.4143E+01
1.726
18.592
apport total
7
3
2.3266E+01
2.839
3.653
y 9 :ci94
003
1
5.8330E+00
0.712
59.619
apport total
8
2
2.6525E+01
3.236
3.879
y 6 :ht94
003
1
1.6749E+01
2.044
14.910
apport total
9
1
4.8105E+01
5.870
1.496
y 5 :ht94
002
1
4.9456E+00
0.603
55.651
deviations
811
8.1957E+00
===================================================================================================
===================================================================================================
61
Annexe 5. Principaux résultats de la chaîne Papa2 (procédure lis)
Programme
partie).
JBPAP
:
Controle
de
l'efficacite
des
reiterations
pour
PAPADAKIS++
(deuxieme
Dans les resultats ci-dessous, y1,...yk sont les numeros de "variables expliquees" selectionnees
par REGMUL.
==================================================================================================
Legende :
% de variation 1 = Pourcentage d'evolution depuis l'Analyse de Variance initiale
% de variation 2 = Pourcentage d'evolution depuis l'Analyse de Variance precedente
==================================================================================================
Variances intra de l'Analyse de Variance initiale
y 1
ht94
Variance intra :
y 2
ci94
y 3
ev94
0.2186E+05 0.1093E+03 0.7529E+01
-------------------------------------------------------------------------------------------------Variances intra et % de variation a la reiteration numero
1
y 1
ht94
Variance intra :
y 2
ci94
y 3
ev94
0.1513E+05 0.1007E+03 0.7464E+01
% de variation 1 :
-30.777
-7.867
-0.863
% de variation 2 :
-30.777
-7.867
-0.863
Variances intra et % de variation a la reiteration numero
y 1
ht94
Variance intra :
y 2
ci94
y 3
ev94
0.1461E+05 0.9890E+02 0.7406E+01
% de variation 1 :
-33.178
-9.481
-1.632
% de variation 2 :
-3.469
-1.752
-0.776
Variances intra et % de variation a la reiteration numero
y 1
ht94
Variance intra :
2
y 2
ci94
35
y 3
ev94
0.1217E+05 0.8553E+02 0.6877E+01
% de variation 1 :
-44.316
-21.721
-8.665
% de variation 2 :
0.025
-0.081
-0.234
==================================================================================================
Fichier evares (evolution des variances residuelles) cree avec
Un enregistrement a 1 indicatif (iteration) et 3 caracteres
36 enregistrements :
Le fichier evares peut etre importe sous EXCEL : utiliser le programme TOTEM (transcodage binaire > ASCII)
N.B. " iteration " veut dire : " nombre d'executions de PAPADAKIS++, etape initiale incluse ".
==================================================================================================
62
Annexe 6.
Script de pilotage de CRECAR pour la création d’un fichier « sans trous » à partir du fichier
fubackup en vue du rééchantillonnage (procédure trifu).
#!/bin/csh
if(-f erreur) rm erreur
if(-f sortie) rm sortie
if(-f trifu.out.001) rm trifu.out.*
(antar <trifu.don.001>>/dev/null) >>&! erreur
if( $status != 0 ) goto echec
(defcar <trifu.don.002>>/dev/null) >>&! erreur
if( $status != 0 ) goto echec
(crecar <trifu.don.003>>/dev/null) >>&! erreur
if( $status != 0 ) goto echec
mv sortie trifu.out.001
echo procedure trifu terminee
cat erreur
if(-f erreur) rm erreur
exit
echec:
echo procedure trifu echouee
cat erreur
Fichier paramètre trifu.don.001 (ANTAR)
fubackup
n
1
0
1
0
fitre '-5'
-9
n
#nom du fichier
#option HORACE (o/n)
#numero du premier individu traite/enregistrement
#numero du dernier individu traite/enregistrement (0 : nombre maximum)
#parametre de saut pour passer d'un individu au suivant
#(0) quantitatif, (1) qualitatif avec transf., (2) qualitatif sans transf
#donne l'en-tete du listing (pour identification)
#donne le nombre de caracteres etudies
#edition d'une table de correspondance numerique-alphanumerique (o/n)
Fichier paramètre trifu.don.002 (DEFCAR)
x1
x2
x3
x4
x5
x6
x7
x8
x9
Fichier paramètre trifu.don.003 (CRECAR)
n
0
n
0
0
0
fubacktri
#Option rechantillonnage, JACKKNIFE ou BOOTSTRAP (o/n)
#elimination des enregistrements entierement a -5 ou -9 (0) ou maintien (1)
#option VERSUP : suppression du controle des -5 & -9 (o/n)
#entrer le code approprie (0, 1, 2, 3, -1, -2, -3)
#nombre de contraintes sur les indicatifs
#nombre de contraintes sur les caracteres observes
#nom du fichier de sortie
Annexe 6.
Script de pilotage de PAPA3 : séquence de rééchantillonnage (procédure violette)
#!/bin/csh
if(-f erreur) rm erreur
if(-f sortie) rm sortie
if(-f violette.out.001) rm violette.out.*
(antar <violette.don.001>>/dev/null) >>&!
if( $status != 0 ) goto echec
(defcar <violette.don.002>>/dev/null) >>&!
if( $status != 0 ) goto echec
(matcor <violette.don.003>>/dev/null) >>&!
if( $status != 0 ) goto echec
mv sortie violette.out.001
(regmul <violette.don.004>>/dev/null) >>&!
if( $status != 0 ) goto echec
mv sortie violette.out.002
erreur
erreur
erreur
erreur
63
(rives <violette.don.005>>/dev/null) >>&! erreur
if( $status != 0 ) goto echec
mv sortie violette.out.003
(hiera <violette.don.006>>/dev/null) >>&! erreur
if( $status != 0 ) goto echec
mv sortie violette.out.004
echo procedure violette terminee
cat erreur
if(-f erreur) rm erreur
exit
echec:
echo procedure violette echouee
cat erreur
Fichier paramètre violette.don.001 (ANTAR)
fubacktri
n
1
0
1
0
reechantillonnage
-9
n
#nom du fichier
#option HORACE (o/n)
#numero du premier individu traite/enregistrement
#numero du dernier individu traite/enregistrement (0 : nombre maximum)
#parametre de saut pour passer d'un individu au suivant
#(0) quantitatif, (1) qualitatif avec transf., (2) qualitatif sans transf
#donne l'en-tete du listing (pour identification)
#donne le nombre de caracteres etudies
#edition d'une table de correspondance numerique-alphanumerique (o/n)
Fichier paramètre violette.don.002 (DEFCAR)
x1
x2
x3
x4
x5
x6
x7
x8
x9
Fichier paramètre violette.don.003 (MATCOR)
o
0
0
0
0
0
n
n
o
0
1
-99999
99999
1
-99999
99999
1
-99999
99999
1
-99999
99999
#Option reechantillonnage (JACKKNIFE ou BOOTSTRAP)
#Valeur de AMONT
#constante pour correction nbre d.l. d'erreur (donnees ajustees)
#entre le code correspondant a MATSUP (0, 1 ou 2)
#entre le code correspondant a DENDRO (0 ou 1)
#entre le code correspondant a EFFSUP (0 ou 1)
#option trivar : matrices intra sur plusieurs populations (o/n)
#chainage d'INDEX5 : index de selection massale (o/n)
#chainage de REGMUL : regression multiple descendante (o/n)
#Valeur de REGPOND : regression multiple ponderee (0-3)
#contrainte 1 : position
#contrainte 1 : lim. inf.
#contrainte 1 : lim. sup.
#contrainte 2 : position
#contrainte 2 : lim.inf.
#contrainte 2 : lim.sup.
#contrainte 3 : position
#contrainte 3 : lim.inf.
#contrainte 3 : lim.sup.
#contrainte 4 : position
#contrainte 4 : lim.inf.
#contrainte 4 : lim.sup.
Fichier paramètre violette.don.004 (REGMUL)
0
1
n
3
6
6
1
2
3
4
5
6
7
#entre le code correspondant a VARSUP (0, 1 ou 2)
#option graphique (0) ou valeur ajustee (1)
#option REGOR : regression passant par l'origine (o/n)
#nombre de variables expliquees
#nombre de variables explicatives au premier palier
#nombre de variables explicatives au dernier palier
#numero de la variable expliquee
1
#numero de la variable expliquee
2
#numero de la variable expliquee
3
#numero de la variable explicative
1
#numero de la variable explicative
2
#numero de la variable explicative
3
#numero de la variable explicative
4
64
8
9
n
#numero de la variable explicative
5
#numero de la variable explicative
6
#changement de jeu de variables ,expliquees & explicatives (o/n)
Fichier paramètre violette.don.005 (RIVES)
0
o
1
n
#(0) = REGMUL, (1) = COVAR1, (2) = COVAR2
#option varsup : suppression des covariables (o/n)
#maintien/suppression des caracteres <>covariables (0/1)
#option REDIR : redirection du fichier de sortie sur le fichier d'entree (o/n)
Fichier paramètre violette.don.006 (HIERA)
1
o
1
0
6
2
pere
mere
1
2
1
0
0
1
n
n
1
n
.25
18
0
5
28
0
4
5
1
18
4
1
28
1
-99999
99999
1
-99999
99999
#Valeur de SPU
#Option reechantillonnage (JACKKNIFE ou BOOTSTRAP)
#Valeur de AMONT
#estimation avec composantes individuelles (0) ou sans (1)
#constante pour correction nombre d.l. d'erreur (donnees ajustees)
#nombre de niveaux de hierarchie
#nom du facteur population de niveau
1 (15 caract.max.)
#nom du facteur population de niveau
2 (15 caract.max.)
#donne le numero du premier niveau privilegie
#donne le numero du second niveau privilegie
#option MATSUP (0, 1 ou 2)
#option dendro (0 ou 1)
#option EFFSUP (0 ou 1)
#niveaux <> niveau individuel fixes (0) ou aleatoires (1)
#chainage de CORAN (correlations de rangs), DUNCAN ou DAG :
#chainage INDEX3 : index en plan hierarchique ou prov./desc.(o/n)
#etude de structure de population (0) ou plan de de croisements (1)
#chainage de DISCRI : analyse discriminante (o/n)
#coefficient de var.-covar. genetiques additives dans composantes de niveau 2
#limite sup. du code de population de niveau
1
#codage des populations de niveau
1 absolu (0) ou relatif (1)
#position du code de population de niveau
1/enregistrement
#limite sup. du code de population de niveau
2
#codage des populations de niveau
2 absolu (0) ou relatif (1)
#position du code de population de niveau
2/enregistrement
#contrainte 1 : position
#contrainte 1 : lim. inf.
#contrainte 1 : lim. sup.
#contrainte 2 : position
#contrainte 2 : lim. inf.
#contrainte 2 : lim. sup.
#contrainte 3 : position
#contrainte 3 : lim. inf.
#contrainte 3 : lim. sup.
#contrainte 4 : position
#contrainte 4 : lim. inf.
#contrainte 4 : lim. sup.
Ci-dessous sont donnés les enchaînements d’écrans corrrespondant au lancement de la
procédure réitérée par le moteur de réitération JBSTAR.
65
Etape 1 : sélection du pas d’affichage des réitérations
Etape 2 : choix des « structures » réestimées par rééchantillonnage (matrices ou vecteur)
66
Etape 3 : choix du « type de sortie » (trois possibilités)
Etape 4 : choix du seuil de probilité des intervalles de confiance (sorties de types 2 ou 3)
67
Etape 5 : choix de création d’un fichier permettant, notamment, d’obtenir des intervalles de
confiances sans hypothèse de normalité des distributions des estimations
Etape 6 : choix de la méthode de rééchantillonnage (Jackknife ou Bootstrap)
68
Etape 7 : choix de la valeur du « cache » (on a choisi le Jackknife : on indique donc le
nombre d’individus à enlever par permutation circulaire à chaque réitération)
Etape 8 : Option sur la création d’un fichier dont l’usage est indiqué en commentaire
69
Etape 10 : Choix sur liste du code du premier programme de la chaîne réitérée
Etape 11 : Choix du code du dernier programme de la chaîne réitérée et du nombre de
réitérations
70
Etape 12 : JBSTAR rend la main à l’utilisateur et lui donne toutes indications sur la façon
de lancer la procédure réitérée ainsi que le nom du fichier où seront archivés les résultats.
71
Téléchargement