demeure inélégante, l’approche usuelle pose tout simple-
ment question dès qu’il s’agit de discuter des cas où plu-
sieurs candidats à l’identification sont en compétition.
S’agissant de corriger ce défaut, des méthodes alternatives
telles que le biotype sont certainement orientées dans la
bonne direction, mais aucune n’a jamais atteint le statut de
voie d’identification autonome. La raison en est leur inca-
pacité à définir des valeurs seuil telles que le très classique
« risque de première espèce », ou risque ad’identification,
c’est-à-dire des valeurs qui mesurent clairement un niveau
de confiance minimum lié à la décision finale. Le but de
cet article est de montrer que de telles valeurs seuil peu-
vent être obtenues grâce à la puissance de calcul devenue
très commune sur les ordinateurs actuels.
La méthode de calcul proposée ci-dessous est dite de
Monte-Carlo. Pour qui ne serait pas familier de cette tech-
nique, on signalera qu’il s’agit d’une méthode de simula-
tion basée sur un générateur de nombres aléatoires comme
on en trouve dans la plupart des langages de programma-
tion. Un appel ou une série d’appels à une telle fonction
random permet de reproduire un événement du phéno-
mène étudié selon la loi de probabilité qui est la sienne
(nous indiquerons dans le texte comment cela peut se faire
dans le cas qui nous occupe). Sachant comment reproduire
un événement, on en génère un nombre plus ou moins
élevé, de façon à reconstruire peu à peu l’ensemble de la
distribution. Les procédures Monte-Carlo conviennent
particulièrement aux distributions non analytiques, c’est-
à-dire auxquelles on ne peut appliquer facilement les
outils mathématiques standards de dérivation, d’intégra-
tion... Toutefois, contrairement aux calculs analytiques qui
peuvent toujours être considérés comme très précis, sinon
exacts, l’usage de nombres aléatoires conduit à des résul-
tats fluctuants dont la précision dépendra directement du
nombre d’événements générés : plus nombreux ils sont,
plus les fluctuations relatives seront réduites. On pourrait
en déduire que l’usage d’un Monte-Carlo suppose de
longs temps de calcul, mais il faut souligner d’une part,
que bon nombre d’applications ne demandent pas après
tout de précision très élevée et, d’autre part, que les ordi-
nateurs actuels possèdent une puissance de calcul remar-
quable. On notera également que la question se pose diffé-
remment selon qu’on ait affaire à une opération qui doit se
faire une fois pour toutes, et à laquelle on pourra donc
consacrer un très long temps de calcul, ou à une opération
fréquemment utilisée en routine et qui se doit donc d’être
relativement courte.
L’approche usuelle
Nous reprenons ici un point développé dans la référence 1,
en l’adaptant à la présente discussion.
Supposons une bactérie inconnue qui donne pour les n
tests un résultat R(n) = {R
1
,R
2
, ...R
j
, ...R
n
}. Dans cette
notation, R
j
est la réponse, positive ou négative, de la
bactérie au test numéro j. Soit B
ij
la probabilité pour la
bactérie numéro i dans le tableau d’identification de don-
ner le même résultat que celui qui est observé.
(1)
Bij =Aij
(
si Rjpositif
)
Bij =1−Aij
(
si Rjnégatif
)
Selon la procédure usuelle [8, 9], les B
ij
sont alors multi-
pliés entre eux pour donner :
(2)
Li=Bi1Bi2...Bin =
写
j=1
n
Bij
Dans l’hypothèse où les tests sont tous indépendants, ces
quantités ont une signification précise, dépourvue d’ambi-
guïté. Chaque L
i
représente la probabilité pour la bactérie
i de fournir le profil observé. À l’évidence, une probabilité
élevée devrait conduire à retenir la candidate, tandis
qu’une probabilité faible devrait suggérer de la rejeter.
Mais, sachant que nous avons presque toujours affaire à de
petits nombres la question devient : Quelle probabilité doit
être considérée comme élevée, et laquelle doit être vue
comme faible ? Ici intervient l’un des aspects les plus
discutables de la méthode classique, qui propose de com-
parer entre elles les valeurs L
i
, de sorte que le taxon qui
obtient un résultat élevé sera considéré comme un
meilleur candidat que celui qui obtient un résultat faible.
Mais le fait est que les L
i
ne sont que grossièrement com-
parables. Certaines bactéries présentent une grande varia-
bilité aux tests, ce qui se marque par un faible pouvoir
discriminant des nombres A
ij
(par exemple 51 %-49 %, ou
75 %-25 %), et en définitive par de faibles probabilités
pour tous les profils possibles, y compris le plus favorable.
Par contre, d’autres bactéries peuvent offrir des profils de
meilleure qualité aux probabilités élevées. Ainsi peut-il se
faire que deux taxons obtiennent des résultats compara-
bles, ce résultat étant le plus haut possible pour l’un mais
se révélant peu convaincant pour l’autre. Or, dans la com-
paraison qu’on nous propose, ces deux candidats seront
mis sur un pied d’égalité. Nous trouvons ici la raison pour
laquelle la discussion est souvent complétée par une infor-
mation auxiliaire telle que le biotype, qui permet d’appré-
cier la qualité d’un résultat en comparant celui-ci au
meilleur profil de chaque candidat. Indépendamment de
son efficacité, l’ensemble de la procédure paraît peu élé-
gante et la raison en est l’absence de valeurs de référence
capables de conférer à la décision finale un niveau de
confiance clairement défini.
Un autre point qui peut être discuté est l’usage selon
lequel les valeurs (2) sont souvent présentées sous une
forme normalisée, à savoir :
pratique quotidienne
Ann Biol Clin, vol. 64, n° 1, janvier-février 200684
Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017.