Cours n°4 p pp ⇔ ∀

publicité
Cours n°4
LOGIQUE ET MATHEMATIQUES - 2
1- La théorie des types logiques de Russell
Plus que rejeter ce genre de proposition parce que menant à des paradoxes, Russell va introduire toute
une prophylaxie pour éviter les paradoxes et c’est ce qu’on appelle sa théorie des types. Reportonsnous au texte que Russell écrivit en 1910, dans la Revue de Métaphysique et de Morale, et qui porte
justement le titre « la théorie des types logiques », parce que ce texte contient en germe un certain
nombre d’innovations qui vont être développées par la suite.
« Il est admis que les paradoxes à éviter résultent tous, dit Russell, d’un certain genre de cercle
vicieux. Les cercles vicieux en question proviennent de ce que l’on suppose qu’une collection
d’objets peut contenir des membres qui ne peuvent justement être définis qu’au moyen de la
collection, prise dans sa totalité ».
Ainsi lorsque j’affirme « toutes les propositions sont vraies ou fausses », je fais comme si l’ensemble
de toutes les propositions m’étaient connues, mais au moment où j’affirme cela, j’énonce justement
une proposition. Cette proposition peut très bien déjà appartenir à cet ensemble et en ce cas je dis
quelque chose d’elle-même, à savoir qu’elle est vraie ou fausse. Ce faisant, j’ouvre une alternative : ou
bien elle est vraie et nous obtenons bien ce que nous avons l’intention d’exprimer, ou bien elle est
fausse, ce qui signifie qu’il existe des propositions ni vraies ni fausses, et peut-être justement celle-là,
mais nous n’avons aucun moyen de choisir, et finalement notre souhait de poser un jugement échoue.
C’est la raison pour laquelle il est si difficile de formuler une logique du second ordre (c’est-à-dire une
logique où on pourrait quantifier sur des variables propositionnelles, de manière à obtenir des énoncés
tels que : « ∀p p ⇔ p »). Russell conclut : « nous devrons donc dire que les affirmations concernant
« toutes les propositions » sont sans signification ».
« Plus généralement, donnons-nous un groupe d’objets tels que ce groupe, étant capable par
hypothèse d’être totalisé, doive d’autre part contenir des membres qui présupposent cette
totalité, alors, ce groupe ne peut pas être totalisé. En disant qu’un groupe ne peut être totalisé,
nous voulons dire surtout qu’aucune affirmation ayant un sens ne peut être faite concernant
« tous ses membres ». […] Dans de tels cas, il est nécessaire de décomposer notre groupe en
groupes plus petits dont chacun soit capable d’être totalisé. C’est ce que la théorie des types
s’efforce d’effectuer ».
Comme nous venons de le suggérer au paragraphe précédent avec l’exemple « ensembliste », Russell
montre que ce ne sont pas seulement les propositions qui se comportent de cette manière, mais aussi
les fonctions propositionnelles, c’est-à-dire les fonctions qui contiennent une variable x et qui
expriment une proposition chaque fois qu’une valeur est assignée à x. Pour cela, il doit analyser le
concept de fonction. Lorsque nous écrivons « ϕx », cette forme est ambiguë, ou dit autrement, elle
dénote de façon ambiguë ϕa, ϕb, ϕc etc. où ϕa, ϕb, ϕc, etc sont les diverses valeurs de « ϕx ». Il ne
s’agit pas de « la fonction en elle-même ». Nous pouvons regarder, dit Russell, « la fonction en ellemême comme ce qui dénote de façon ambiguë, tandis qu’une valeur indéterminée de la fonction est ce
qui est dénoté de façon ambiguë. Si la valeur indéterminée de la fonction s’écrit « ϕx », nous écrirons
la fonction en elle-même « ϕ x̂ ». C’est ainsi que nous dirions « ϕx est une proposition » et d’autre
part « ϕ x̂ est une fonction propositionnelle » ».
On doit noter ici que cette distinction est justement celle qu’exploitera plus tard A. Church, dans les
années 1936, pour inventer son calcul fonctionnel : le λ-calcul, dont nous reparlerons plus loin. Avec
les notations introduites par Church, la différence réside entre ϕ(x) et λx. ϕ(x). Nous écrirons donc
désormais « λx. ϕ(x) » à la place de « ϕ x̂ ».
Supposons maintenant que « f(λx. ϕ(x)) signifie « la fonction λx. ϕ(x) n’est pas satisfaite si on la
prend elle-même comme argument », autrement dit signifie :
« ϕ(λx. ϕ(x)) est faux »
et étudions ce qu’il en est de λϕ. f(ϕ), lorsqu’on la donne comme argument à f, autrement dit
cherchons si f(λϕ. f(ϕ)) est vrai ou faux. Si f(λϕ. f(ϕ)) est vrai, cela signifie, de par la définition de f,
que « la fonction λϕ. f(ϕ) n’est pas satisfaite si on la prend elle-même comme argument », autrement
dit que ϕ(λx. ϕ(x)) est faux, et de même si f(λϕ. f(ϕ)) est faux, cela signifie que « il est faux que f(λϕ.
f(ϕ)) soit faux », d’où il suit que f(λϕ. f(ϕ)) est vrai. Là encore, le problème sera « résolu » si on admet
que ϕ(λx. ϕ(x)) n’a tout simplement pas de sens, autrement dit si on admet qu’une fonction ne peut en
aucun cas avoir pour argument elle-même, ou plus généralement quelque chose qui présuppose qu’on
a déjà construit l’ensemble de ses valeurs (de manière à ce qu’elle soit totalement définie).
« Aucune fonction ne peut compter parmi ses valeurs quelque chose qui présuppose la fonction » dit
Russell, et on appelle « imprédicativité » le cas où ce principe n’est pas respecté1.
Si nous conservons encore l’idée « naïve » selon laquelle une fonction peut s’appliquer à n’importe
quel genre d’argument (y compris elle-même donc), nous sommes confrontés à de nombreux
problèmes. Par exemple, Russell introduit les quantificateurs. « Nous dénoterons, dit-il, par le symbole
« (x) . ϕ(x) » la proposition « ϕ(x) toujours » », autrement dit : « ϕ(x) pour toute valeur de x ». Alors,
sans restriction, cette proposition englobe la fonction λx. ϕ(x) elle-même. Comme (x) . ϕ(x) englobe la
fonction ϕ(x), on ne peut pas non plus la donner comme argument de ϕ, de sorte que ϕ((x) . ϕ(x)) est
dépourvu de sens. Ce principe semble à première vue admettre quelques exceptions. Ainsi, supposons
que ϕ s’interprète comme « _ est faux », alors on pourrait bien avoir : « {(x) . x est faux} est faux ».
On est donc tenté de dire que lorsque nous écrivons λx. ϕ(x), il y a deux types de valeurs assignables à
x : celles pour lesquelles le résultat possède un sens et celles pour lesquelles il n’en possède pas.
Admettons donc désormais que ce qui est affirmé par « (x) . ϕ(x) » ce soient toutes les propositions
qui constituent toutes les valeurs à comprendre sous λx. ϕ(x), autrement dit celles pour lesquelles
l’application donne un sens, alors la proposition « (x) . x est faux » ne concernera que les propositions
qui sont des valeurs à comprendre sous « λx. x est faux », donc seulement certaines propositions,
celles qui appartiennent à un « premier genre ». Mais s’il en est ainsi, et puisque, de manière évidente
la proposition « (x) . x est faux » ne fait pas partie de ces propositions de premier genre, mais est
néanmoins une proposition, il faudra avoir un autre prédicat « être faux » qui convienne à son genre
spécifique, et ainsi de suite. Cela n’est possible dit Russell « que si le mot « faux » a en réalité
plusieurs sens différents, appropriés aux propositions de genres différents » !
Nous voilà donc amenés avec Russell, à la construction d’une hiérarchie des entités logicomathématiques, possèdant comme contre-partie l’idée que les concepts usuels de la logique euxmêmes se fragmentent : on aura ainsi des mots « vrai » et « faux » ayant des sens différents selon le
genre des objets auxquels ils s’appliquent, mais aussi des connecteurs (« et », « ou », « pour tout », « il
existe ») qui se différencient selon les genres d’objets auxquels ils s’appliquent !
La hiérarchie démarre avec des lettres qui dénoteront des objets qui ne sont ni des fonctions ni des
propositions : a, b, c, x, y, z, w… Ces objets seront appelés individus ; « ils seront les constituants des
propositions et fonctions, vrais constituants, en ce sens que l’analyse ne les résout pas comme, par
exemple, les classes ou les phrases telles que « le tel-ou-tel » ». A partir de là, nous aurons des
fonctions qui s’appliquent à de tels objets et à eux seulement : on les appelle fonctions du premier
ordre. Ayant obtenu ces objets, on peut maintenant eux-mêmes les noter par une désignation
particulière. Une fonction du premier ordre quelconque sera notée « ϕ ! x^ » ou, avec notre notation
lambda : « λx. ϕ ! x ». Une valeur quelconque d’une telle fonction : ϕ ! x, est en réalité une fonction
de deux variables : λz. ϕ ! z, et x, donc λx. ϕ ! x contient une variable qui n’est pas un individu, à
savoir λz. ϕ ! z. Ainsi, si nous considérons l’expression :
« ϕ ! x implique ϕ ! a pour toutes valeurs possibles de ϕ »
1
De fait, l’évolution des mathématiques montrera qu’il est particulièrement difficile, voire impossible, d’éviter
tout recours à des notions imprédicatives. Le raisonnement par récurrence (ou « principe d’induction complète »)
par exemple suppose en préalable l’existence de l’ensemble des nombres entiers qu’il contribue à définir.
on a une fonction, qui n’est pas de la forme ϕ ! x (c’est-à-dire une fonction du premier ordre) car elle
contient une variable apparente ϕ qui n’est pas un individu. Néanmoins elle exprime quelque chose à
propos de x : à savoir que toutes les propriétés (du premier ordre) de x sont des propriétés de a. Nous
parlerons alors de fonctions (ou propriétés) du second ordre, et ainsi de suite.
Il devient dans ces conditions difficile d’exprimer le fameux postulat des indiscernables, dû à Leibniz.
Pouvons-nous continuer à dire que « si toutes les propriétés possédées par x sont également possédées
par y et réciproquement, alors x et y sont identiques » ? Certainement pas, puisque désormais la notion
même de « toutes les propriétés de x » n’a plus de sens et que nous ne pouvons que faire référence aux
propriétés correspondant à des prédicats d’un même niveau dans la hiérarchie. Ainsi cela a un sens de
dire que « tous les prédicats du premier ordre possédés par a sont aussi des prédicats du premier ordre
possédés par b et réciproquement », mais est-ce suffisant ? Non, puisqu’il y a des propriétés de
différents ordres (par exemple la propriété pour x « d’avoir toutes les propriétés d’un grand général »
est une propriété de x, ce n’est pas une propriété du premier ordre), d’où la nécessité de stratifier le
concept d’identité lui-même, d’évoquer une identité de x et de y au premier ordre, une autre au second
ordre et ainsi de suite… ce qui n’est guère satisfaisant ! Or, le raisonnement nous conduit à cela.
D’ailleurs Leibniz lui-même rencontrait, peut-être sans le voir, le problème de l’imprédicativité dans
sa formulation même du principe d’identité, car a priori, le fait d’être identique à x, pour x, est
nécessairement une propriété de x. Donc en définissant l’identité de x et de y comme la possession des
mêmes propriétés, il enveloppait déjà parmi ces propriétés ladite identité, autrement dit la fonction
« identité » se suppose déjà elle-même comme totalité construite. Il faut donc nécessairement entendre
en un sens restreint les propriétés communes qui rendent les choses indiscernables.
L’échappatoire, car il en existe encore un ( !), réside dans ce que Russell nomme l’axiome de
réductibilité.
Si nous prenons un exemple2 comme :
« Napoléon a eu toutes les qualités qui font un grand général »
comme dit précédemment, cette propriété n’est pas de premier ordre. Pourtant, cela ne veut pas dire
qu’il n’y ait aucun prédicat (du premier ordre) commun à tous les grands généraux et à eux seuls.
Chaque grand général a nécessairement une propriété du premier ordre que ne possède aucun autre
homme (par exemple être né à tel instant précis). Prenons ces propriétés et faisons-en la disjonction,
nous obtenons un prédicat du premier ordre λz.ψ !z, et la phrase précédente exprime simplement le
fait que Napoléon possède cette propriété du premier ordre. L’axiome de réductibilité exprime
simplement l’idée qu’un tel prédicat existe toujours. Ainsi nous avons toujours un moyen de rabattre
une collection arbitraire de propriétés sur un prédicat du premier ordre, parvenant ainsi à faire
s’anéantir les distinctions de niveaux dans la hiérarchie des notions. On peut alors se contenter d’une
interprétation « simple » du principe d’identité et admettre simplement que si deux individus satisfont
aux mêmes prédicats du premier ordre alors ils sont identiques. L’identité à soi-même s’écrit dans ce
cas :
λx. λy. (ϕ) {ϕ ! x ⇔ ϕ ! y}
Il faut supposer que c’est une propriété du second ordre non réductible, empêchant par là-même
qu’elle soit incluse dans l’ensemble des propriétés ϕ dont il est question.
En procédant de la sorte, Russell sauve la logique et du même coup, pense-t-il, les mathématiques, du
paradoxe. Cela permet selon lui, d’assurer le fondement des mathématiques sur la logique.
Malheureusement pour lui, les mathématiques (et surtout les mathématiciens !) ne vont pas tellement
lui en savoir gré : la lourdeur du système, la fragmentation des concepts logiques en autant d’instances
que d’ordres dans la hiérarchie, même si en dernier ressort, on peut « rabattre » l’interprétation sur un
seul niveau au moyen de l’axiome de réductibilité, tout cela va rebuter les mathématiciens, qui vont
souvent chercher ailleurs une solution au problème des paradoxes ou tout simplement…. s’en
moquer ! Si en effet, les paradoxes perturbent quelques mathématiciens préoccupés de fondements, ils
ne vont cependant pas préoccuper tous les mathématiciens. Il semble même qu’en réalité bien peu
aient été ou soient préoccupés par une telle question. Le mathématicien Jean Dieudonné (« Pour
2
L’exemple est de Russell, bien entendu !
l’honneur de l’esprit humain ») écrit en 1987 que « l’immense majorité des mathématiciens
considèrent les problèmes liés aux paradoxes comme de pseudo-problèmes ».
Il reste cependant pour nous, dans notre perspective épistémologique, que cette notion de hiérarchie
des types reste profondément liée à une manière de penser philosophique et possède une influence sur
nos conceptions particulièrement en sciences humaines, (en sciences cognitives par exemple). La
philosophie analytique (et particulièrement un de ses grands représentants dans la première moitié du
XXème siècle, Gilbert Ryle) en a fait un grand usage implicite dans le concept abondamment employé
« d’erreur de catégorie ». Pour les philosophes analytiques, beaucoup de soi-disant « problèmes
philosophiques » ne sont en aucun cas de vrais problèmes. Ils n’apparaissent comme tels qu’à cause de
confusions dans le langage, lesquelles résultent la plupart du temps d’un mauvais usage des termes
vis-à-vis d’une hiérarchie de catégories. Au lieu de « résoudre » les problèmes en question, la tâche de
la philosophie est alors de les dissoudre en opérant une critique du langage servant à les exprimer. On
présuppose alors une véritable « grammaire des catégories ». Dans son fameux livre de 1949, The
Concept of Mind, Gilbert Ryle s’attaque ainsi au problème fameux des rapports du corps et de l’esprit
(ce qu’on appelle dans le monde anglo-saxon, The Mind-Body Problem). Pour lui, les problèmes
viennent de ce que l’on s’évertue à considérer que corps et esprit appartiennent à la même catégorie de
langage, or il est manifeste qu’on n’applique pas les mêmes prédicats aux deux termes : peut-on poser
par exemple la question « combien pèse mon esprit ? ». De telles confusions découlent les tentatives
soit de réduire l’un à l’autre (faire des phénomènes mentaux des phénomènes physiques par exemple,
comme dans les tentatives courantes de « naturalisation de l’intentionnalité ») soit comme dans le
dualisme cartésien, d’établir un pont entre l’un et l’autre, quitte à admettre l’existence « d’un fantôme
dans la machine », selon l’expression de Ryle.
Wittgenstein doit bien sûr être rattaché à cette manière critique (et démystificatrice) de voir les choses.
Sa manière de dissoudre ces soi-disant problèmes peut être assez provocatrice lorsqu’il montre
comment des erreurs dans la grammaire des significations peuvent engendrer à elles seules des
questions. Certaines sont tout simplement risibles, mais d’autres sont parfois prises au sérieux.
(cité par J. Bouveresse, « La parole malheureuse », p. 39)
-
pourquoi un chien ne peut-il simuler la douleur ? est-il trop honnête ?
-
pourquoi ma main droite ne peut-elle donner de l’argent à ma main gauche ? est-elle trop
avare ? (Recherches philosophiques, §268)
-
puis-je avoir le mal de dent d’autrui ? puis-je avoir mal à la dent d’autrui ? (Puis-je avoir mal à
ma dent en or ?)
-
puis-je observer ce qui se passe dans l’esprit d’autrui ? puis-je observer ce qui se passe dans
l’estomac d’autrui ?
-
pourquoi une machine ne peut-elle calculer de tête ? Est-ce parce qu’elle n’a pas de tête ?
Je donne ici le commentaire de Jacques Bouveresse :
« l’humour inconscient de la première question réside à chaque fois dans le fait, brutalement mis
en évidence dans la seconde, qu’elle a revêtu l’apparence trompeuse d’une question factuelle
ordinaire. Il en est ainsi, pour Wittgenstein, d’un grand nombre de questions métaphysiques : elles
donnent l’impression d’avoir un sens et une importance parce qu’elles sont formulées comme des
questions d’expérience ; de sorte que nous nous imaginons que nous aurions appris quelque chose
de nouveau si nous savions y répondre, alors qu’elles peuvent seulement dans le meilleur des cas
nous faire prendre conscience de l’existence d’une règle grammaticale implicite ».
Et dans le Tractatus :
4.003 – […] La plupart des propositions et questions de la philosophie reposent sur ceci que nous
ne comprenons pas la logique de notre langage. (Ce sont des questions du type : est-ce que le Bien
est plus ou moins identique que le Beau ?). Rien d’étonnant à ce que les plus profonds problèmes
ne soient pas à proprement parler des problèmes.
La dernière des questions listées ci-dessus fait évidemment penser à cette autre : « les machines
peuvent-elles penser ? » qui, provenant assez nettement à la base du même type d’erreur de catégorie,
n’en continue pas moins depuis plus de cinquante ans d’alimenter la réflexion des philosophes et des
informaticiens de l’intelligence artificielle3 !
Tout ceci fait comprendre l’importance de ce qu’on a appelé dans la première moitié du XXème siècle
le « tournant linguistique », c’est-à-dire le déplacement des problèmes qui se trouvaient jusqu’alors
posés en termes métaphysiques (à propos de « la réalité ») vers des problèmes d’analyse du langage. Si
cette étape a été cruciale dans l’histoire contemporaine de la philosophie pour les raisons qu’on vient
de voir, elle est quelque peu remise en cause aujourd’hui : toutes les questions ne sont pas des
questions de langage, il y a aussi des questions scientifiques ainsi que des questions qui surgissent de
l’activité scientifique et sont posés au philosophe et au logicien.
2- Le programme de Hilbert
Hilbert attaque les problèmes de paradoxes plus à partir d’une position de mathématicien qu’il est (et
même sûrement le plus grand de son siècle) que d’une position de philosophe. Pour lui, comme
d’ailleurs pour son collègue Brouwer, à qui on l’oppose souvent, les problèmes viennent de l’infini.
Nous avons vu plus haut le paradoxe de Burali-Forti : il découlait du transfini. De la même manière,
on peut penser que le paradoxe de Russell vient de ce qu’on ne sait pas maîtriser un ensemble aussi
grand (nécessairement infini !) que « l’ensemble de tous les ensembles ». En somme, on pourrait dire
que ces mathématiciens prônent un « retour » à Aristote, dont on sait qu’il n’acceptait l’infini qu’en
tant que potentiel, et non comme infini actuel. Or, toute la construction de Cantor en théorie des
ensembles repose sur l’admission définitive de l’infini actuel. On peut évidemment comparer cette
audace avec la frilosité des philosophes nominalistes qui répugnent à accepter l’existence d’autres
choses que des entités individuelles. Cantor, non seulement accepte l’existence d’ensembles,
d’ensembles d’ensembles, d’ensembles d’ensembles d’ensembles etc. mais aussi d’ensembles infinis.
Où, dans quel ciel se logent-ils ? bien sûr, on n’a eu de cesse d’attribuer à Cantor une position
platonicienne : on a parlé du « paradis de Cantor » pour désigner ce lieu d’abstractions. Or, Hilbert,
tout en reconnaissant l’importance de l’œuvre de Cantor (« on ne doit pas être chassé du paradis
cantorien » dit-il) refuse un recours direct à l’infini. Il aimerait que ces recours ne soient que des
façons de parler dont on puisse éventuellement se passer, autrement dit qu’on puisse réduire les
raisonnements portant sur l’infini à des raisonnements « finitistes ».
Se basant sur les travaux de Weierstrass que nous avons mentionnés plus haut, il dit ceci :
« Certes Weierstrass a éliminé de l’Analyse l’infiniment petit et l’infiniment grand puisque les
propositions portant sur ces objets ont été réduites par lui à l’énoncé de rapports entre des
grandeurs finies. Mais l’infini continue d’être présent : il prend la forme de suites infinies de
nombres qui définissent les nombres réels, ou bien il est sous-jacent à la notion de système des
nombres réels conçue comme une totalité achevée et fermée.
Or dans la reconstruction même de l’analyse de Weierstrass, on se donne le droit d’utiliser à
fond et d’itérer à volonté les formes d’inférence logique dans lesquelles s’exprime cette
conception des totalités : c’est le cas, par exemple, lorsqu’on parle de tous les nombres réels qui
ont une certaine propriété, ou bien encore lorsqu’on dit qu’il existe des nombres réels ayant une
certaine propriété.
Ainsi l’infini pouvait-il intervenir d’une manière déguisée dans la théorie de Weierstrass et
rester hors des atteintes de sa critique. Il s’ensuit que c’est le problème de l’infini qu’il nous faut
résoudre. Dans les processus de passage à la limité du calcul infinitésimal, l’infini au sens de
l’infiniment grand ou de l’infiniment petit s’est révélé constituer une simple manière de parler :
de même nous devrons reconnaître dans l’infini au sens de totalité infinie, partout où il joue
encore un rôle dans les inférences, quelque chose de purement fictif. De même que les
opérations portant sur l’infiniment petit ont été remplacées par des processus qui accomplissent
la même fin et conduisent à des rapports formels aussi élégants tout en se situant à l’intérieur de
la sphère du fini, les inférences qui utilisent l’infini sont à remplacer par des processus finis qui
accompliront exactement la même fin c’est-à-dire permettront les mêmes démarches dans les
démonstrations et les mêmes méthodes d’obtention des formules et des théorèmes.
3
Penserait-on à poser la question : « les machines peuvent-elles digérer ? »
Tel est l’objet de ma théorie. Elle a pour dessein d’assurer la sécurité définitive de la méthode
mathématique, sécurité à laquelle n’a pas atteint la période de la critique du calcul
infinitésimal. »
(« Über das Unendliche », 1925, Math. Annal. 95, 1926, trad. J. Largeault, 1972)
Rétrospectivement, la démarche hilbertienne nous semble très « positiviste ». Elle est en tout cas
représentative d’une vision de la science, très liée aux progrès scientifiques du début du XXème siècle,
qui refuse tout concept qui ne désignerait pas une entité palpable (et en particulier la référence à un
« sens ») : « la condition préalable de l’application des inférences logiques et de l’effectuation
d’opérations logiques est l’existence d’un donné dans la perception : à savoir l’existence de certains
objets concrets extra-logiques qui en tant que sensations immédiates précèdent toute pensée. Pour que
le raisonnement logique soit sûr, il faut que ces objets soient perçus dans toutes leurs parties et que
leur occurrence, leur caractère distinct, leur succession ou leur juxtaposition se présentent à l’intuition
en même temps que ces objets, comme quelque chose d’immédiat et qui ne se réduit pas ou n’a pas
besoin d’être réduit à quoi que ce soit d’autre ». Pour les mathématiques, selon Hilbert, ces objets sont
les signes concrets, ceux dont nous savons « distinguer et reconnaître la forme ». Une telle affirmation
peut sembler curieuse : on s’attendrait à un autre statut des objets mathématiques qu’une réduction à
des marques concrètes. En tout cas, au commencement même de la méthode appliquée par Hilbert, les
objets mathématiques, en particulier les nombres, sont des signes vides de sens, et les formules sont
également des suites de signes vides de sens. Une telle évacuation de toute signification a priori est
caractéristique de l’attitude positiviste : on la retrouvera bien sûr dans d’autres domaines de la science,
notamment dans le behaviourisme en psychologie. Hilbert écrit : « En arithmétique nous avons à notre
disposition des chiffres |, ||, |||, ||||, … et chaque tel chiffre est identifiable grâce au fait qu’il se présente
sous la forme d’une suite de |. Ces chiffres n’ont en soi aucun sens ». Si par la suite nous employons
des symboles tels que 2, 3 etc. voire des lettres représentant des chiffres particuliers : a, b, c, c’est à
seule fin de communication. L’emphase mise par Hilbert sur la notion de « chiffre » et non sur celle de
« nombre » est à cet égard significative : comme si nous ne faisions des mathématiques que sur des
signifiants (des marques) et non sur des signifiés : ce à quoi ces marques renvoient, qui est certes
souvent indéterminé – réalité abstraite ? « idéalité » ? entité mentale ? - mais néanmoins apparaît
comme étant motivation à avancer dans la mathématique. Quel est le statut d’une formule qui contient
des variables désignées par des lettres ? la réponse de Hilbert est : « il s’agit de propositions idéales ».
Il réagit en mathématicien conscient de ce que, malgré tout, des innovations qui a priori ne tombaient
pas sous le sens immédiat, n’étaient pas des objets de perception immédiate, comme les nombres
imaginaires en algèbre, les points idéaux en géométrie ou les idéaux en arithmétique ont apporté aux
mathématiques des progrès considérables en permettant de donner aux théories des formes simples et
élégantes. Ainsi le statut d’une formule comme « a + b = b + a » est-il celui d’un objet idéal (analogue
selon Hilbert aux imaginaires de l’algèbre) qui nous permet de conserver l’applicabilité des lois de la
logique (d’Aristote !) au-delà du domaine simple et « empirique » fourni par les relations incluant des
chiffres. Par exemple, si nous connaissons un nombre premier très grand, p, un théorème, dû à Euclide
est qu’il existe nécessairement un autre nombre premier situé entre p + 1 et p ! + 1. On peut alors dire
qu’il existe un nombre premier p’ entre p + 1 et p ! + 1, au sens où cette phrase est une abréviation
pour une disjonction finie qui est : « p + 1 est premier » ou « p + 2 est premier » ou … ou « p ! + 1 »
est premier. Il s’agit là d’une proposition « finitiste ». Or, nous utilisons ce théorème pour affirmer
qu’il existe un nombre premier p’ tel que p’>p, mais dans ce dernier cas, nous n’avons plus une
proposition finitiste, le « il existe » n’est plus l’abréviation d’une disjonction finie. Il s’agit là d’un
passage à l’infini qui, en principe est dénué de sens, sauf à prendre des précautions particulières. Ce
sont ces précautions que Hilbert veut préciser dans son programme. Autrement dit : quand pouvonsnous, quand avons-nous le droit d’exprimer des existences ne se ramenant pas à des disjonctions finies
de cas ? La question mérite d’autant plus d’être posée selon Hilbert, que le problème est encore plus
grave avec des assertions du genre « a + 1 = 1 + a » dont on ne pourrait pas en principe considérer la
négation puisque celle-ci se traduirait justement par un « il existe » infinitaire. Or il ne fait aucun
doute que nous avons besoin d’exercer notre droit à la négation quand bon nous semble. Pour cela, il
faut donc ajouter les prétendues « propositions idéales », exactement comme on a introduit des
imaginaires en mathématiques afin de continuer uniformément les opérations de l’algèbre (trouver les
racines d’un polynôme) même lorsque la simple considération des nombres connus (les réels) ne le
permettait pas. Il convient cependant d’encadrer strictement ces objets idéaux, en les enfermant dans
des raisonnements contrôlés et surtout de vérifier à chaque pas que l’adjonction des éléments idéaux
ne crée pas de contradiction. Le calcul logique est alors vu (pour la première fois ?) comme une
machinerie fonctionnant sur des signes explicitement dépourvus de sens. Une démonstration est un
être fini qui enchaîne des formules pour passer d’un ensemble de formules à une formule dite
« conclusion ». Afin de contrôler ce qui se passe à chaque étape, on ne peut utiliser que des règles et
des axiomes dont on est absolument sûr : pas question par exemple « d’axiome du choix » ou de
« principe d’induction transfinie ». Pour Hilbert, la seule règle est la règle du modus ponens (ou règle
du détachement) et les axiomes sont :
1. Axiomes de l’implication
A → ( B → A) : adjonction d’une prémisse
( B → C ) → (( A → B) → ( A → C )) : élimination d’une proposition
2. Axiomes de la négation
( A → ( B ∧ B)) → A : principe de contradiction
A → A : principe de la double négation
3. Axiomes « transfinis »
(a) A(a ) → A(b) : inférence du général au particulier (axiome d’Aristote)
(a)A(a) → ( Ea) A(a) : si un prédicat n’est pas vrai de tous, alors il a un contreexemple
( Ea)A(a) → (a) A(a) : s’il n’existe pas d’exemple pour une proposition, alors cette
proposition est fausse pour tous les a
4. Axiomes de l’égalité
a=a
a = b → ( A(a) → A(b))
5. Axiomes du nombre
a +1 ≠ 0
Axiome de l’induction mathématique :
A(0) ∧ ((a)( A(a) → A(a + 1))) → (a) A(a)
Voilà donc à quoi, « en principe » se résument les mathématiques. Insistons sur le fait que ce système
doit surtout permettre d’établir des démonstrations de non-contradiction. Celles-ci consistent
simplement à prouver formellement que 1 ≠ 1 ne peut pas s’obtenir.
« Une démonstration formelle constitue un objet concret et visualisable, exactement comme un
chiffre. C’est quelque chose de communicable du début à la fin »,
autrement dit, une telle démonstration n’est pas contestable : tout un chacun peut la refaire et constater
pas après pas qu’elle obéit aux règles et si lesdites règles font l’assentiment de tous alors il n’y a
aucune raison de douter. Il s’agit bien là d’un idéal, l’idéal du formalisme en mathématiques, mais qui,
comme on le constate, par bien des côtés recoupe l’idéal du positivisme scientiste : un résultat est
prouvé s’il peut être obtenu autant de fois qu’on veut en refaisant les mêmes gestes d’expérimentation.
Chacun pourra constater de visu que le résultat acquis est correct.
Cette attitude, toute rationnelle qu’elle semble, comporte cependant un acte de foi extraordinaire : la
certitude que toute vérité mathématique pourra s’obtenir d’une manière entièrement mécanisable, par
des suites finies de pas utilisant toujours les mêmes règles. Autrement dit, en termes actuels, l’idée que
toute vérité est « récursive » (qu’elle peut être obtenue au bout d’un temps fini par l’application de
règles dans un système formel). Or, c’est justement cet espoir que le fameux théorème de Gödel va
détruire.
D’autre part, l’idée selon laquelle les mathématiques traiteraient, au même titre supposé que les autres
sciences (ce qui reste à voir bien entendu), « d’objets concrets », spatialement manipulables comme
des suites de bâtons et de lettres dépourvues de signification peut légitimement choquer. Si elles
étaient effectivement cela et rien que cela, on expliquerait difficilement pourquoi certains d’entre nous
trouvent assez de motivation pour se livrer à une activité mathématique. Cavaillès insistera à mon avis
fort justement sur le fait que la symbolisation telle qu’elle apparaît dans un système formel lorsqu’on
remplace des entités (par exemple « les chiffres ») par des lettres, n’est qu’un moment dans le procès
de mathématisation : on cristallise à un moment donné un ensemble d’actes afin de mieux pouvoir
continuer à accomplir de tels actes, mais on ne sait ni où ni quand une telle suite d’actes prend son
origine. Considérer les mathématiques comme une sorte de système de tous les systèmes formels au
sens de Hilbert, c’est prendre ce moment arbitraire de la symbolisation comme moment fondamental et
originaire et rabattre une suite infinie d’actes sur un ensemble fini de symboles. Ici apparaît bien la
signification du « finitisme » de Hilbert : prendre la texte (symboles, suites de symboles, formules,
axiomes etc.) qui est nécessairement fini pour le tout (infini) des processus de pensée qui se
cristallisent dans l’activité mathématicienne.
Cette question est aussi celle que rencontrent aujourd’hui les gens qui se penchent sur « la
mathématisation » en général. Celle-ci est-elle une simple « application » d’une théorie formelle
préexistante à un donné supposé « concret » ou bien n’est-elle pas plutôt une dynamique dont le départ
est inassignable et qui s’incorpore à soi-même au cours du temps de plus en plus d’objets ?
Autrement dit, partons-nous d’une « réalité » déjà constituée pour en rendre compte par des
mathématiques, ce qui est une manière d’introduire les mathématiques dans le monde ou bien au
contraire nous plaçons-nous d’emblée dans un enchaînement d’actes mathématiques qui vise à terme à
« l’incorporation du monde à l’univers scientifique » (Cavaillès) autrement dit à introduire le monde
dans les mathématiques ?
3- Brouwer et l’intuitionnisme
Bien que Hilbert et Brouwer soient des adversaires irréductibles, il est cependant légitime de
les rapprocher car le point de départ de leur réflexion est semblable : il réside dans la même
méfiance à l’égard d’une logique (on disait aussi beaucoup « logistique ») qui s’appliquerait
aux mathématiques de manière incontrôlée. Mais alors que Hilbert évolue dans un sens
positiviste, en voulant partir d’une considération des objets mathématiques limitée à des
marques concrètes, accessibles à nos sens, et en cherchant à enfermer le raisonnement dans
des formes contrôlées, Brouwer se révèle quant à lui idéaliste et kantien en voyant dans les
mathématiques une science portant sur des intuitions transcendantes, et de ce fait, manifeste
une méfiance à l’égard de la logique bien plus radicale encore, qui va notamment s’exercer à
l’encontre du principe du tiers-exclu.
Pour Brouwer, le recours à la logique et aux structures linguistiques est étranger aux
mathématiques et risque de les faire dévier de leur route. Or, c’est cela que prônent les
formalistes, Hilbert en tête. Il rejoint en cela Poincaré, qui cherche à mettre en évidence
« l’intuition du nombre pur » et n’a que mépris pour ce qu’il appelle la « logistique ». Les
objets mathématiques brouwériens, loin d’être des marques écrites couchées sur du papier,
sont le résultats de processus de pensée fondamentaux. La caractérisation qu’il en donne n’est
pas exempte d’un certain caractère nébuleux ( !) :
« le premier acte de l’intuitionnisme sépare entièrement les mathématiques de la langue
mathématique, en particulier des phénomènes de langage décrits par la logique
symbolique. Il reconnaît que les mathématiques constituent une activité de l’intellect
sans langage, activité qui prend son origine dans le phénomène fondamental de
perception d’un glissement de temps, lequel est la scission d’un moment de vie en deux
objets distincts, dont l’un ouvre la voie à l’autre, mais est conservé par la mémoire. Si la
deux-ité ainsi créée est dépouillée de toute qualité, alors demeure le substrat commun à
toutes les deux-ités, la création mentale de la deux-ité vide. Cette deux-ité vide, les deux
unités dont elle est composée, constituent les systèmes mathématiques de base. Et
l’opération fondamentale de construction mathématique est la création mentale de la
deux-ité formée de deux systèmes mathématiques déjà acquis, ainsi que l’étude de cette
deux-ité considérée comme un système mathématique nouveau »
(Points et espaces, annexe II de Intuition et intuitionnisme, p. 197).
Dans cette perspective, le raisonnement logique montre son insuffisance : « les raisonnements
logiques effectués indépendamment de la perception, attendu qu’ils sont les signes de
transformations mathématiques à l’intérieur du système mathématique qui régit les
perceptions, peuvent déduire, de prémisses scientifiquement admises, des conclusions
inacceptables ». Pour Brouwer, l’erreur est de prendre le signe pour la chose : la chose, à la
différence du signe, n’a aucune raison d’obéir à une logique. « la fonction des principes
logiques n’est pas de diriger les raisonnements mathématiques appliqués à des réalités
empiriques, mais de décrire, dans le langage des raisonnements, les régularités qui ont été
obéies. Si on s’exprime en langage en suivant ces réalités, et en perdant le contact de systèmes
mathématiques, on court le risque de paradoxes tels que l’Epiménide ». Et il ajoute :
« On peut démontrer que ces paradoxes résultent de la même méprise que l’Epiménide,
c’est-à-dire qu’ils naissent là où la régularité du langage qui accompagne les
mathématiques est étendue à un discours composé de mots mathématiques que
n’accompagne pas de mathématique. ; qu’en outre la logistique s’occupe elle aussi de
langage mathématique au lieu de s’occuper de la mathématique elle-même ; qu’enfin
tous les paradoxes s’évanouissent si on se borne à parler de systèmes explicitement
constructibles à partir de l’intuition originaire, i.e. si, au lieu de faire présupposer les
mathématiques par la logique, on fait présupposer les mathématiques par la logique ».
Le mathématicien hollandais est, comme nous le voyons, aux antipodes de Frege ou de
Russell, avec leur grand projet de réduction des mathématiques à la logique : il faudrait plutôt,
selon l’intuitionnisme faire l’inverse, c’est-à-dire ne faire de la logique que dans le cadre de
constructions mathématiques dûment constatées.
Autrement dit, les principes logiques du langage ordinaire, syllogisme, non-contradiction et
tiers-exclu, doivent faire l’objet d’un examen si on veut les appliquer aux mathématiques.
Le problème majeur est pour le tiers-exclu : dans l’optique de Brouwer, celui-ci revient à
supposer que lorsqu’on construit un objet mathématique (une suite, une structure, une
démonstration), ou bien cette construction peut être menée à son terme ou bien il apparaît un
obstacle qui empêche de la poursuivre. Or, il n’y a rien d’évident à cela. Pourquoi un jour ne
commencerions-nous pas une telle construction sans pouvoir la terminer (pour une raison de
continuation infinie par exemple) mais sans non plus qu’il apparaisse quelque obstacle nous
interdisant de la poursuivre ? Admettre d’emblée et d’autorité le tiers-exclu revient à exclure
d’avance un tel cas et donc à présupposer que tout problème mathématique formulé dans un
système donné possède une solution (« la question de la validité du tiers-exclu équivaut donc
à celle de la possibilité de problèmes mathématiques non résolubles »).
Certes, cela est bien le cas quand on étudie des systèmes finis. Les problèmes arrivent avec les
systèmes infinis. Poincaré prétend qu’ils se résolvent grâce au principe d’induction, mais pour
Brouwer cette méthode n’est concluante que pour les propriétés des entiers sur lesquelles on a
pu montrer que ce principe s’applique, or rien n’autorise à penser que tout système infini se
prête à l’application de ce principe.
Ceci ne doit pas nous conduire à rejeter le principe du tiers-exclu comme « faux » : ce serait
justement appliquer le principe qu’on voudrait rejeter ! Dire que le principe du tiers exclu est
faux serait dire qu’une construction peut être à la fois possible et impossible, ce qui est
contraire au principe de non-contradiction. On se contentera de dire qu’il est « non
contradictoire » (donc ni vrai ni faux à proprement parler) ou, dira Brouwer plus tard, que
« son absurdité est absurde ». Ainsi fait-on apparaître une différence entre vrai et non
contradictoire, deux notions que les formalistes identifient.
Brouwer, de lui-même, n’aurait jamais accepté que ses idées sur la logique soient
systématisées et deviennent à leur tour « une logique », opposable à la « logique classique ».
En formulant en effet des principes au sein d’un système autonome, ne court-on pas les
mêmes risques qu’avec un système standard de logique, c’est-à-dire ceux afférant à un
« oubli » de l’essence propre des objets mathématiques ? C’est pourtant ce que fera son élève
Heyting, et nous y reviendrons plus loin.
Indiquons avant de conclure ce paragraphe la raison d’être d’un engouement des
informaticiens pour l’intuitionnisme. Celui-ci met en avant la nécessité de construire des
objets : on parlera aussi à son propos de « constructivisme ». Là où le formaliste conclut à
l’existence d’un objet dès que la supposition de sa non-existence conduirait à une
contradiction, l’intuitionniste exige davantage : qu’on donne un mode de construction effectif
dudit objet. Un exemple fameux est fourni par le problème suivant :
Soit à prouver qu’il existe deux irrationnels x et y tels que x y soit un rationnel. Essayons en
prenant x = y = 2 , alors de deux choses l’une :
2
•
ou bien
•
ou bien ce n’est pas le cas, alors prenons x =
xy =
2
2
2× 2
est un rationnel, et le problème est résolu,
=
2
2
et y =
2 , on obtient :
2
2 = 2 et on aussi résolu le problème.
Ce raisonnement satisfait le formaliste, il ne satisfait pas l’intuitionniste. Pour ce dernier en
effet, nous restons sur notre faim, ce qui nous intéresse dans cette question, c’est de connaître
un couple (x, y) tel que x y soit un rationnel ! Une situation semblable serait celle dans
laquelle une base de données (par exemple de renseignements ferroviaires) serait telle que
lorsqu’un utilisateur demande « y a-t-il un train au départ de Grenoble en partance pour
Chambéry entre 10h et 11h » répondrait simplement « oui » ou « non ». On veut évidemment
que la réponse contienne une « réalisation » concrète (un « témoin » de sa vérité). Russell luimême s’amusait des bizarreries de la logique classique lorsqu’il plaisantait ainsi : « une
logicienne vient d’avoir un enfant. A la question « est-ce un garçon ou une fille ? », elle
répond…. Oui ! ».
L’informaticien ne se contente pas d’un tel « oui ». Il exige de la machine une réponse
« constructive ». Nous verrons plus loin que la logique intuitionniste est susceptible d’en
donner.
4- La théorie des ensembles de Zermelo – Fraenkel
Nous allons revenir sur la question des antinomies (ou paradoxes4 ?) soulevée plus haut. Comme nous
l’avons vu, la solution russellienne n’a pas entraîné l’adhésion des mathématiciens, le projet de Hilbert
quant à lui achoppera sur la démonstration par Gödel de l’impossibilité de démontrer au sein d’un
système formel tout énoncé « vrai » à partir du moment où ledit système contient les nombres entiers.
Quant à l’intuitionnisme, il restera marginal dans le monde des mathématiciens. La lignée de Cantor et
de la théorie des ensembles va néanmoins perdurer : les mathématiciens « ensemblistes » vont devoir
4
Les deux termes sont souvent employés. Notons toutefois qu’ils ne sont pas synonymes. Une antinomie est une
contradiction, un paradoxe est seulement ce qui va à l’encontre de la doxa, autrement dit une assertion qui peut
être vraie, bien que contraire à nos intuitions ou à l’orthodoxie.
apporter leur propre solution aux antinomies. Comme ils admettent l’existence de l’infini actuel, on les
qualifie volontiers de « platoniciens ».
La « solution » réside dans une axiomatisation rigoureuse : pas plus que les autres objets
mathématiques, les ensembles ne sauraient être laissés à l’intuition vague. C’est du moins ce que
pense le grand mathématicien allemand Ernst Zermelo (1871 – 1953) qui, en collaboration avec Adolf
Fraenkel (1891 – 1965), un mathématicien israélien, va élaborer la fameuse théorie dite « ZF ».
Au point de départ, on se donne une « collection » d’objets qu’on appelle un univers (nous le noterons
U) On ne dit pas « un ensemble » d’objets puisque c’est justement des ensembles, en tant que
structures particulières, qu’on veut faire la théorie. Cette collection est munie d’une relation binaire,
notée « ∈ » qu’il s’agit d’axiomatiser (en essayant d’éviter le paradoxe bien connu). Un univers se
présente donc comme un graphe tel que le suivant :
b
a
c
a
d
e
f
qui représente une suite d’assertions : a∈b, b∈c, a∈c, c∈d, d∈c, c∈e, c∈f, e∈f, f∈f. Evidemment
certaines de ces assertions vont être rendues impossibles parce que la relation introduite devra
satisfaire certains axiomes. Ces axiomes, quels sont-ils ? les voici dans la forme que leur a donné
Krivine (1969) :
1- Axiome d’extensionnalité :
Il n’existe pas dans l’univers U deux ensembles distincts qui ont les mêmes éléments, autrement dit :
∀x∀y[∀z ( z ∈ x ⇔ z ∈ y ) ⇒ x = y ]
Par exemple, sur la figure précédente, e et c ont chacun un seul élément, f et il leur est commun, donc
e et c devraient coïncider.
Axiome de la paire :
Etant données deux ensembles a et b, il existe un ensemble c, qui a comme éléments a et b et eux
seulement :
∀x∀y∃z∀t [t ∈ z ⇔ (t = x ∨ t = y )]
c est noté : {a, b}
Remarque : on obtient gratuitement la notion de couple, qui est celle de « paire ordonnée » en
identifiant le couple (a, b) à la paire {{a}, {a, b}}. On vérifiera (exercice !) qu’avec cette définition, on
obtient bien ce qui est désiré pour un couple, à savoir que :
(a, b) = (c, d) si et seulement si a = c et b = d
Au-delà, on peut définir un triplet (a, b, c) par : (a, (b, c)) et procéder de la même manière pour
n’importe quelle sorte de n-uplet.
2- Axiome de la réunion :
Pour tout ensemble a, il existe un ensemble b dont les éléments sont les éléments des éléments de a.
∀x∃y∀z[z ∈ y ⇔ ∃t (t ∈ x ∧ z ∈ t )]
3- Axiome de l’ensemble des parties :
Soient a et b deux ensembles ; l’énoncé « ∀x( x ∈ a ⇒ x ∈ b) » est noté « a ⊂ b » : a est une partie
de b, ou : a est inclus dans b. L’axiome dit que, pour tout ensemble a, il existe un ensemble b dont les
éléments sont les objets de U qui sont des parties de a, ce qui s’écrit :
∀x∃y∀z[z ∈ y ⇔ z ⊂ x ]
4- Axiome de sélection :
Etant donné un énoncé A(x, a1, …, an) où x est une variable libre et a1, …, an des paramètres (c’est-àdire des objets de U qui apparaissent dans l’énoncé), ainsi qu’un ensemble a, alors il existe un
ensemble b dont les éléments sont ceux de a qui satisfont l’énoncé A. On a en fait, sous cette
dénomination une infinité d’axiomes :
∀x1 ...∀x k ∀x∃y∀z[z ∈ y ⇔ ( z ∈ x ∧ A( z , x1 ,..., x k ))]
chaque axiome étant associé à un énoncé A particulier. On note l’ensemble obtenu :
b = {x ∈ a; A( x, a1 ,..., a k )}
Il est important de noter ici que c’est cet axiome qui va empêcher la formation du paradoxe russellien :
pas d’ensemble sans que n’existe déjà un ensemble ! Autrement dit, si nous prenons un énoncé
quelconque, comme par exemple c’était le cas avec x ∉ x , nous n’obtiendrons pas nécessairement un
ensemble au moyen de cet énoncé, autrement dit la notation b = {x; x ∉ x} ne correspond pas à un
ensemble. Seulement b = {x ∈ a; x ∉ x} où a est un ensemble, correspond à un ensemble, mais serons
nous capable de trouver un tel a de sorte que b puisse s’interpréter comme « l’ensemble de tous les
ensembles qui ne s’appartiennent pas à eux-mêmes » ? Nous verrons que non !
Noter qu’on peut maintenant démontrer ce théorème intéressant :
Il existe un ensemble et un seul qui n’a aucun élément.
Il suffit d’appliquer le schéma d’axiomes précédent, en prenant n’importe quel ensemble a, associé à
l’énoncé « x ≠ x » (nous retrouvons ici l’intuition de Frege concernant la définition du zéro).
L’unicité provient de l’axiome d’extensionnalité.
Les quatre axiomes (ou schémas d’axiomes) précédents avec en plus l’axiome de l’infini que nous
verrons plus loin constituent la théorie ZF. Selon cette théorie, il existe des collections qui ne
correspondent à aucun ensemble, ainsi de la collection ci-dessus des ensembles qui ne s’appartiennent
pas à eux-mêmes. Le théorème et sa démonstration peuvent s’énoncer comme suit :
Théorème 1 : la collection « x ∉ x » ne correspond à aucun ensemble.
Démonstration : si elle correspondait à un ensemble a, on aurait : ∀x( x ∉ x ⇔ x ∈ a ) d’où en
particulier : a ∉ a ⇔ a ∈ a
Mais on a aussi :
Théorème 2 : ma collection « x = x » ne correspond à aucun ensemble.
Démonstration : si elle était un ensemble, alors elle serait U tout entier – « l’ensemble de tous les
ensembles » - et nous aurions, d’après le principe de sélection, l’existence d’un ensemble b défini par :
b = {x ∈ U ; x ∉ x} qui serait la a du théorème précédent, dont nous avons vu qu’il n’était pas un
ensemble !
On formule souvent ce théorème en disant que « la collection de tous les ensembles n’est pas un
ensemble ». De même, afin d’éviter le paradoxe de Burali-Forti, on démontre que la collection de tous
les ordinaux n’est pas un ordinal.
Ainsi, les situations paradoxales sont-elles évacuées en prenant soin à ce que l’on appelle ou l’on
n’appelle pas « ensemble ». Le concept d’ensemble étant désormais celui d’une structure bien
spécifiée, il n’y a pas de raison que n’importe quelle « collection » soit un ensemble. De ce fait, par
exemple, la collection de tous les ordinaux finis n’est pas nécessairement un ensemble, mais on peut
poser qu’elle l’est, ce qui nous donne alors accès au fameux paradis cantorien.
5- Axiome de l’infini :
Il existe un ordinal non fini.
En considérant nos définitions antérieures, rappelons qu’un ordinal fini est un ordinal tel que lui-même
et chacun de ses « ancêtres » possède un prédécesseur. Dire qu’il existe un ordinal non fini, c’est donc
dire qu’il existe un ordinal qui n’a pas de prédécesseur. Prenons le plus petit des ordinaux non finis et
notons-le ω : c’est l’ensemble des ordinaux finis. En effet, si α est un ordinal fini, on ne peut pas avoir
ω ≤ α, car ω serait fini, donc on a α < ω, c’est-à-dire α∈ω. D’autre part, si α∈ω, alors α < ω, et si α
n’était pas fini, ω ne serait pas le plus petit des ordinaux non finis, donc α est fini.
Rappelons aussi que les ordinaux servent à définir les cardinaux. Si en effet les cardinaux sont, comme
le voulait Frege, définis par la notion d’équinuméricité à un concept, autrement dit d’équipotence à
l’extension d’un concept, encore faut-il qu’il existe de telles extensions et qu’il en existe
suffisamment ! La construction des ordinaux est là pour remplir les vides éventuels. Comme dit plus
haut, le cardinal d’un ensemble a est le plus petit ordinal équipotent à a.
Réfléchissons quelques instants sur cette définition : la relation demandée est celle d’équipotence
(seulement) et non celle d’isomorphie. A est équipotent à B si et seulement s’il existe une bijection de
l’un vers l’autre. Un ordinal a est isomorphe à un ensemble ordonné b si et seulement s’il existe une
bijection de l’un vers l’autre et en plus cette bijection est une isomorphie, c’est-à-dire une application
qui transporte la structure. Ainsi deux ensembles équipotents peuvent très bien ne pas être
isomorphes : il y a, a priori, plus d’ordinaux que de cardinaux. On peut sérier les cardinaux facilement
en posant que si a est un cardinal, alors le cardinal suivant a+1 est le cardinal défini par le plus petit
ordinal strictement supérieur à celui qui a permis de définir a. Dans le cas des cardinaux finis, il n’y a
pas de problème, le suivant de 4 est bien 5 ! Si on considère maintenant les cardinaux infinis, alors
bien sûr nous connaissons des ensembles équipotents à de tels cardinaux infinis, l’ensemble des entiers
par exemple. Y a-t-il des ensembles ayant un cardinal supérieur ? Il est possible de démontrer que
d’autres ensembles de nombres, obtenus à partir de N, comme Z et Q, ont le même cardinal que N, à
savoir ω ! mais des ensembles comme R et ℘(N) ont un cardinal strictement plus grand. Ainsi le
théorème de Cantor établit-il que pour tout ensemble a, Card(a) < Card℘(a) et le théorème dit « de la
diagonale » démontre-t-il que R n’est pas dénombrable. Mais à quel degré dans la hiérarchie des
ordinaux infinis correspond ce cardinal ? Le cardinal de ℘(N) ou de R est-il vraiment le successeur
de celui de N ou bien se cache-t-il entre les deux un autre cardinal ? C’est l’objet de « l’hypothèse du
continu » que Hilbert a voulu démontrer, sans y parvenir, et pour cause puisque bien plus tard, Cohen
va démontrer l’indépendance de cette hypothèse par rapport aux axiomes de la théorie des ensembles,
ce qui signifie qu’on peut aussi bien choisir de faire de la théorie des ensembles en la supposant vraie
qu’en la supposant fausse !
6- Axiome du choix :
Deux autres axiomes peuvent être ajoutés à la théorie ZF. Le premier est le célèbre « axiome du
choix ». Il semble évident à première vue qu’il soit toujours possible de sélectionner un élément dans
un ensemble, autrement dit, étant donné un ensemble E, de trouver une fonction h de ℘(E) – {∅}
dans E qui, à toute partie non vide de E associe un élément de E. Supposons que E soit bien ordonné
(c’est-à-dire que E soit ordonné et que toute partie non vide de E possède un plus petit élément) : il
suffit, chaque fois, de prendre le plus petit élément de la partie considérée. Mais on n’a pas toujours
une « recette » aussi simple. Bertrand Russell comparait cela à la différence qu’on peut faire entre…
choisir de manière répétée un élément parmi une paire de chaussures ou une paire de chaussettes !
pour une paire de chaussures, c’est simple : prenez systématiquement la chaussure gauche (ou
« droite » peu importe), mais pour des paires de chaussettes, on n’ a pas de règle aussi simple : les
chaussettes sont indifférenciées ! Dans les ensembles de nombres, on a quelque chose d’analogue : on
sait que N, Z et Q peuvent être bien ordonnés (même si pour Z et Q, l’ordre en question n’est pas celui
auquel on a affaire d’habitude…) donc quelle que soit la partie non vide de l’un de ces ensembles, on
peut choisir un élément : le plus petit selon cet ordre. Mais dans le cas de R ? pas de bon ordre a priori
accessible (ou « constructible »), est-ce à dire qu’on ,ne peut pas choisir un élément dans n’importe
quelle de ses parties ? peut-être pas… après tout, dans le cas des chaussettes, on peut quand même en
choisir une chaque fois (celle qui se présente sur le sol la plus proche de nous par exemple !), mais le
problème est qu’on n’a pas de recette pour opérer ce choix…. Si on peut le faire, il faudra le poser
explicitement comme principe, mais poser en principe qu’on peut faire quelque chose n’est pas donner
le moyen de le faire toujours5… C’est pour cela que l’axiome du choix aura tant rencontré de
résistances et en tout cas sera refusé par les intuitionnistes.
De fait l’axiome de choix possède plusieurs formulations équivalentes. Outre la précédente
(l’existence de la fonction h), on a aussi :
(AC’) : Pour chaque ensemble a, dont les éléments sont non vides et disjoints deux à deux, il existe un
ensemble dont l’intersection avec chaque élément de a est un ensemble à un seul élément.
(AC’’) : le produit d’une famille d’ensembles non vides est non vide.
Cet axiome permet de démontrer un résultat auquel on s’attend étant donnée notre discussion
précédente :
Théorème de Zermelo : tout ensemble peut être bien ordonné
Donc même R (et contrairement aux apparences) peut être bien ordonné ! mais qu’on ne s’attende pas
à voir exhibé un tel bon ordre !
On peut aussi démontrer :
Théorème de Zorn : toute partie bien ordonnée majorée d’un ensemble ordonné possède un élément
maximal
On voit aussi que le principe énoncé plus haut concernant la correspondance entre cardinaux et
ordinaux (l’idée que les ordinaux suffisent à définir tous les cardinaux) résulte aussi de cet axiome du
choix. En effet puisque tout ensemble possède un bon ordre et qu’on peut démontrer que tout
ensemble bien ordonné est isomorphe à un ordinal, tout ensemble est équipotent à un ordinal.
L’axiome du choix paraît ainsi doté d’une puissance très grande alors que les mathématiciens
constructivistes ont de quoi exprimer de la méfiance à son égard… faut-il s’en passer, ou bien : peuton s’en passer ? L’histoire des mathématiques au XXème siècle montre qu’il serait difficile de s’en
passer, tant ses applications sont nombreuses et importantes6.
Le deuxième axiome à ajouter est l’axiome de fondation. Il permet d’éviter « l’imprédicativité »
énoncée plus haut, à savoir le fait qu’un ensemble pour être défini en termes de ses éléments puisse
être tel que la définition de certains de ses éléments repose sur la présupposition de connaissance de
tout l’ensemble. Cet axiome empêchera ainsi l’existence d’ensembles x tels que x ∈ x , autrement dit
il permettra de déduire : ∀x( x ∉ x) .
7- Axiome de fondation :
Tout ensemble non vide a un élément qui n’a aucun élément commun avec cet ensemble.
∀x[x ≠ φ ⇒ ∃y ( y ∈ x ∧ y ∩ x = φ )]
5
Il y a eu autrefois un sketch fameux de Pierre Dac et Francis Blanche, deux humoristes disparus, où l’un des
deux partenaires jouait le rôle d’un fakir et l’autre était son comparse dans la foule. Ce dernier prenait quelqu’un
au hasard et s’adressait au fakir en lui demandant : « pouvez-vous me donner la date de naissance de cette
personne ? » et le partenaire répondait : « oui, je peux le faire », à quoi il répondait : « oui, il peut le faire,
messieurs dames ! applaudissez-le bien fort ! ».
6
Par exemple, on ne peut démontrer que « tout espace vectoriel possède une base » qu’en utilisant l’axiome du
choix.
Cet axiome interdit la formation de cycle dans la relation d’appartenance. Supposons en effet que nous
ayons : b ∈ a, c ∈ b, d ∈ c, a ∈ d prenons l’ensemble E = {a, b, c, d}. a possède un élément commun
avec E, c’est b, b aussi : c’est c, c aussi, c’est d, d aussi, c’est a.
Il est possible de démontrer que cet axiome est bien indépendant des précédents : admettre sa négation
serait tout aussi cohérent que l’admettre lui-même. C’est justement en admettant sa négation que Peter
Aczel, dans les années quatre-vingt, va développer une théorie des ensembles « non fondés » (ou
« hyperensembles ») bien utile pour formaliser des problèmes d’informatique théorique et, comme le
montreront Barwise et Etchemendy7 pour fournir des analyses nouvelles du paradoxe du Menteur (voir
plus loin).
La théorie de Zermelo – Fraenkel avec axiome du choix est ZFC, avec axiome du choix et axiome de
fondation : ZFC + AF, alors que la théorie de Aczel sera : ZFC + AFA (« Anti-Foundation Axiom »).
5- Tarski et la définition de la vérité
Nous avons vu plus haut l’emphase mise par Hilbert sur les démonstrations de non contradiction. Une
théorie mathématique est fiable si on peut faire la preuve de sa cohérence. Une telle preuve se ramène
à faire la démonstration qu’on ne peut pas dériver au sein de la théorie une absurdité telle que
« 1≠1 »8, mais est-il toujours possible d’obtenir une telle preuve ? Cela signifierait que, quelle que soit
la théorie mathématique, il soit possible, étant donnée une propriété contradictoire telle que « 1≠1 » de
dire si oui ou non elle est démontrable, ce qu’en langage technique, on appelle la récursivité du
prédicat « être démontrable », or nous verrons plus loin que Gödel a enterré un tel espoir. La
démonstration directe de la non cohérence semble donc difficile et plus tard s’avèrera en général
impossible. On peut cependant attaquer le problème d’un autre côté : au lieu de prouver qu’aucune
contradiction n’est démontrable, on peut essayer de prouver que tout ce qu’on démontre est « vrai ».
Mais cela reporte la question sur celle de la définition de la vérité.
On l’a dit en introduction, la logique pourrait aussi être dite « science du Vrai », comme l’esthétique
serait la doctrine du Beau ou la morale celle du Bien. Cela ne va évidemment pas sans un certain
essentialisme. Il importait cependant aux logiciens des années trente de tenter de clarifier la question
en essayant de définir ce que l’on entend par « telle ou telle proposition est vraie ». Le personnage
majeur est ici Alfred Tarski (1902 – 1983), logicien polonais qui fut l’élève de S. Lesniewski, le
fondateur de l’école polonaise de logique, et le texte majeur est « Le concept de vérité dans les
langages formalisés », écrit en 1931 mais paru en 1933. « Le présent travail, dit le logicien polonais,
est consacré à un seul problème, au problème de la définition de la vérité. Il s’agit en effet – compte
tenu de tel et tel langage – de construire une définition de l’expression « proposition vraie », définition
qui soit matériellement adéquate et formellement correcte ».
A première vue, la notion de vérité retenue est au plus proche de l’acception classique, c’est-à-dire de
la théorie de la « vérité – correspondance » : « « vraiment » signifie la même chose que
« conformément à la réalité » ». Dans le premier paragraphe de son étude, Tarski aborde la question de
la définition de la vérité dans le langage quotidien : c’est pour aboutir à un échec. « Il est impossible
non seulement de définir ce que signifie l’expression du langage quotidien « proposition vraie » mais
encore de s’en servir dans ce langage ». Il se limitera donc à étudier ce qu’il en est dans les « seuls
langages actuellement connus qui soient construits à l’aide d’une méthode scientifique, à savoir les
langages des sciences déductives formalisées » et là, il trouve bel et bien une solution positive à son
problème : il existe « une méthode homogène permettant de construire la définition en question pour
chacun de ces langages »9. Pourquoi la notion de proposition vraie n’est-elle pas définissable dans le
langage quotidien ? Le schéma général d’une telle définition devrait être :
« x est une proposition vraie si et seulement si p »
7
Jon Barwise et John Etchemendy, « The Liar », Oxford University Press, 1987
Hilbert, traduit par Largeault, p. 236
9
‘Le Concept de Vérité dans les langages formalisés’, in A. Tarski, Logique, sémantique, métamathématique,
trad. sous la direction de Gilles Granger, Armand Colin, 1972
8
On mettrait alors à la place de x « le nom » d’une proposition et à celle de p cette proposition ellemême en toutes lettres. Une manière naturelle d’obtenir un tel nom est de mettre des guillemets, ainsi
obtient-on :
« il neige » est une proposition vraie si et seulement s’il neige
(c’est ce qu’on appelle depuis le schéma-T, la théorie étant souvent désignée par les philosophes
contemporains sous la dénomination de théorie « décitationnelle » de la vérité). Seulement, comme
nous nous en doutons déjà, une telle définition risque de poser des difficultés. Qu’advient-il si nous
rencontrons une assertion du genre de celle du Menteur ? Décidons de désigner par A la proposition
suivante :
A n’est pas une proposition vraie
alors nous avons par définition :
(1) A = « A n’est pas une proposition vraie »
et nous pouvons appliquer la schéma-T de façon à obtenir :
(2) « A n’est pas une proposition vraie » est une proposition vraie si et seulement si A n’est pas
une proposition vraie
d’où :
(3) A est une proposition vraie si et seulement si A n’est pas une proposition vraie
ce qui est bien sûr une contradiction.
On pourrait bien sûr tenter de trouver une définition reposant sur des règles, en entendant par là
quelque chose de très voisin de ce que nous connaissons en théorie de la démonstration, mais il
faudrait alors définir un lot de propositions vraies « d’où on part » alors que dans le langage quotidien,
nous sommes totalement incapables de cerner un « ensemble de propositions vraies » qui serait bien
délimité : l’un des traits caractéristiques du langage quotidien est son universalisme, lequel est à la
source de toutes les antinomies sémantiques.
Les langages formalisés, à la différence de « la langue vulgaire », sont les langages qu’on a
« artificiellement construit de telle sorte que le sens de chaque expression [soit] univoquement
déterminé par sa forme ». Nous retrouvons ici la notion de système formel, lequel se décompose en :
(a) une liste de symboles, (b) un ensemble de règles de formation, (c) une sélection d’expressions bien
formées à titre d’axiomes, (d) des règles d’inférence. Les langages obtenus de cette manière ne sont
pas « universalistes » au sens où l’est le langage quotidien : on notera en particulier qu’ils ne
contiennent pas de terme « appartenant à la science du langage », ni « des signes ou des expressions
qui décrivent les relations structurelles existant entre ces signes et expressions ». De cette manière,
nous pouvons soigneusement distinguer entre le langage dont nous parlons (langage-objet) et le
langage dans lequel nous en parlons (métalangage). Chaque fois que nous sommes dans ce type de
configuration, nous sommes à l’aise pour définir le concept de vérité. Tarski prend comme premier
exemple le langage du calcul des classes. Soit un ensemble de signes :
-
N (négation), A (disjonction), Π (quantification universelle), I (inclusion)
-
variables : x| , x||, x|||, …., x||||…|, …..
et des règles de formation permettant d’obtenir des expressions comme :
Ix| , x||, NIx| , x||, Πx| Ix| , x| etc.
plus des axiomes, des règles, etc. Ceci donne un langage-objet.
Maintenant définissons un autre langage, qui va servir à parler de celui-ci, et qui donc contient une
image de chaque expression du premier langage. Nous utiliserons par exemple les mots non, ou, pour
tout, inclusion à la place des symboles N, A, Π, I, de sorte que Πx| Ix|, x| corresponde à la phrase
« pour tout x, x est inclus dans x », alors le schéma-T pourra s’appliquer. Par exemple, nous aurons :
Πx| Ix| , x| est vrai si et seulement si pour tout x, x est inclus dans x
Il reste évidemment à définir à son tour une théorie rigoureuse pour ce deuxième langage, de sorte
qu’il soit possible en son sein de prouver que « pour tout x, x est inclus dans x » dans le cas où la
proposition du premier langage, Πx| Ix| , x| est vraie. Nous trouvons ici la première formulation de la
sémantique logique et la base du concept de modèle.
De nos jours, on définit comme suit la sémantique d’un langage du premier ordre L, qui possède des
variables (individuelles), des constantes (individuelles), des lettres de foncteurs (chacun d’une arité
donnée n) et des lettres de prédicats (chacun donné avec une arité donnée n également). On se donne
un univers U non vide (cf. ci-dessus la théorie des ensembles) et une fonction Val (soit M = (U, Val))
qui à toute constante individuelle associe un élément de U, à toute lettre de foncteur n-aire associe une
fonction de Un dans U, à toute lettre de prédicat n-aire associe une partie de Un. On se donne d’autre
part la notion de fonction d’assignation10, à savoir n’importe quelle fonction qui associe à chaque
variable xi du langage un élément de U et cela permet de définir récursivement la vérité d’une formule
quelconque du langage L, par rapport à la L-structure M et à une fonction d’assignation g. On note
[[ϕ]]M,g la valeur de vérité de la formule ϕ par rapport à M et à g, c’est soit 1, soit 0 (vrai ou faux). On
a les clauses suivantes :
Termes :
(a) si x est une variable, [[x]]M,g = g(x)
(b) si c est une constante, [[c]]M,g = Val(c)
(c) si f(t1, …,tk) est un terme complexe, [[f(t1, …,tk) ]]M,g = [[f]] M,g([[t1]]M,g …,[[tk]]M,g)
Formules :
(d) si ϕ(t1, …, tn) est une formule atomique, [[ϕ(t1, …, tn)]] M,g = 1 ssi ([[t1]]M,g …,[[tk]]M,g)∈Val(ϕ)
(e) [[A∧B]] M,g = 1 ssi [[A]] M,g = [[B]] M,g = 1
(f) [[A∨ B]] M,g = 0 ssi [[A]] M,g = [[B]] M,g = 0
(g) [[A⇒ B]] M,g = 0 ssi [[A]] M,g = 1 et [[B]] M,g = 0
(h) [[¬A]] M,g = 1 ssi [[A]] M,g = 0
(i) [[∀xA]] M,g = 1 ssi toute fonction d’assignation h identique à g sauf éventuellement en x est telle
que [[A]] M,h = 1
(j) [[∃xA]] M,g = 1 ssi il existe une fonction d’assignation h identique à g sauf éventuellement en x telle
que [[A]] M,h = 1
Etant donnés un langage L, un ensemble de formules closes11 Φ et une L-structure M, on dit que M est
un modèle de Φ si et seulement si toutes les formules dans Φ sont vraies par rapport à M.
En utilisant une telle méthode, nous voyons que la vérité du premier langage (L) est définie dans le
deuxième langage (L’), lequel est un métalangage. Comment fonder alors la vérité au sein de ce
deuxième langage ? Cela ne serait possible bien sûr qu’au sein d’un troisième langage (un méta-métalangage) L’’ et ainsi de suite, dans une ascension irrésistible que rien n’arrête (puisqu’on a écarté toute
idée d’un langage universel qui serait à lui-même son propre métalangage). Notons en chemin que si
la théorie des ensembles est correcte, alors on possède une définition assurée de la vérité d’une
formule appartenant à un langage du premier ordre… mais cette vérité n’est que conditionnelle.
Il reste à exprimer le lien entre le langage, avec ses inférences (et donc sa notion de théorème ou de
thèse), et la structure (qui permet de définir la notion de formule vraie, ou « valide »). Dans le cas du
calcul des classes, Tarski montre (récurrence sur la structure de la démonstration à partir de la
reconnaissance que tout axiome est bien une formule vraie) que toute thèse est vraie. On peut aussi le
démontrer dans le cas de logique des prédicats du premier ordre. Etant entendu que si x∈Vr (ensemble
des propositions vraies), alors x ∉ Fx (ensemble des propositions fausses) , on en déduit bien
10
Tarski, 1933 n’utilise pas des fonctions d’assignation mais des « suites infinies » d’objets – par exemple de
classes – de sorte qu’à la variable x| corresponde le premier élément d’une telle suite, à x|| le deuxième et ainsi
de suite, à x||…| (n barres) le nième. Ainsi définit-il une proposition vraie comme une proposition « satisfaite par
toute suite infinie » (fameuse « définition 23 » de son mémoire).
11
Une formule est dite close si elle ne contient aucune variable libre. Dans le cas d’une formule close, il est
facile de vérifier que son évaluation ne dépend pas d’une fonction d’assignation quelconque.
qu’aucune thèse n’est une contradiction et que, donc, la théorie est non-contradictoire ou cohérente.
Mais dit Tarski, il peut exister des théories où des propositions vraies ne sont pas des thèses12.
Nous voyons ici émerger, en plus de la traditionnelle notion de cohérence, une notion de complétude.
Intuitivement, une théorie est complète si pour chacune de ses formules closes ϕ, elle est capable de
fournir soit une preuve de ϕ soit une preuve de ¬ϕ, autrement dit est capable de statuer sur chacune
de ses formules closes. On voit que si toute proposition vraie est une thèse, autrement dit est
prouvable, étant donnée une formule ϕ quelconque, ou bien elle est vraie et elle est prouvable, ou bien
elle est fausse et dans ce cas elle est non prouvable car d’après le paragraphe ci-dessus, si elle l’était,
elle serait vraie ! Autrement dit, une théorie capable de prouver toutes les formules vraies est
forcément complète au sens ici indiqué. On parle en général de complétude syntaxique et de
complétude sémantique. Bien sûr, on peut avoir une notion de complétude syntaxique
indépendamment de toute construction sémantique, mais on voit que si une théorie est
sémantiquement complète alors elle est nécessairement syntaxiquement complète également. Autre
remarque : le principe du tiers – exclu semble intégralement admis dans le métalangage par Tarski.
Tarski étend la définition de la vérité aux langages d’ordre fini, autrement dit contenant des prédicats
d’ordre 1, 2, … n (si un prédicat du premier ordre est un prédicat qui n’a comme arguments que des
termes individuels, c’est-à-dire interprétés par des éléments de U, un prédicat du 2ème ordre a parmi ses
arguments au moins un prédicat du 1er ordre, et pas de prédicat d’ordre supérieur, un prédicat du
(n+1)ème ordre au moins un prédicat du nème ordre et pas de prédicat d’ordre supérieur et ainsi de
suite) où n est borné mais montre qu’il est impossible d’obtenir une telle définition dans le cas d’un
langage d’ordre infini (qui admettrait des entités d’ordre arbitrairement grand).
On se moque parfois de la théorie tarskienne de la vérité (voir J. Y. Girard à ce sujet) en la présentant
comme basée sur des lapalissades : bien sûr « il neige » est vrai si et seulement s’il neige ! Est-ce là
quelque chose de bien différent qu’affirmer que lorsqu’il neige, il tombe de l’eau gelée ? C’est faire à
Tarski un mauvais procès. D’abord, comme nous l’avons vu, Tarski ne prétend pas avoir donné une
définition de la vérité dans le langage ordinaire, puisqu’il dit justement qu’une telle définition lui
paraît impossible : une telle définition n’est possible que dans les langages formalisés. Ensuite, cette
conception est loin d’être ridicule : elle montre qu’une recherche d’une définition de la vérité nous
engage nécessairement dans une ascension de systèmes emboîtés les uns dans les autres. Chaque
système doit contenir une image du précédent avec en plus un ensemble de symboles et de formules
qui lui sont propres et qui servent à en parler. On n’a pas de « vérité absolue », mais seulement en
droit une vérité relative, toujours en construction, une construction qui n’en finit jamais.
Une autre remarque mérite d’être faite : le philosophe standard, disons plus ou moins kantien, s’attend,
lorsqu’on évoque une « définition de la vérité », à ce qu’on lui délivre un critère, autrement dit une
méthode absolue permettant de décider de la vérité ou de la fausseté d’un énoncé. Il s’étonne alors et
s’insurge (à juste titre) puisque selon lui, on prétendrait par là clore l’ensemble des problèmes
(philosophiques et autres). Or, la définition tarskienne de la vérité ne serait un critère que si la
procédure présentée ci-dessus pour définir la valeur de vérité d’une formule était décidable, autrement
dit s’il existait un algorithme général permettant, pour toute formule, de dire si elle est vraie ou si elle
est fausse. Certes, un tel algorithme existe pour le calcul propositionnel, qui est une toute petite partie
de la logique des prédicats, et tout le monde le connaît : il repose sur la méthode des tables de vérité.
Cette situation est exceptionnelle. De grands théorèmes (établis notamment par A. Church) montreront
que la logique des prédicats du premier ordre n’est pas décidable, autrement dit qu’il n’existe pas
d’algorithme général pour évaluer la valeur de vérité d’une formule quelconque. Cela pourtant
n’empêche pas qu’elle soit complète13, c’est-à-dire que pour toute formule vraie, il existe une
12
Par exemple, le système formel que propose Tarski pour le calcul des classes n’est capable de démontrer ni
que : ∀x∀y x ⊂y est une thèse ni que sa négation en est une, alors que bien évidemment la négation est vraie.
13
La complétude de la logique du premier ordre a fait l’objet de plusieurs démonstrations différentes, toutes plus
ingénieuses les unes que les autres, de la part de Gödel, de Henkin (démonstration revue par Hintikka) et de
Gentzen. Nous reviendrons notamment sur la démonstration de Gentzen puisque c’est en la réalisant que le
logicien allemand invente un système astucieux pour la recherche de preuves : le calcul des séquents.
démonstration (dans sa présentation sous forme de système formel). Simplement, nous ne savons pas
forcément trouver cette démonstration au moyen d’une méthode générale.
Tarski ne vise donc pas un « critère de vérité » : c’est sans doute sa grande originalité, par rapport à
ceux qui l’ont précédé qui se sont penchés sur la vieille question (réputée absurde par Kant) de
« qu’est-ce que la vérité ? »14.
Les recherches sur le calcul des prédicats du point de vue de la théorie des modèles vont conduire à
des résultats tout aussi importants que la complétude et l’indécidabilité mentionnées ci-dessus, en
particulier le théorème de Löwenheim-Skolem :
Théorème : si une théorie T (c’est-à-dire un ensemble de formules closes) admet un modèle infini,
alors elle admet un modèle dénombrable.
Cela a comme conséquence qu’il est vain d’espérer formuler une théorie du premier ordre pour la
théorie des ensembles, c’est-à-dire un système fini d’axiomes formulés dans un langage du premier
ordre qui démontrerait tous et rien que les énoncés vrais de la théorie des ensembles. Nécessairement
un tel système d’axiomes admettrait un modèle dénombrable c’est-à-dire un univers ne contenant
qu’une suite énumérable d’objets, or nous savons que l’univers de la théorie des ensembles ne saurait
être ainsi (puisqu’il contient toutes les parties de N, qui sont en quantité non dénombrable).
On a également le théorème de compacité :
Théorème : si une théorie T est telle que toute partie finie possède un modèle, alors elle a elle-même
un modèle.
Ce théorème est mis à contribution pour montrer que l’axiomatique de Peano (arithmétique formelle)
exprimée en premier ordre, ne caractérise pas l’ensemble des entiers de manière univoque. L’argument
est le suivant. L’arithmétique de Peano contient, entre autres axiomes la formulation du fameux
principe de récurrence :
P (0) ∧ (∀n( P(n) ⇒ P(n + 1)) ⇒ ∀nP(n)
Ce principe n’est pas un axiome, mais une infinité d’axiomes ! Il faut en effet formuler ce principe
pour chaque prédicat P. Evidemment, on pourrait quantifier sur P et écrire :
(∀P) P (0) ∧ (∀n( P(n) ⇒ P(n + 1)) ⇒ ∀nP(n)
Mais nous ne serions plus dans le premier ordre : nous serions dans le second ordre, or, nous verrons
plus loin que la logique du second ordre n’est pas axiomatisable. Ainsi l’arithmétique de Peano nous
donne-t-elle un exemple de théorie du premier ordre avec une infinité (dénombrable) d’axiomes.
D’après le théorème de compacité, il suffit de vérifier que tout sous-ensemble fini de cette théorie
possède un modèle pour être assuré qu’elle a bien un modèle, lequel serait bien sûr N. On peut prouver
effectivement que c’est le cas : l’ensemble des ordinaux finis fournit un modèle pour cette théorie.
Mais la chose nouvelle est que… il n’est pas le seul ! Il suffit d’ajouter au langage une nouvelle
constante c et d’introduire une nouvelle infinité d’axiomes : c ≠ 0, c ≠ 1, c ≠ 2, c ≠ 3, etc. La nouvelle
théorie obtenue T’ est aussi telle que tous ses sous-ensembles finis aient un modèle, elle possède donc
un modèle, qui se trouve être aussi un modèle de la théorie originelle T, mais ce modèle n’est pas
isomorphe à N car il contient un objet c distinct de tous les autres éléments de N. De là découle que
l’ensemble des entiers n’est pas caractérisable en premier ordre : toute théorie du premier ordre
construite pour en rendre compte possède des modèles non isomorphes (on dit que c’est une théorie
non catégorique).
Pourquoi la logique du second ordre est-elle non axiomatisable ? Simplement parce que, si elle l’était,
étant donné qu’elle permet, elle (résultat déjà vu par Dedekind) de produire une théorie catégorique
des entiers (l’ensemble N est son seul modèle, à un isomorphisme près), on pourrait prouver dans cette
théorie n’importe quelle propriété des entiers, ce qui contredirait le théorème d’incomplétude de
Gödel.
Ce paragraphe nous aura permis de faire un bond important dans la logique mathématique du XXème
siècle. Au passage nous avons vu qu’une théorie (c’est-à-dire un ensemble de formules closes dans un
14
Lire à ce sujet F. Rivenc, ‘Définition et critère de la vérité’, revue Philosophie, n°65, mars 2000, pp. 73-88.
système formel) étant définie et en principe naïvement construite pour rendre compte d’un domaine
donné de sorte que celui-ci soit un modèle pour celle-là… il peut s’avérer qu’il y ait plusieurs
modèles, non nécessairement isomorphes, de la même théorie ! La vision idéaliste de Frege, consistant
à créer une langue universelle qui servirait à établir comme certitudes tout ce qu’il y a de vrai dans le
domaine des mathématiques se trouve détruite : il n’y a pas un seul modèle d’une telle langue, ou dit
autrement : cette langue ne décrit pas un seul univers, plusieurs peuvent être compatibles avec elle !
Autre conséquence : il y a un fossé entre logique du premier ordre et logique du second ordre. La
logique du second ordre, c’est les « vraies » mathématiques, c’est l’arithmétique, c’est la théorie des
ensembles, mais elle n’est pas axiomatisable, alors que la logique du premier ordre, quant à elle, si elle
est axiomatisable, elle ne peut caractériser univoquement les concepts importants des mathématiques.
Avant d’achever ce chapitre sur ce qui semble être un constat d’échec relativement à cette rencontre
entre logique et mathématiques, il faut que nous nous attardions sur ce qui est la clé de voûte de cette
rencontre ratée et que nous avons évoqué déjà plusieurs fois : le théorème de Gödel.
6- Le théorème de Gödel
L’article de Gödel de 1931 est intitulé : « Sur les propositions formellement indécidables des Principia
Mathematica et des systèmes apparentés ». Il débute par ces mots :
« Le développement des mathématiques vers plus de précision a conduit à la formalisation de
vastes domaines de telle sorte que les démonstrations puissent être développées en suivant un
petit nombre de règles mécaniques. Les systèmes formels les plus étendus à ce jour sont, d’une
part les Principia Mathematica de Whitehead et Russell et, d’autre part, le système de ZermeloFraenkel de la théorie axiomatique des ensembles. Ces deux systèmes sont si vastes que toutes
les méthodes de démonstration utilisées aujourd’hui en mathématiques peuvent y être
formalisées, c’est-à-dire peuvent être réduites à un petit nombre d’axiomes et de règles de
déduction. Il semblerait donc raisonnable de conjecturer que ces axiomes et ces règles de
déduction suffisent pour décider de toutes les questions mathématiques qui peuvent être
formulées dans le système concerné. Dans ce qui suit, il sera montré qu’il n’en est pas ainsi,
mais plutôt, que dans les deux systèmes cités, il existe des problèmes relativement simples de la
théorie des nombres entiers ordinaires sont on ne peut décider sur la base des axiomes ».
Quelle est l’idée centrale de la démonstration de Gödel ? Brièvement dit, c’est qu’à partir du moment
où nous aurions un système formel incluant la possibilité d’exprimer des relations arithmétiques (les
nombres entiers et leurs propriétés élémentaires), alors ce système serait capable d’exprimer des
propriétés sur lui-même, et si nous sommes capables de construire rigoureusement dans un tel système
une formule analogue à celle du Menteur, alors de deux choses l’une : ou nous acceptons qu’il y ait
une contradiction dans le système ou nous acceptons qu’il y ait des formules vraies qui ne puissent pas
être démontrées et c’est bien sûr la deuxième possibilité que nous choisirons. Mais il est utile d’entrer
plus en détails et de voir comment cette construction peut avoir lieu.
Tout d’abord, Gödel introduit une numérotation des énoncés (« numérotation de Gödel ») de telle sorte
que toute formule du système possède son numéro en propre et que les numéros soient tels qu’on
puisse toujours retrouver la formule qu’ils codent. Non seulement les formules peuvent être alors
codées, mais aussi les déductions (qui ne sont jamais que des suites finies de formules). Prenons par
exemple les deux lignes suivantes :
(∃x)( x = sy )
(∃x)( x = s 0)
Elles peuvent figurer dans une déduction à la suite l’une de l’autre parce qu’on peut passer de l’une à
l’autre simplement par application de la règle de substitution : substituer 0 à y dans la première ligne.
Si m est le nombre de Gödel de la première formule et n celui de la deuxième, décidons de former un
nombre de Gödel pour cette suite en prenant les deux premiers nombres premiers restants (par
exemple 2 et 3) et en formant 2m×3n. Soit k le nombre obtenu. Considérons maintenant l’assertion
métamathématique : « la suite de formule de nombre de Gödel x est une démonstration de la formule
de nombre de Gödel z ». Elle s’exprime par une relation arithmétique entre le nombre x et le nombre z.
Par exemple, dans le cas des deux lignes précédentes, nous avons une telle relation entre k et n,
s’exprimant par k = 2m×3n. Notons Dem cette relation arithmétique (entre nombres, donc). Admettons
que cette relation soit bien définie (Gödel la définit explicitement, ce qui n’est bien sûr pas
particulièrement facile). Nous avons la situation suivante : l’assertion métamathématique « la suite de
formule de nombre de Gödel x est une démonstration de la formule de nombre de Gödel z » est
représentée (« reflétée ») dans le système par la relation purement interne qui s’écrit : Dem(x, z).
Donc, cette relation possède elle-même un nombre de Gödel. Et il en est de même pour sa négation
¬Dem(x, z), ainsi que pour la formule quantifiée universellement : (∀x)¬Dem( x, z ) qui signifie
qu’il n’existe aucune démonstration de la formule de nombre de Gödel z (autrement dit, celle-ci est
indémontrable).
Imaginons maintenant que nous ayons une certaine formule ϕ incluant une variable libre y, que ϕ ait le
nombre de Gödel m, y le nombre de Gödel p. On peut substituer n’importe quel symbole de nombre
(c’est-à-dire un chiffre !) à y et on obtient alors une formule ayant un autre nombre de Gödel. Notons
sub(m, p, q) le nombre de Gödel de la formule obtenue en substituant à la variable de nombre de
Gödel p dans la formule de nombre de Gödel m, le chiffre q.
Considérons maintenant la formule : (∀x)¬Dem( x, sub( y, p, y ))
Cette formule dit que quel que soit x, x ne démontre jamais la formule obtenue en substituant à la
variable de nombre p, au sein de la formule de nombre de Gödel y, cet y lui-même, autrement dit, la
formule obtenue de cette manière n’est pas démontrable, ou encore : la formule de nombre de Gödel
sub(y, p, y) n’est pas démontrable. Mais cette formule elle-même (qui traduit l’énoncé
métamathématique précédent au sein du système) possède un nombre de Gödel ! Soit n, ce nombre, et
substituons n à y dans la formule précédente. Il vient :
(∀x)¬Dem( x, sub(n, p, n))
Soit G cette formule. Quel est son nombre de Gödel ? souvenons-nous de la manière dont elle a été
obtenue : on l’a obtenu en substituant au sein de la formule portant le nombre de Gödel n, à la variable
de nombre de Gödel p, le chiffre pour n, or cela correspond exactement à la définition du nombre
sub(n, p, n). Ainsi la formule G : (∀x)¬Dem( x, sub(n, p, n)) a pour nombre de Gödel sub(n, p, n).
Par ailleurs G est la représentation dans le système de l’assertion métamathématique selon laquelle « la
formule qui porte le nombre de Gödel sub(n, p, b) n’est pas démontrable ». Donc G dit d’elle-même
qu’elle n’est pas démontrable.
Gödel démontre ensuite que : si G est démontrable, alors ¬G est aussi démontrable. En effet, si G est
démontrable, on peut trouver une suite de formule de nombre de Gödel k, telle qu’on ait : Dem(k,
sub(n, p, n)). On peut prouver que si la relation Dem(x, z) existe entre deux nombres, alors cette
relation est démontrable. Il en résulte que Dem(k, sub(n, p, n)) est démontrable, d’où il suit que
¬(∀x)¬Dem( x, sub(n, p, n)) est démontrable, or c’est la formule ¬G. Un raisonnement analogue
amène Gödel à conclure que si réciproquement ¬G est démontrable, alors G l’est aussi. D’où la
situation selon laquelle G et ¬G sont toutes les deux démontrables, ce qui rend le système incohérent
(ou inconsistant). Si le système est consistant, ni G, ni ¬G ne sont donc démontrables, et nous avons
trouvé un système comportant une proposition indécidable. Mais ce n’est pas tout, encore faut-il
s’assurer que G est vrai si on veut bien obtenir le fait qu’il existe une proposition vraie non
démontrable, ce qui permettra d’affirmer l’incomplétude du système.
Nous avons démontré que G n’est pas démontrable : or, c’est justement ce que dit G ! Donc G est
vrai ! d’où le théorème : si l’arithmétique est consistante, elle est incomplète.
Mais l’arithmétique est-elle consistante ?
Dire qu’une théorie est consistante, c’est dire qu’il y a au moins une formule de son langage qui n’est
pas démontrable (cela est équivalent à la cohérence). Or, cela s’exprime parfaitement dans notre
système, par la formule (∃y )(∀x)¬Dem( x, y ) . De même l’incomplétude s’exprime par la formule G.
L’énoncé « si l’arithmétique est consistante, elle est incomplète » s’exprime donc dans le système par
une formule assez simple :
(∃y )(∀x)¬Dem( x, y ) ⇒ (∀x)¬Dem( x, sub(n, p, n))
que nous résumons simplement par : « A ⇒ G ». Gödel prouve que cette formule est formellement
démontrable. Mais alors, on voit la conséquence qui s’ensuit : si jamais A était formellement
démontrable, alors par règle du modus ponens, G le serait ! Résultat : A ne peut pas être démontré
dans la théorie de l’arithmétique elle-même.
D’où le deuxième théorème : la non-contradiction de l’arithmétique formelle ne peut pas être
démontrée à l’intérieur d’elle-même.
Cela ne veut pas dire qu’elle ne peut pas être démontrée, cela signifie simplement que si on veut la
démontrer, il faudra se placer dans un système strictement englobant et utiliser des méthodes de
déductions non autorisées dans les Principia, c’est-à-dire des méthodes non finitistes, non
« hilbertiennes ». C’est en cela que le théorème de Gödel ruine effectivement le programme de
Hilbert.
Téléchargement