Cours n°4 LOGIQUE ET MATHEMATIQUES - 2 1- La théorie des types logiques de Russell Plus que rejeter ce genre de proposition parce que menant à des paradoxes, Russell va introduire toute une prophylaxie pour éviter les paradoxes et c’est ce qu’on appelle sa théorie des types. Reportonsnous au texte que Russell écrivit en 1910, dans la Revue de Métaphysique et de Morale, et qui porte justement le titre « la théorie des types logiques », parce que ce texte contient en germe un certain nombre d’innovations qui vont être développées par la suite. « Il est admis que les paradoxes à éviter résultent tous, dit Russell, d’un certain genre de cercle vicieux. Les cercles vicieux en question proviennent de ce que l’on suppose qu’une collection d’objets peut contenir des membres qui ne peuvent justement être définis qu’au moyen de la collection, prise dans sa totalité ». Ainsi lorsque j’affirme « toutes les propositions sont vraies ou fausses », je fais comme si l’ensemble de toutes les propositions m’étaient connues, mais au moment où j’affirme cela, j’énonce justement une proposition. Cette proposition peut très bien déjà appartenir à cet ensemble et en ce cas je dis quelque chose d’elle-même, à savoir qu’elle est vraie ou fausse. Ce faisant, j’ouvre une alternative : ou bien elle est vraie et nous obtenons bien ce que nous avons l’intention d’exprimer, ou bien elle est fausse, ce qui signifie qu’il existe des propositions ni vraies ni fausses, et peut-être justement celle-là, mais nous n’avons aucun moyen de choisir, et finalement notre souhait de poser un jugement échoue. C’est la raison pour laquelle il est si difficile de formuler une logique du second ordre (c’est-à-dire une logique où on pourrait quantifier sur des variables propositionnelles, de manière à obtenir des énoncés tels que : « ∀p p ⇔ p »). Russell conclut : « nous devrons donc dire que les affirmations concernant « toutes les propositions » sont sans signification ». « Plus généralement, donnons-nous un groupe d’objets tels que ce groupe, étant capable par hypothèse d’être totalisé, doive d’autre part contenir des membres qui présupposent cette totalité, alors, ce groupe ne peut pas être totalisé. En disant qu’un groupe ne peut être totalisé, nous voulons dire surtout qu’aucune affirmation ayant un sens ne peut être faite concernant « tous ses membres ». […] Dans de tels cas, il est nécessaire de décomposer notre groupe en groupes plus petits dont chacun soit capable d’être totalisé. C’est ce que la théorie des types s’efforce d’effectuer ». Comme nous venons de le suggérer au paragraphe précédent avec l’exemple « ensembliste », Russell montre que ce ne sont pas seulement les propositions qui se comportent de cette manière, mais aussi les fonctions propositionnelles, c’est-à-dire les fonctions qui contiennent une variable x et qui expriment une proposition chaque fois qu’une valeur est assignée à x. Pour cela, il doit analyser le concept de fonction. Lorsque nous écrivons « ϕx », cette forme est ambiguë, ou dit autrement, elle dénote de façon ambiguë ϕa, ϕb, ϕc etc. où ϕa, ϕb, ϕc, etc sont les diverses valeurs de « ϕx ». Il ne s’agit pas de « la fonction en elle-même ». Nous pouvons regarder, dit Russell, « la fonction en ellemême comme ce qui dénote de façon ambiguë, tandis qu’une valeur indéterminée de la fonction est ce qui est dénoté de façon ambiguë. Si la valeur indéterminée de la fonction s’écrit « ϕx », nous écrirons la fonction en elle-même « ϕ x̂ ». C’est ainsi que nous dirions « ϕx est une proposition » et d’autre part « ϕ x̂ est une fonction propositionnelle » ». On doit noter ici que cette distinction est justement celle qu’exploitera plus tard A. Church, dans les années 1936, pour inventer son calcul fonctionnel : le λ-calcul, dont nous reparlerons plus loin. Avec les notations introduites par Church, la différence réside entre ϕ(x) et λx. ϕ(x). Nous écrirons donc désormais « λx. ϕ(x) » à la place de « ϕ x̂ ». Supposons maintenant que « f(λx. ϕ(x)) signifie « la fonction λx. ϕ(x) n’est pas satisfaite si on la prend elle-même comme argument », autrement dit signifie : « ϕ(λx. ϕ(x)) est faux » et étudions ce qu’il en est de λϕ. f(ϕ), lorsqu’on la donne comme argument à f, autrement dit cherchons si f(λϕ. f(ϕ)) est vrai ou faux. Si f(λϕ. f(ϕ)) est vrai, cela signifie, de par la définition de f, que « la fonction λϕ. f(ϕ) n’est pas satisfaite si on la prend elle-même comme argument », autrement dit que ϕ(λx. ϕ(x)) est faux, et de même si f(λϕ. f(ϕ)) est faux, cela signifie que « il est faux que f(λϕ. f(ϕ)) soit faux », d’où il suit que f(λϕ. f(ϕ)) est vrai. Là encore, le problème sera « résolu » si on admet que ϕ(λx. ϕ(x)) n’a tout simplement pas de sens, autrement dit si on admet qu’une fonction ne peut en aucun cas avoir pour argument elle-même, ou plus généralement quelque chose qui présuppose qu’on a déjà construit l’ensemble de ses valeurs (de manière à ce qu’elle soit totalement définie). « Aucune fonction ne peut compter parmi ses valeurs quelque chose qui présuppose la fonction » dit Russell, et on appelle « imprédicativité » le cas où ce principe n’est pas respecté1. Si nous conservons encore l’idée « naïve » selon laquelle une fonction peut s’appliquer à n’importe quel genre d’argument (y compris elle-même donc), nous sommes confrontés à de nombreux problèmes. Par exemple, Russell introduit les quantificateurs. « Nous dénoterons, dit-il, par le symbole « (x) . ϕ(x) » la proposition « ϕ(x) toujours » », autrement dit : « ϕ(x) pour toute valeur de x ». Alors, sans restriction, cette proposition englobe la fonction λx. ϕ(x) elle-même. Comme (x) . ϕ(x) englobe la fonction ϕ(x), on ne peut pas non plus la donner comme argument de ϕ, de sorte que ϕ((x) . ϕ(x)) est dépourvu de sens. Ce principe semble à première vue admettre quelques exceptions. Ainsi, supposons que ϕ s’interprète comme « _ est faux », alors on pourrait bien avoir : « {(x) . x est faux} est faux ». On est donc tenté de dire que lorsque nous écrivons λx. ϕ(x), il y a deux types de valeurs assignables à x : celles pour lesquelles le résultat possède un sens et celles pour lesquelles il n’en possède pas. Admettons donc désormais que ce qui est affirmé par « (x) . ϕ(x) » ce soient toutes les propositions qui constituent toutes les valeurs à comprendre sous λx. ϕ(x), autrement dit celles pour lesquelles l’application donne un sens, alors la proposition « (x) . x est faux » ne concernera que les propositions qui sont des valeurs à comprendre sous « λx. x est faux », donc seulement certaines propositions, celles qui appartiennent à un « premier genre ». Mais s’il en est ainsi, et puisque, de manière évidente la proposition « (x) . x est faux » ne fait pas partie de ces propositions de premier genre, mais est néanmoins une proposition, il faudra avoir un autre prédicat « être faux » qui convienne à son genre spécifique, et ainsi de suite. Cela n’est possible dit Russell « que si le mot « faux » a en réalité plusieurs sens différents, appropriés aux propositions de genres différents » ! Nous voilà donc amenés avec Russell, à la construction d’une hiérarchie des entités logicomathématiques, possèdant comme contre-partie l’idée que les concepts usuels de la logique euxmêmes se fragmentent : on aura ainsi des mots « vrai » et « faux » ayant des sens différents selon le genre des objets auxquels ils s’appliquent, mais aussi des connecteurs (« et », « ou », « pour tout », « il existe ») qui se différencient selon les genres d’objets auxquels ils s’appliquent ! La hiérarchie démarre avec des lettres qui dénoteront des objets qui ne sont ni des fonctions ni des propositions : a, b, c, x, y, z, w… Ces objets seront appelés individus ; « ils seront les constituants des propositions et fonctions, vrais constituants, en ce sens que l’analyse ne les résout pas comme, par exemple, les classes ou les phrases telles que « le tel-ou-tel » ». A partir de là, nous aurons des fonctions qui s’appliquent à de tels objets et à eux seulement : on les appelle fonctions du premier ordre. Ayant obtenu ces objets, on peut maintenant eux-mêmes les noter par une désignation particulière. Une fonction du premier ordre quelconque sera notée « ϕ ! x^ » ou, avec notre notation lambda : « λx. ϕ ! x ». Une valeur quelconque d’une telle fonction : ϕ ! x, est en réalité une fonction de deux variables : λz. ϕ ! z, et x, donc λx. ϕ ! x contient une variable qui n’est pas un individu, à savoir λz. ϕ ! z. Ainsi, si nous considérons l’expression : « ϕ ! x implique ϕ ! a pour toutes valeurs possibles de ϕ » 1 De fait, l’évolution des mathématiques montrera qu’il est particulièrement difficile, voire impossible, d’éviter tout recours à des notions imprédicatives. Le raisonnement par récurrence (ou « principe d’induction complète ») par exemple suppose en préalable l’existence de l’ensemble des nombres entiers qu’il contribue à définir. on a une fonction, qui n’est pas de la forme ϕ ! x (c’est-à-dire une fonction du premier ordre) car elle contient une variable apparente ϕ qui n’est pas un individu. Néanmoins elle exprime quelque chose à propos de x : à savoir que toutes les propriétés (du premier ordre) de x sont des propriétés de a. Nous parlerons alors de fonctions (ou propriétés) du second ordre, et ainsi de suite. Il devient dans ces conditions difficile d’exprimer le fameux postulat des indiscernables, dû à Leibniz. Pouvons-nous continuer à dire que « si toutes les propriétés possédées par x sont également possédées par y et réciproquement, alors x et y sont identiques » ? Certainement pas, puisque désormais la notion même de « toutes les propriétés de x » n’a plus de sens et que nous ne pouvons que faire référence aux propriétés correspondant à des prédicats d’un même niveau dans la hiérarchie. Ainsi cela a un sens de dire que « tous les prédicats du premier ordre possédés par a sont aussi des prédicats du premier ordre possédés par b et réciproquement », mais est-ce suffisant ? Non, puisqu’il y a des propriétés de différents ordres (par exemple la propriété pour x « d’avoir toutes les propriétés d’un grand général » est une propriété de x, ce n’est pas une propriété du premier ordre), d’où la nécessité de stratifier le concept d’identité lui-même, d’évoquer une identité de x et de y au premier ordre, une autre au second ordre et ainsi de suite… ce qui n’est guère satisfaisant ! Or, le raisonnement nous conduit à cela. D’ailleurs Leibniz lui-même rencontrait, peut-être sans le voir, le problème de l’imprédicativité dans sa formulation même du principe d’identité, car a priori, le fait d’être identique à x, pour x, est nécessairement une propriété de x. Donc en définissant l’identité de x et de y comme la possession des mêmes propriétés, il enveloppait déjà parmi ces propriétés ladite identité, autrement dit la fonction « identité » se suppose déjà elle-même comme totalité construite. Il faut donc nécessairement entendre en un sens restreint les propriétés communes qui rendent les choses indiscernables. L’échappatoire, car il en existe encore un ( !), réside dans ce que Russell nomme l’axiome de réductibilité. Si nous prenons un exemple2 comme : « Napoléon a eu toutes les qualités qui font un grand général » comme dit précédemment, cette propriété n’est pas de premier ordre. Pourtant, cela ne veut pas dire qu’il n’y ait aucun prédicat (du premier ordre) commun à tous les grands généraux et à eux seuls. Chaque grand général a nécessairement une propriété du premier ordre que ne possède aucun autre homme (par exemple être né à tel instant précis). Prenons ces propriétés et faisons-en la disjonction, nous obtenons un prédicat du premier ordre λz.ψ !z, et la phrase précédente exprime simplement le fait que Napoléon possède cette propriété du premier ordre. L’axiome de réductibilité exprime simplement l’idée qu’un tel prédicat existe toujours. Ainsi nous avons toujours un moyen de rabattre une collection arbitraire de propriétés sur un prédicat du premier ordre, parvenant ainsi à faire s’anéantir les distinctions de niveaux dans la hiérarchie des notions. On peut alors se contenter d’une interprétation « simple » du principe d’identité et admettre simplement que si deux individus satisfont aux mêmes prédicats du premier ordre alors ils sont identiques. L’identité à soi-même s’écrit dans ce cas : λx. λy. (ϕ) {ϕ ! x ⇔ ϕ ! y} Il faut supposer que c’est une propriété du second ordre non réductible, empêchant par là-même qu’elle soit incluse dans l’ensemble des propriétés ϕ dont il est question. En procédant de la sorte, Russell sauve la logique et du même coup, pense-t-il, les mathématiques, du paradoxe. Cela permet selon lui, d’assurer le fondement des mathématiques sur la logique. Malheureusement pour lui, les mathématiques (et surtout les mathématiciens !) ne vont pas tellement lui en savoir gré : la lourdeur du système, la fragmentation des concepts logiques en autant d’instances que d’ordres dans la hiérarchie, même si en dernier ressort, on peut « rabattre » l’interprétation sur un seul niveau au moyen de l’axiome de réductibilité, tout cela va rebuter les mathématiciens, qui vont souvent chercher ailleurs une solution au problème des paradoxes ou tout simplement…. s’en moquer ! Si en effet, les paradoxes perturbent quelques mathématiciens préoccupés de fondements, ils ne vont cependant pas préoccuper tous les mathématiciens. Il semble même qu’en réalité bien peu aient été ou soient préoccupés par une telle question. Le mathématicien Jean Dieudonné (« Pour 2 L’exemple est de Russell, bien entendu ! l’honneur de l’esprit humain ») écrit en 1987 que « l’immense majorité des mathématiciens considèrent les problèmes liés aux paradoxes comme de pseudo-problèmes ». Il reste cependant pour nous, dans notre perspective épistémologique, que cette notion de hiérarchie des types reste profondément liée à une manière de penser philosophique et possède une influence sur nos conceptions particulièrement en sciences humaines, (en sciences cognitives par exemple). La philosophie analytique (et particulièrement un de ses grands représentants dans la première moitié du XXème siècle, Gilbert Ryle) en a fait un grand usage implicite dans le concept abondamment employé « d’erreur de catégorie ». Pour les philosophes analytiques, beaucoup de soi-disant « problèmes philosophiques » ne sont en aucun cas de vrais problèmes. Ils n’apparaissent comme tels qu’à cause de confusions dans le langage, lesquelles résultent la plupart du temps d’un mauvais usage des termes vis-à-vis d’une hiérarchie de catégories. Au lieu de « résoudre » les problèmes en question, la tâche de la philosophie est alors de les dissoudre en opérant une critique du langage servant à les exprimer. On présuppose alors une véritable « grammaire des catégories ». Dans son fameux livre de 1949, The Concept of Mind, Gilbert Ryle s’attaque ainsi au problème fameux des rapports du corps et de l’esprit (ce qu’on appelle dans le monde anglo-saxon, The Mind-Body Problem). Pour lui, les problèmes viennent de ce que l’on s’évertue à considérer que corps et esprit appartiennent à la même catégorie de langage, or il est manifeste qu’on n’applique pas les mêmes prédicats aux deux termes : peut-on poser par exemple la question « combien pèse mon esprit ? ». De telles confusions découlent les tentatives soit de réduire l’un à l’autre (faire des phénomènes mentaux des phénomènes physiques par exemple, comme dans les tentatives courantes de « naturalisation de l’intentionnalité ») soit comme dans le dualisme cartésien, d’établir un pont entre l’un et l’autre, quitte à admettre l’existence « d’un fantôme dans la machine », selon l’expression de Ryle. Wittgenstein doit bien sûr être rattaché à cette manière critique (et démystificatrice) de voir les choses. Sa manière de dissoudre ces soi-disant problèmes peut être assez provocatrice lorsqu’il montre comment des erreurs dans la grammaire des significations peuvent engendrer à elles seules des questions. Certaines sont tout simplement risibles, mais d’autres sont parfois prises au sérieux. (cité par J. Bouveresse, « La parole malheureuse », p. 39) - pourquoi un chien ne peut-il simuler la douleur ? est-il trop honnête ? - pourquoi ma main droite ne peut-elle donner de l’argent à ma main gauche ? est-elle trop avare ? (Recherches philosophiques, §268) - puis-je avoir le mal de dent d’autrui ? puis-je avoir mal à la dent d’autrui ? (Puis-je avoir mal à ma dent en or ?) - puis-je observer ce qui se passe dans l’esprit d’autrui ? puis-je observer ce qui se passe dans l’estomac d’autrui ? - pourquoi une machine ne peut-elle calculer de tête ? Est-ce parce qu’elle n’a pas de tête ? Je donne ici le commentaire de Jacques Bouveresse : « l’humour inconscient de la première question réside à chaque fois dans le fait, brutalement mis en évidence dans la seconde, qu’elle a revêtu l’apparence trompeuse d’une question factuelle ordinaire. Il en est ainsi, pour Wittgenstein, d’un grand nombre de questions métaphysiques : elles donnent l’impression d’avoir un sens et une importance parce qu’elles sont formulées comme des questions d’expérience ; de sorte que nous nous imaginons que nous aurions appris quelque chose de nouveau si nous savions y répondre, alors qu’elles peuvent seulement dans le meilleur des cas nous faire prendre conscience de l’existence d’une règle grammaticale implicite ». Et dans le Tractatus : 4.003 – […] La plupart des propositions et questions de la philosophie reposent sur ceci que nous ne comprenons pas la logique de notre langage. (Ce sont des questions du type : est-ce que le Bien est plus ou moins identique que le Beau ?). Rien d’étonnant à ce que les plus profonds problèmes ne soient pas à proprement parler des problèmes. La dernière des questions listées ci-dessus fait évidemment penser à cette autre : « les machines peuvent-elles penser ? » qui, provenant assez nettement à la base du même type d’erreur de catégorie, n’en continue pas moins depuis plus de cinquante ans d’alimenter la réflexion des philosophes et des informaticiens de l’intelligence artificielle3 ! Tout ceci fait comprendre l’importance de ce qu’on a appelé dans la première moitié du XXème siècle le « tournant linguistique », c’est-à-dire le déplacement des problèmes qui se trouvaient jusqu’alors posés en termes métaphysiques (à propos de « la réalité ») vers des problèmes d’analyse du langage. Si cette étape a été cruciale dans l’histoire contemporaine de la philosophie pour les raisons qu’on vient de voir, elle est quelque peu remise en cause aujourd’hui : toutes les questions ne sont pas des questions de langage, il y a aussi des questions scientifiques ainsi que des questions qui surgissent de l’activité scientifique et sont posés au philosophe et au logicien. 2- Le programme de Hilbert Hilbert attaque les problèmes de paradoxes plus à partir d’une position de mathématicien qu’il est (et même sûrement le plus grand de son siècle) que d’une position de philosophe. Pour lui, comme d’ailleurs pour son collègue Brouwer, à qui on l’oppose souvent, les problèmes viennent de l’infini. Nous avons vu plus haut le paradoxe de Burali-Forti : il découlait du transfini. De la même manière, on peut penser que le paradoxe de Russell vient de ce qu’on ne sait pas maîtriser un ensemble aussi grand (nécessairement infini !) que « l’ensemble de tous les ensembles ». En somme, on pourrait dire que ces mathématiciens prônent un « retour » à Aristote, dont on sait qu’il n’acceptait l’infini qu’en tant que potentiel, et non comme infini actuel. Or, toute la construction de Cantor en théorie des ensembles repose sur l’admission définitive de l’infini actuel. On peut évidemment comparer cette audace avec la frilosité des philosophes nominalistes qui répugnent à accepter l’existence d’autres choses que des entités individuelles. Cantor, non seulement accepte l’existence d’ensembles, d’ensembles d’ensembles, d’ensembles d’ensembles d’ensembles etc. mais aussi d’ensembles infinis. Où, dans quel ciel se logent-ils ? bien sûr, on n’a eu de cesse d’attribuer à Cantor une position platonicienne : on a parlé du « paradis de Cantor » pour désigner ce lieu d’abstractions. Or, Hilbert, tout en reconnaissant l’importance de l’œuvre de Cantor (« on ne doit pas être chassé du paradis cantorien » dit-il) refuse un recours direct à l’infini. Il aimerait que ces recours ne soient que des façons de parler dont on puisse éventuellement se passer, autrement dit qu’on puisse réduire les raisonnements portant sur l’infini à des raisonnements « finitistes ». Se basant sur les travaux de Weierstrass que nous avons mentionnés plus haut, il dit ceci : « Certes Weierstrass a éliminé de l’Analyse l’infiniment petit et l’infiniment grand puisque les propositions portant sur ces objets ont été réduites par lui à l’énoncé de rapports entre des grandeurs finies. Mais l’infini continue d’être présent : il prend la forme de suites infinies de nombres qui définissent les nombres réels, ou bien il est sous-jacent à la notion de système des nombres réels conçue comme une totalité achevée et fermée. Or dans la reconstruction même de l’analyse de Weierstrass, on se donne le droit d’utiliser à fond et d’itérer à volonté les formes d’inférence logique dans lesquelles s’exprime cette conception des totalités : c’est le cas, par exemple, lorsqu’on parle de tous les nombres réels qui ont une certaine propriété, ou bien encore lorsqu’on dit qu’il existe des nombres réels ayant une certaine propriété. Ainsi l’infini pouvait-il intervenir d’une manière déguisée dans la théorie de Weierstrass et rester hors des atteintes de sa critique. Il s’ensuit que c’est le problème de l’infini qu’il nous faut résoudre. Dans les processus de passage à la limité du calcul infinitésimal, l’infini au sens de l’infiniment grand ou de l’infiniment petit s’est révélé constituer une simple manière de parler : de même nous devrons reconnaître dans l’infini au sens de totalité infinie, partout où il joue encore un rôle dans les inférences, quelque chose de purement fictif. De même que les opérations portant sur l’infiniment petit ont été remplacées par des processus qui accomplissent la même fin et conduisent à des rapports formels aussi élégants tout en se situant à l’intérieur de la sphère du fini, les inférences qui utilisent l’infini sont à remplacer par des processus finis qui accompliront exactement la même fin c’est-à-dire permettront les mêmes démarches dans les démonstrations et les mêmes méthodes d’obtention des formules et des théorèmes. 3 Penserait-on à poser la question : « les machines peuvent-elles digérer ? » Tel est l’objet de ma théorie. Elle a pour dessein d’assurer la sécurité définitive de la méthode mathématique, sécurité à laquelle n’a pas atteint la période de la critique du calcul infinitésimal. » (« Über das Unendliche », 1925, Math. Annal. 95, 1926, trad. J. Largeault, 1972) Rétrospectivement, la démarche hilbertienne nous semble très « positiviste ». Elle est en tout cas représentative d’une vision de la science, très liée aux progrès scientifiques du début du XXème siècle, qui refuse tout concept qui ne désignerait pas une entité palpable (et en particulier la référence à un « sens ») : « la condition préalable de l’application des inférences logiques et de l’effectuation d’opérations logiques est l’existence d’un donné dans la perception : à savoir l’existence de certains objets concrets extra-logiques qui en tant que sensations immédiates précèdent toute pensée. Pour que le raisonnement logique soit sûr, il faut que ces objets soient perçus dans toutes leurs parties et que leur occurrence, leur caractère distinct, leur succession ou leur juxtaposition se présentent à l’intuition en même temps que ces objets, comme quelque chose d’immédiat et qui ne se réduit pas ou n’a pas besoin d’être réduit à quoi que ce soit d’autre ». Pour les mathématiques, selon Hilbert, ces objets sont les signes concrets, ceux dont nous savons « distinguer et reconnaître la forme ». Une telle affirmation peut sembler curieuse : on s’attendrait à un autre statut des objets mathématiques qu’une réduction à des marques concrètes. En tout cas, au commencement même de la méthode appliquée par Hilbert, les objets mathématiques, en particulier les nombres, sont des signes vides de sens, et les formules sont également des suites de signes vides de sens. Une telle évacuation de toute signification a priori est caractéristique de l’attitude positiviste : on la retrouvera bien sûr dans d’autres domaines de la science, notamment dans le behaviourisme en psychologie. Hilbert écrit : « En arithmétique nous avons à notre disposition des chiffres |, ||, |||, ||||, … et chaque tel chiffre est identifiable grâce au fait qu’il se présente sous la forme d’une suite de |. Ces chiffres n’ont en soi aucun sens ». Si par la suite nous employons des symboles tels que 2, 3 etc. voire des lettres représentant des chiffres particuliers : a, b, c, c’est à seule fin de communication. L’emphase mise par Hilbert sur la notion de « chiffre » et non sur celle de « nombre » est à cet égard significative : comme si nous ne faisions des mathématiques que sur des signifiants (des marques) et non sur des signifiés : ce à quoi ces marques renvoient, qui est certes souvent indéterminé – réalité abstraite ? « idéalité » ? entité mentale ? - mais néanmoins apparaît comme étant motivation à avancer dans la mathématique. Quel est le statut d’une formule qui contient des variables désignées par des lettres ? la réponse de Hilbert est : « il s’agit de propositions idéales ». Il réagit en mathématicien conscient de ce que, malgré tout, des innovations qui a priori ne tombaient pas sous le sens immédiat, n’étaient pas des objets de perception immédiate, comme les nombres imaginaires en algèbre, les points idéaux en géométrie ou les idéaux en arithmétique ont apporté aux mathématiques des progrès considérables en permettant de donner aux théories des formes simples et élégantes. Ainsi le statut d’une formule comme « a + b = b + a » est-il celui d’un objet idéal (analogue selon Hilbert aux imaginaires de l’algèbre) qui nous permet de conserver l’applicabilité des lois de la logique (d’Aristote !) au-delà du domaine simple et « empirique » fourni par les relations incluant des chiffres. Par exemple, si nous connaissons un nombre premier très grand, p, un théorème, dû à Euclide est qu’il existe nécessairement un autre nombre premier situé entre p + 1 et p ! + 1. On peut alors dire qu’il existe un nombre premier p’ entre p + 1 et p ! + 1, au sens où cette phrase est une abréviation pour une disjonction finie qui est : « p + 1 est premier » ou « p + 2 est premier » ou … ou « p ! + 1 » est premier. Il s’agit là d’une proposition « finitiste ». Or, nous utilisons ce théorème pour affirmer qu’il existe un nombre premier p’ tel que p’>p, mais dans ce dernier cas, nous n’avons plus une proposition finitiste, le « il existe » n’est plus l’abréviation d’une disjonction finie. Il s’agit là d’un passage à l’infini qui, en principe est dénué de sens, sauf à prendre des précautions particulières. Ce sont ces précautions que Hilbert veut préciser dans son programme. Autrement dit : quand pouvonsnous, quand avons-nous le droit d’exprimer des existences ne se ramenant pas à des disjonctions finies de cas ? La question mérite d’autant plus d’être posée selon Hilbert, que le problème est encore plus grave avec des assertions du genre « a + 1 = 1 + a » dont on ne pourrait pas en principe considérer la négation puisque celle-ci se traduirait justement par un « il existe » infinitaire. Or il ne fait aucun doute que nous avons besoin d’exercer notre droit à la négation quand bon nous semble. Pour cela, il faut donc ajouter les prétendues « propositions idéales », exactement comme on a introduit des imaginaires en mathématiques afin de continuer uniformément les opérations de l’algèbre (trouver les racines d’un polynôme) même lorsque la simple considération des nombres connus (les réels) ne le permettait pas. Il convient cependant d’encadrer strictement ces objets idéaux, en les enfermant dans des raisonnements contrôlés et surtout de vérifier à chaque pas que l’adjonction des éléments idéaux ne crée pas de contradiction. Le calcul logique est alors vu (pour la première fois ?) comme une machinerie fonctionnant sur des signes explicitement dépourvus de sens. Une démonstration est un être fini qui enchaîne des formules pour passer d’un ensemble de formules à une formule dite « conclusion ». Afin de contrôler ce qui se passe à chaque étape, on ne peut utiliser que des règles et des axiomes dont on est absolument sûr : pas question par exemple « d’axiome du choix » ou de « principe d’induction transfinie ». Pour Hilbert, la seule règle est la règle du modus ponens (ou règle du détachement) et les axiomes sont : 1. Axiomes de l’implication A → ( B → A) : adjonction d’une prémisse ( B → C ) → (( A → B) → ( A → C )) : élimination d’une proposition 2. Axiomes de la négation ( A → ( B ∧ B)) → A : principe de contradiction A → A : principe de la double négation 3. Axiomes « transfinis » (a) A(a ) → A(b) : inférence du général au particulier (axiome d’Aristote) (a)A(a) → ( Ea) A(a) : si un prédicat n’est pas vrai de tous, alors il a un contreexemple ( Ea)A(a) → (a) A(a) : s’il n’existe pas d’exemple pour une proposition, alors cette proposition est fausse pour tous les a 4. Axiomes de l’égalité a=a a = b → ( A(a) → A(b)) 5. Axiomes du nombre a +1 ≠ 0 Axiome de l’induction mathématique : A(0) ∧ ((a)( A(a) → A(a + 1))) → (a) A(a) Voilà donc à quoi, « en principe » se résument les mathématiques. Insistons sur le fait que ce système doit surtout permettre d’établir des démonstrations de non-contradiction. Celles-ci consistent simplement à prouver formellement que 1 ≠ 1 ne peut pas s’obtenir. « Une démonstration formelle constitue un objet concret et visualisable, exactement comme un chiffre. C’est quelque chose de communicable du début à la fin », autrement dit, une telle démonstration n’est pas contestable : tout un chacun peut la refaire et constater pas après pas qu’elle obéit aux règles et si lesdites règles font l’assentiment de tous alors il n’y a aucune raison de douter. Il s’agit bien là d’un idéal, l’idéal du formalisme en mathématiques, mais qui, comme on le constate, par bien des côtés recoupe l’idéal du positivisme scientiste : un résultat est prouvé s’il peut être obtenu autant de fois qu’on veut en refaisant les mêmes gestes d’expérimentation. Chacun pourra constater de visu que le résultat acquis est correct. Cette attitude, toute rationnelle qu’elle semble, comporte cependant un acte de foi extraordinaire : la certitude que toute vérité mathématique pourra s’obtenir d’une manière entièrement mécanisable, par des suites finies de pas utilisant toujours les mêmes règles. Autrement dit, en termes actuels, l’idée que toute vérité est « récursive » (qu’elle peut être obtenue au bout d’un temps fini par l’application de règles dans un système formel). Or, c’est justement cet espoir que le fameux théorème de Gödel va détruire. D’autre part, l’idée selon laquelle les mathématiques traiteraient, au même titre supposé que les autres sciences (ce qui reste à voir bien entendu), « d’objets concrets », spatialement manipulables comme des suites de bâtons et de lettres dépourvues de signification peut légitimement choquer. Si elles étaient effectivement cela et rien que cela, on expliquerait difficilement pourquoi certains d’entre nous trouvent assez de motivation pour se livrer à une activité mathématique. Cavaillès insistera à mon avis fort justement sur le fait que la symbolisation telle qu’elle apparaît dans un système formel lorsqu’on remplace des entités (par exemple « les chiffres ») par des lettres, n’est qu’un moment dans le procès de mathématisation : on cristallise à un moment donné un ensemble d’actes afin de mieux pouvoir continuer à accomplir de tels actes, mais on ne sait ni où ni quand une telle suite d’actes prend son origine. Considérer les mathématiques comme une sorte de système de tous les systèmes formels au sens de Hilbert, c’est prendre ce moment arbitraire de la symbolisation comme moment fondamental et originaire et rabattre une suite infinie d’actes sur un ensemble fini de symboles. Ici apparaît bien la signification du « finitisme » de Hilbert : prendre la texte (symboles, suites de symboles, formules, axiomes etc.) qui est nécessairement fini pour le tout (infini) des processus de pensée qui se cristallisent dans l’activité mathématicienne. Cette question est aussi celle que rencontrent aujourd’hui les gens qui se penchent sur « la mathématisation » en général. Celle-ci est-elle une simple « application » d’une théorie formelle préexistante à un donné supposé « concret » ou bien n’est-elle pas plutôt une dynamique dont le départ est inassignable et qui s’incorpore à soi-même au cours du temps de plus en plus d’objets ? Autrement dit, partons-nous d’une « réalité » déjà constituée pour en rendre compte par des mathématiques, ce qui est une manière d’introduire les mathématiques dans le monde ou bien au contraire nous plaçons-nous d’emblée dans un enchaînement d’actes mathématiques qui vise à terme à « l’incorporation du monde à l’univers scientifique » (Cavaillès) autrement dit à introduire le monde dans les mathématiques ? 3- Brouwer et l’intuitionnisme Bien que Hilbert et Brouwer soient des adversaires irréductibles, il est cependant légitime de les rapprocher car le point de départ de leur réflexion est semblable : il réside dans la même méfiance à l’égard d’une logique (on disait aussi beaucoup « logistique ») qui s’appliquerait aux mathématiques de manière incontrôlée. Mais alors que Hilbert évolue dans un sens positiviste, en voulant partir d’une considération des objets mathématiques limitée à des marques concrètes, accessibles à nos sens, et en cherchant à enfermer le raisonnement dans des formes contrôlées, Brouwer se révèle quant à lui idéaliste et kantien en voyant dans les mathématiques une science portant sur des intuitions transcendantes, et de ce fait, manifeste une méfiance à l’égard de la logique bien plus radicale encore, qui va notamment s’exercer à l’encontre du principe du tiers-exclu. Pour Brouwer, le recours à la logique et aux structures linguistiques est étranger aux mathématiques et risque de les faire dévier de leur route. Or, c’est cela que prônent les formalistes, Hilbert en tête. Il rejoint en cela Poincaré, qui cherche à mettre en évidence « l’intuition du nombre pur » et n’a que mépris pour ce qu’il appelle la « logistique ». Les objets mathématiques brouwériens, loin d’être des marques écrites couchées sur du papier, sont le résultats de processus de pensée fondamentaux. La caractérisation qu’il en donne n’est pas exempte d’un certain caractère nébuleux ( !) : « le premier acte de l’intuitionnisme sépare entièrement les mathématiques de la langue mathématique, en particulier des phénomènes de langage décrits par la logique symbolique. Il reconnaît que les mathématiques constituent une activité de l’intellect sans langage, activité qui prend son origine dans le phénomène fondamental de perception d’un glissement de temps, lequel est la scission d’un moment de vie en deux objets distincts, dont l’un ouvre la voie à l’autre, mais est conservé par la mémoire. Si la deux-ité ainsi créée est dépouillée de toute qualité, alors demeure le substrat commun à toutes les deux-ités, la création mentale de la deux-ité vide. Cette deux-ité vide, les deux unités dont elle est composée, constituent les systèmes mathématiques de base. Et l’opération fondamentale de construction mathématique est la création mentale de la deux-ité formée de deux systèmes mathématiques déjà acquis, ainsi que l’étude de cette deux-ité considérée comme un système mathématique nouveau » (Points et espaces, annexe II de Intuition et intuitionnisme, p. 197). Dans cette perspective, le raisonnement logique montre son insuffisance : « les raisonnements logiques effectués indépendamment de la perception, attendu qu’ils sont les signes de transformations mathématiques à l’intérieur du système mathématique qui régit les perceptions, peuvent déduire, de prémisses scientifiquement admises, des conclusions inacceptables ». Pour Brouwer, l’erreur est de prendre le signe pour la chose : la chose, à la différence du signe, n’a aucune raison d’obéir à une logique. « la fonction des principes logiques n’est pas de diriger les raisonnements mathématiques appliqués à des réalités empiriques, mais de décrire, dans le langage des raisonnements, les régularités qui ont été obéies. Si on s’exprime en langage en suivant ces réalités, et en perdant le contact de systèmes mathématiques, on court le risque de paradoxes tels que l’Epiménide ». Et il ajoute : « On peut démontrer que ces paradoxes résultent de la même méprise que l’Epiménide, c’est-à-dire qu’ils naissent là où la régularité du langage qui accompagne les mathématiques est étendue à un discours composé de mots mathématiques que n’accompagne pas de mathématique. ; qu’en outre la logistique s’occupe elle aussi de langage mathématique au lieu de s’occuper de la mathématique elle-même ; qu’enfin tous les paradoxes s’évanouissent si on se borne à parler de systèmes explicitement constructibles à partir de l’intuition originaire, i.e. si, au lieu de faire présupposer les mathématiques par la logique, on fait présupposer les mathématiques par la logique ». Le mathématicien hollandais est, comme nous le voyons, aux antipodes de Frege ou de Russell, avec leur grand projet de réduction des mathématiques à la logique : il faudrait plutôt, selon l’intuitionnisme faire l’inverse, c’est-à-dire ne faire de la logique que dans le cadre de constructions mathématiques dûment constatées. Autrement dit, les principes logiques du langage ordinaire, syllogisme, non-contradiction et tiers-exclu, doivent faire l’objet d’un examen si on veut les appliquer aux mathématiques. Le problème majeur est pour le tiers-exclu : dans l’optique de Brouwer, celui-ci revient à supposer que lorsqu’on construit un objet mathématique (une suite, une structure, une démonstration), ou bien cette construction peut être menée à son terme ou bien il apparaît un obstacle qui empêche de la poursuivre. Or, il n’y a rien d’évident à cela. Pourquoi un jour ne commencerions-nous pas une telle construction sans pouvoir la terminer (pour une raison de continuation infinie par exemple) mais sans non plus qu’il apparaisse quelque obstacle nous interdisant de la poursuivre ? Admettre d’emblée et d’autorité le tiers-exclu revient à exclure d’avance un tel cas et donc à présupposer que tout problème mathématique formulé dans un système donné possède une solution (« la question de la validité du tiers-exclu équivaut donc à celle de la possibilité de problèmes mathématiques non résolubles »). Certes, cela est bien le cas quand on étudie des systèmes finis. Les problèmes arrivent avec les systèmes infinis. Poincaré prétend qu’ils se résolvent grâce au principe d’induction, mais pour Brouwer cette méthode n’est concluante que pour les propriétés des entiers sur lesquelles on a pu montrer que ce principe s’applique, or rien n’autorise à penser que tout système infini se prête à l’application de ce principe. Ceci ne doit pas nous conduire à rejeter le principe du tiers-exclu comme « faux » : ce serait justement appliquer le principe qu’on voudrait rejeter ! Dire que le principe du tiers exclu est faux serait dire qu’une construction peut être à la fois possible et impossible, ce qui est contraire au principe de non-contradiction. On se contentera de dire qu’il est « non contradictoire » (donc ni vrai ni faux à proprement parler) ou, dira Brouwer plus tard, que « son absurdité est absurde ». Ainsi fait-on apparaître une différence entre vrai et non contradictoire, deux notions que les formalistes identifient. Brouwer, de lui-même, n’aurait jamais accepté que ses idées sur la logique soient systématisées et deviennent à leur tour « une logique », opposable à la « logique classique ». En formulant en effet des principes au sein d’un système autonome, ne court-on pas les mêmes risques qu’avec un système standard de logique, c’est-à-dire ceux afférant à un « oubli » de l’essence propre des objets mathématiques ? C’est pourtant ce que fera son élève Heyting, et nous y reviendrons plus loin. Indiquons avant de conclure ce paragraphe la raison d’être d’un engouement des informaticiens pour l’intuitionnisme. Celui-ci met en avant la nécessité de construire des objets : on parlera aussi à son propos de « constructivisme ». Là où le formaliste conclut à l’existence d’un objet dès que la supposition de sa non-existence conduirait à une contradiction, l’intuitionniste exige davantage : qu’on donne un mode de construction effectif dudit objet. Un exemple fameux est fourni par le problème suivant : Soit à prouver qu’il existe deux irrationnels x et y tels que x y soit un rationnel. Essayons en prenant x = y = 2 , alors de deux choses l’une : 2 • ou bien • ou bien ce n’est pas le cas, alors prenons x = xy = 2 2 2× 2 est un rationnel, et le problème est résolu, = 2 2 et y = 2 , on obtient : 2 2 = 2 et on aussi résolu le problème. Ce raisonnement satisfait le formaliste, il ne satisfait pas l’intuitionniste. Pour ce dernier en effet, nous restons sur notre faim, ce qui nous intéresse dans cette question, c’est de connaître un couple (x, y) tel que x y soit un rationnel ! Une situation semblable serait celle dans laquelle une base de données (par exemple de renseignements ferroviaires) serait telle que lorsqu’un utilisateur demande « y a-t-il un train au départ de Grenoble en partance pour Chambéry entre 10h et 11h » répondrait simplement « oui » ou « non ». On veut évidemment que la réponse contienne une « réalisation » concrète (un « témoin » de sa vérité). Russell luimême s’amusait des bizarreries de la logique classique lorsqu’il plaisantait ainsi : « une logicienne vient d’avoir un enfant. A la question « est-ce un garçon ou une fille ? », elle répond…. Oui ! ». L’informaticien ne se contente pas d’un tel « oui ». Il exige de la machine une réponse « constructive ». Nous verrons plus loin que la logique intuitionniste est susceptible d’en donner. 4- La théorie des ensembles de Zermelo – Fraenkel Nous allons revenir sur la question des antinomies (ou paradoxes4 ?) soulevée plus haut. Comme nous l’avons vu, la solution russellienne n’a pas entraîné l’adhésion des mathématiciens, le projet de Hilbert quant à lui achoppera sur la démonstration par Gödel de l’impossibilité de démontrer au sein d’un système formel tout énoncé « vrai » à partir du moment où ledit système contient les nombres entiers. Quant à l’intuitionnisme, il restera marginal dans le monde des mathématiciens. La lignée de Cantor et de la théorie des ensembles va néanmoins perdurer : les mathématiciens « ensemblistes » vont devoir 4 Les deux termes sont souvent employés. Notons toutefois qu’ils ne sont pas synonymes. Une antinomie est une contradiction, un paradoxe est seulement ce qui va à l’encontre de la doxa, autrement dit une assertion qui peut être vraie, bien que contraire à nos intuitions ou à l’orthodoxie. apporter leur propre solution aux antinomies. Comme ils admettent l’existence de l’infini actuel, on les qualifie volontiers de « platoniciens ». La « solution » réside dans une axiomatisation rigoureuse : pas plus que les autres objets mathématiques, les ensembles ne sauraient être laissés à l’intuition vague. C’est du moins ce que pense le grand mathématicien allemand Ernst Zermelo (1871 – 1953) qui, en collaboration avec Adolf Fraenkel (1891 – 1965), un mathématicien israélien, va élaborer la fameuse théorie dite « ZF ». Au point de départ, on se donne une « collection » d’objets qu’on appelle un univers (nous le noterons U) On ne dit pas « un ensemble » d’objets puisque c’est justement des ensembles, en tant que structures particulières, qu’on veut faire la théorie. Cette collection est munie d’une relation binaire, notée « ∈ » qu’il s’agit d’axiomatiser (en essayant d’éviter le paradoxe bien connu). Un univers se présente donc comme un graphe tel que le suivant : b a c a d e f qui représente une suite d’assertions : a∈b, b∈c, a∈c, c∈d, d∈c, c∈e, c∈f, e∈f, f∈f. Evidemment certaines de ces assertions vont être rendues impossibles parce que la relation introduite devra satisfaire certains axiomes. Ces axiomes, quels sont-ils ? les voici dans la forme que leur a donné Krivine (1969) : 1- Axiome d’extensionnalité : Il n’existe pas dans l’univers U deux ensembles distincts qui ont les mêmes éléments, autrement dit : ∀x∀y[∀z ( z ∈ x ⇔ z ∈ y ) ⇒ x = y ] Par exemple, sur la figure précédente, e et c ont chacun un seul élément, f et il leur est commun, donc e et c devraient coïncider. Axiome de la paire : Etant données deux ensembles a et b, il existe un ensemble c, qui a comme éléments a et b et eux seulement : ∀x∀y∃z∀t [t ∈ z ⇔ (t = x ∨ t = y )] c est noté : {a, b} Remarque : on obtient gratuitement la notion de couple, qui est celle de « paire ordonnée » en identifiant le couple (a, b) à la paire {{a}, {a, b}}. On vérifiera (exercice !) qu’avec cette définition, on obtient bien ce qui est désiré pour un couple, à savoir que : (a, b) = (c, d) si et seulement si a = c et b = d Au-delà, on peut définir un triplet (a, b, c) par : (a, (b, c)) et procéder de la même manière pour n’importe quelle sorte de n-uplet. 2- Axiome de la réunion : Pour tout ensemble a, il existe un ensemble b dont les éléments sont les éléments des éléments de a. ∀x∃y∀z[z ∈ y ⇔ ∃t (t ∈ x ∧ z ∈ t )] 3- Axiome de l’ensemble des parties : Soient a et b deux ensembles ; l’énoncé « ∀x( x ∈ a ⇒ x ∈ b) » est noté « a ⊂ b » : a est une partie de b, ou : a est inclus dans b. L’axiome dit que, pour tout ensemble a, il existe un ensemble b dont les éléments sont les objets de U qui sont des parties de a, ce qui s’écrit : ∀x∃y∀z[z ∈ y ⇔ z ⊂ x ] 4- Axiome de sélection : Etant donné un énoncé A(x, a1, …, an) où x est une variable libre et a1, …, an des paramètres (c’est-àdire des objets de U qui apparaissent dans l’énoncé), ainsi qu’un ensemble a, alors il existe un ensemble b dont les éléments sont ceux de a qui satisfont l’énoncé A. On a en fait, sous cette dénomination une infinité d’axiomes : ∀x1 ...∀x k ∀x∃y∀z[z ∈ y ⇔ ( z ∈ x ∧ A( z , x1 ,..., x k ))] chaque axiome étant associé à un énoncé A particulier. On note l’ensemble obtenu : b = {x ∈ a; A( x, a1 ,..., a k )} Il est important de noter ici que c’est cet axiome qui va empêcher la formation du paradoxe russellien : pas d’ensemble sans que n’existe déjà un ensemble ! Autrement dit, si nous prenons un énoncé quelconque, comme par exemple c’était le cas avec x ∉ x , nous n’obtiendrons pas nécessairement un ensemble au moyen de cet énoncé, autrement dit la notation b = {x; x ∉ x} ne correspond pas à un ensemble. Seulement b = {x ∈ a; x ∉ x} où a est un ensemble, correspond à un ensemble, mais serons nous capable de trouver un tel a de sorte que b puisse s’interpréter comme « l’ensemble de tous les ensembles qui ne s’appartiennent pas à eux-mêmes » ? Nous verrons que non ! Noter qu’on peut maintenant démontrer ce théorème intéressant : Il existe un ensemble et un seul qui n’a aucun élément. Il suffit d’appliquer le schéma d’axiomes précédent, en prenant n’importe quel ensemble a, associé à l’énoncé « x ≠ x » (nous retrouvons ici l’intuition de Frege concernant la définition du zéro). L’unicité provient de l’axiome d’extensionnalité. Les quatre axiomes (ou schémas d’axiomes) précédents avec en plus l’axiome de l’infini que nous verrons plus loin constituent la théorie ZF. Selon cette théorie, il existe des collections qui ne correspondent à aucun ensemble, ainsi de la collection ci-dessus des ensembles qui ne s’appartiennent pas à eux-mêmes. Le théorème et sa démonstration peuvent s’énoncer comme suit : Théorème 1 : la collection « x ∉ x » ne correspond à aucun ensemble. Démonstration : si elle correspondait à un ensemble a, on aurait : ∀x( x ∉ x ⇔ x ∈ a ) d’où en particulier : a ∉ a ⇔ a ∈ a Mais on a aussi : Théorème 2 : ma collection « x = x » ne correspond à aucun ensemble. Démonstration : si elle était un ensemble, alors elle serait U tout entier – « l’ensemble de tous les ensembles » - et nous aurions, d’après le principe de sélection, l’existence d’un ensemble b défini par : b = {x ∈ U ; x ∉ x} qui serait la a du théorème précédent, dont nous avons vu qu’il n’était pas un ensemble ! On formule souvent ce théorème en disant que « la collection de tous les ensembles n’est pas un ensemble ». De même, afin d’éviter le paradoxe de Burali-Forti, on démontre que la collection de tous les ordinaux n’est pas un ordinal. Ainsi, les situations paradoxales sont-elles évacuées en prenant soin à ce que l’on appelle ou l’on n’appelle pas « ensemble ». Le concept d’ensemble étant désormais celui d’une structure bien spécifiée, il n’y a pas de raison que n’importe quelle « collection » soit un ensemble. De ce fait, par exemple, la collection de tous les ordinaux finis n’est pas nécessairement un ensemble, mais on peut poser qu’elle l’est, ce qui nous donne alors accès au fameux paradis cantorien. 5- Axiome de l’infini : Il existe un ordinal non fini. En considérant nos définitions antérieures, rappelons qu’un ordinal fini est un ordinal tel que lui-même et chacun de ses « ancêtres » possède un prédécesseur. Dire qu’il existe un ordinal non fini, c’est donc dire qu’il existe un ordinal qui n’a pas de prédécesseur. Prenons le plus petit des ordinaux non finis et notons-le ω : c’est l’ensemble des ordinaux finis. En effet, si α est un ordinal fini, on ne peut pas avoir ω ≤ α, car ω serait fini, donc on a α < ω, c’est-à-dire α∈ω. D’autre part, si α∈ω, alors α < ω, et si α n’était pas fini, ω ne serait pas le plus petit des ordinaux non finis, donc α est fini. Rappelons aussi que les ordinaux servent à définir les cardinaux. Si en effet les cardinaux sont, comme le voulait Frege, définis par la notion d’équinuméricité à un concept, autrement dit d’équipotence à l’extension d’un concept, encore faut-il qu’il existe de telles extensions et qu’il en existe suffisamment ! La construction des ordinaux est là pour remplir les vides éventuels. Comme dit plus haut, le cardinal d’un ensemble a est le plus petit ordinal équipotent à a. Réfléchissons quelques instants sur cette définition : la relation demandée est celle d’équipotence (seulement) et non celle d’isomorphie. A est équipotent à B si et seulement s’il existe une bijection de l’un vers l’autre. Un ordinal a est isomorphe à un ensemble ordonné b si et seulement s’il existe une bijection de l’un vers l’autre et en plus cette bijection est une isomorphie, c’est-à-dire une application qui transporte la structure. Ainsi deux ensembles équipotents peuvent très bien ne pas être isomorphes : il y a, a priori, plus d’ordinaux que de cardinaux. On peut sérier les cardinaux facilement en posant que si a est un cardinal, alors le cardinal suivant a+1 est le cardinal défini par le plus petit ordinal strictement supérieur à celui qui a permis de définir a. Dans le cas des cardinaux finis, il n’y a pas de problème, le suivant de 4 est bien 5 ! Si on considère maintenant les cardinaux infinis, alors bien sûr nous connaissons des ensembles équipotents à de tels cardinaux infinis, l’ensemble des entiers par exemple. Y a-t-il des ensembles ayant un cardinal supérieur ? Il est possible de démontrer que d’autres ensembles de nombres, obtenus à partir de N, comme Z et Q, ont le même cardinal que N, à savoir ω ! mais des ensembles comme R et ℘(N) ont un cardinal strictement plus grand. Ainsi le théorème de Cantor établit-il que pour tout ensemble a, Card(a) < Card℘(a) et le théorème dit « de la diagonale » démontre-t-il que R n’est pas dénombrable. Mais à quel degré dans la hiérarchie des ordinaux infinis correspond ce cardinal ? Le cardinal de ℘(N) ou de R est-il vraiment le successeur de celui de N ou bien se cache-t-il entre les deux un autre cardinal ? C’est l’objet de « l’hypothèse du continu » que Hilbert a voulu démontrer, sans y parvenir, et pour cause puisque bien plus tard, Cohen va démontrer l’indépendance de cette hypothèse par rapport aux axiomes de la théorie des ensembles, ce qui signifie qu’on peut aussi bien choisir de faire de la théorie des ensembles en la supposant vraie qu’en la supposant fausse ! 6- Axiome du choix : Deux autres axiomes peuvent être ajoutés à la théorie ZF. Le premier est le célèbre « axiome du choix ». Il semble évident à première vue qu’il soit toujours possible de sélectionner un élément dans un ensemble, autrement dit, étant donné un ensemble E, de trouver une fonction h de ℘(E) – {∅} dans E qui, à toute partie non vide de E associe un élément de E. Supposons que E soit bien ordonné (c’est-à-dire que E soit ordonné et que toute partie non vide de E possède un plus petit élément) : il suffit, chaque fois, de prendre le plus petit élément de la partie considérée. Mais on n’a pas toujours une « recette » aussi simple. Bertrand Russell comparait cela à la différence qu’on peut faire entre… choisir de manière répétée un élément parmi une paire de chaussures ou une paire de chaussettes ! pour une paire de chaussures, c’est simple : prenez systématiquement la chaussure gauche (ou « droite » peu importe), mais pour des paires de chaussettes, on n’ a pas de règle aussi simple : les chaussettes sont indifférenciées ! Dans les ensembles de nombres, on a quelque chose d’analogue : on sait que N, Z et Q peuvent être bien ordonnés (même si pour Z et Q, l’ordre en question n’est pas celui auquel on a affaire d’habitude…) donc quelle que soit la partie non vide de l’un de ces ensembles, on peut choisir un élément : le plus petit selon cet ordre. Mais dans le cas de R ? pas de bon ordre a priori accessible (ou « constructible »), est-ce à dire qu’on ,ne peut pas choisir un élément dans n’importe quelle de ses parties ? peut-être pas… après tout, dans le cas des chaussettes, on peut quand même en choisir une chaque fois (celle qui se présente sur le sol la plus proche de nous par exemple !), mais le problème est qu’on n’a pas de recette pour opérer ce choix…. Si on peut le faire, il faudra le poser explicitement comme principe, mais poser en principe qu’on peut faire quelque chose n’est pas donner le moyen de le faire toujours5… C’est pour cela que l’axiome du choix aura tant rencontré de résistances et en tout cas sera refusé par les intuitionnistes. De fait l’axiome de choix possède plusieurs formulations équivalentes. Outre la précédente (l’existence de la fonction h), on a aussi : (AC’) : Pour chaque ensemble a, dont les éléments sont non vides et disjoints deux à deux, il existe un ensemble dont l’intersection avec chaque élément de a est un ensemble à un seul élément. (AC’’) : le produit d’une famille d’ensembles non vides est non vide. Cet axiome permet de démontrer un résultat auquel on s’attend étant donnée notre discussion précédente : Théorème de Zermelo : tout ensemble peut être bien ordonné Donc même R (et contrairement aux apparences) peut être bien ordonné ! mais qu’on ne s’attende pas à voir exhibé un tel bon ordre ! On peut aussi démontrer : Théorème de Zorn : toute partie bien ordonnée majorée d’un ensemble ordonné possède un élément maximal On voit aussi que le principe énoncé plus haut concernant la correspondance entre cardinaux et ordinaux (l’idée que les ordinaux suffisent à définir tous les cardinaux) résulte aussi de cet axiome du choix. En effet puisque tout ensemble possède un bon ordre et qu’on peut démontrer que tout ensemble bien ordonné est isomorphe à un ordinal, tout ensemble est équipotent à un ordinal. L’axiome du choix paraît ainsi doté d’une puissance très grande alors que les mathématiciens constructivistes ont de quoi exprimer de la méfiance à son égard… faut-il s’en passer, ou bien : peuton s’en passer ? L’histoire des mathématiques au XXème siècle montre qu’il serait difficile de s’en passer, tant ses applications sont nombreuses et importantes6. Le deuxième axiome à ajouter est l’axiome de fondation. Il permet d’éviter « l’imprédicativité » énoncée plus haut, à savoir le fait qu’un ensemble pour être défini en termes de ses éléments puisse être tel que la définition de certains de ses éléments repose sur la présupposition de connaissance de tout l’ensemble. Cet axiome empêchera ainsi l’existence d’ensembles x tels que x ∈ x , autrement dit il permettra de déduire : ∀x( x ∉ x) . 7- Axiome de fondation : Tout ensemble non vide a un élément qui n’a aucun élément commun avec cet ensemble. ∀x[x ≠ φ ⇒ ∃y ( y ∈ x ∧ y ∩ x = φ )] 5 Il y a eu autrefois un sketch fameux de Pierre Dac et Francis Blanche, deux humoristes disparus, où l’un des deux partenaires jouait le rôle d’un fakir et l’autre était son comparse dans la foule. Ce dernier prenait quelqu’un au hasard et s’adressait au fakir en lui demandant : « pouvez-vous me donner la date de naissance de cette personne ? » et le partenaire répondait : « oui, je peux le faire », à quoi il répondait : « oui, il peut le faire, messieurs dames ! applaudissez-le bien fort ! ». 6 Par exemple, on ne peut démontrer que « tout espace vectoriel possède une base » qu’en utilisant l’axiome du choix. Cet axiome interdit la formation de cycle dans la relation d’appartenance. Supposons en effet que nous ayons : b ∈ a, c ∈ b, d ∈ c, a ∈ d prenons l’ensemble E = {a, b, c, d}. a possède un élément commun avec E, c’est b, b aussi : c’est c, c aussi, c’est d, d aussi, c’est a. Il est possible de démontrer que cet axiome est bien indépendant des précédents : admettre sa négation serait tout aussi cohérent que l’admettre lui-même. C’est justement en admettant sa négation que Peter Aczel, dans les années quatre-vingt, va développer une théorie des ensembles « non fondés » (ou « hyperensembles ») bien utile pour formaliser des problèmes d’informatique théorique et, comme le montreront Barwise et Etchemendy7 pour fournir des analyses nouvelles du paradoxe du Menteur (voir plus loin). La théorie de Zermelo – Fraenkel avec axiome du choix est ZFC, avec axiome du choix et axiome de fondation : ZFC + AF, alors que la théorie de Aczel sera : ZFC + AFA (« Anti-Foundation Axiom »). 5- Tarski et la définition de la vérité Nous avons vu plus haut l’emphase mise par Hilbert sur les démonstrations de non contradiction. Une théorie mathématique est fiable si on peut faire la preuve de sa cohérence. Une telle preuve se ramène à faire la démonstration qu’on ne peut pas dériver au sein de la théorie une absurdité telle que « 1≠1 »8, mais est-il toujours possible d’obtenir une telle preuve ? Cela signifierait que, quelle que soit la théorie mathématique, il soit possible, étant donnée une propriété contradictoire telle que « 1≠1 » de dire si oui ou non elle est démontrable, ce qu’en langage technique, on appelle la récursivité du prédicat « être démontrable », or nous verrons plus loin que Gödel a enterré un tel espoir. La démonstration directe de la non cohérence semble donc difficile et plus tard s’avèrera en général impossible. On peut cependant attaquer le problème d’un autre côté : au lieu de prouver qu’aucune contradiction n’est démontrable, on peut essayer de prouver que tout ce qu’on démontre est « vrai ». Mais cela reporte la question sur celle de la définition de la vérité. On l’a dit en introduction, la logique pourrait aussi être dite « science du Vrai », comme l’esthétique serait la doctrine du Beau ou la morale celle du Bien. Cela ne va évidemment pas sans un certain essentialisme. Il importait cependant aux logiciens des années trente de tenter de clarifier la question en essayant de définir ce que l’on entend par « telle ou telle proposition est vraie ». Le personnage majeur est ici Alfred Tarski (1902 – 1983), logicien polonais qui fut l’élève de S. Lesniewski, le fondateur de l’école polonaise de logique, et le texte majeur est « Le concept de vérité dans les langages formalisés », écrit en 1931 mais paru en 1933. « Le présent travail, dit le logicien polonais, est consacré à un seul problème, au problème de la définition de la vérité. Il s’agit en effet – compte tenu de tel et tel langage – de construire une définition de l’expression « proposition vraie », définition qui soit matériellement adéquate et formellement correcte ». A première vue, la notion de vérité retenue est au plus proche de l’acception classique, c’est-à-dire de la théorie de la « vérité – correspondance » : « « vraiment » signifie la même chose que « conformément à la réalité » ». Dans le premier paragraphe de son étude, Tarski aborde la question de la définition de la vérité dans le langage quotidien : c’est pour aboutir à un échec. « Il est impossible non seulement de définir ce que signifie l’expression du langage quotidien « proposition vraie » mais encore de s’en servir dans ce langage ». Il se limitera donc à étudier ce qu’il en est dans les « seuls langages actuellement connus qui soient construits à l’aide d’une méthode scientifique, à savoir les langages des sciences déductives formalisées » et là, il trouve bel et bien une solution positive à son problème : il existe « une méthode homogène permettant de construire la définition en question pour chacun de ces langages »9. Pourquoi la notion de proposition vraie n’est-elle pas définissable dans le langage quotidien ? Le schéma général d’une telle définition devrait être : « x est une proposition vraie si et seulement si p » 7 Jon Barwise et John Etchemendy, « The Liar », Oxford University Press, 1987 Hilbert, traduit par Largeault, p. 236 9 ‘Le Concept de Vérité dans les langages formalisés’, in A. Tarski, Logique, sémantique, métamathématique, trad. sous la direction de Gilles Granger, Armand Colin, 1972 8 On mettrait alors à la place de x « le nom » d’une proposition et à celle de p cette proposition ellemême en toutes lettres. Une manière naturelle d’obtenir un tel nom est de mettre des guillemets, ainsi obtient-on : « il neige » est une proposition vraie si et seulement s’il neige (c’est ce qu’on appelle depuis le schéma-T, la théorie étant souvent désignée par les philosophes contemporains sous la dénomination de théorie « décitationnelle » de la vérité). Seulement, comme nous nous en doutons déjà, une telle définition risque de poser des difficultés. Qu’advient-il si nous rencontrons une assertion du genre de celle du Menteur ? Décidons de désigner par A la proposition suivante : A n’est pas une proposition vraie alors nous avons par définition : (1) A = « A n’est pas une proposition vraie » et nous pouvons appliquer la schéma-T de façon à obtenir : (2) « A n’est pas une proposition vraie » est une proposition vraie si et seulement si A n’est pas une proposition vraie d’où : (3) A est une proposition vraie si et seulement si A n’est pas une proposition vraie ce qui est bien sûr une contradiction. On pourrait bien sûr tenter de trouver une définition reposant sur des règles, en entendant par là quelque chose de très voisin de ce que nous connaissons en théorie de la démonstration, mais il faudrait alors définir un lot de propositions vraies « d’où on part » alors que dans le langage quotidien, nous sommes totalement incapables de cerner un « ensemble de propositions vraies » qui serait bien délimité : l’un des traits caractéristiques du langage quotidien est son universalisme, lequel est à la source de toutes les antinomies sémantiques. Les langages formalisés, à la différence de « la langue vulgaire », sont les langages qu’on a « artificiellement construit de telle sorte que le sens de chaque expression [soit] univoquement déterminé par sa forme ». Nous retrouvons ici la notion de système formel, lequel se décompose en : (a) une liste de symboles, (b) un ensemble de règles de formation, (c) une sélection d’expressions bien formées à titre d’axiomes, (d) des règles d’inférence. Les langages obtenus de cette manière ne sont pas « universalistes » au sens où l’est le langage quotidien : on notera en particulier qu’ils ne contiennent pas de terme « appartenant à la science du langage », ni « des signes ou des expressions qui décrivent les relations structurelles existant entre ces signes et expressions ». De cette manière, nous pouvons soigneusement distinguer entre le langage dont nous parlons (langage-objet) et le langage dans lequel nous en parlons (métalangage). Chaque fois que nous sommes dans ce type de configuration, nous sommes à l’aise pour définir le concept de vérité. Tarski prend comme premier exemple le langage du calcul des classes. Soit un ensemble de signes : - N (négation), A (disjonction), Π (quantification universelle), I (inclusion) - variables : x| , x||, x|||, …., x||||…|, ….. et des règles de formation permettant d’obtenir des expressions comme : Ix| , x||, NIx| , x||, Πx| Ix| , x| etc. plus des axiomes, des règles, etc. Ceci donne un langage-objet. Maintenant définissons un autre langage, qui va servir à parler de celui-ci, et qui donc contient une image de chaque expression du premier langage. Nous utiliserons par exemple les mots non, ou, pour tout, inclusion à la place des symboles N, A, Π, I, de sorte que Πx| Ix|, x| corresponde à la phrase « pour tout x, x est inclus dans x », alors le schéma-T pourra s’appliquer. Par exemple, nous aurons : Πx| Ix| , x| est vrai si et seulement si pour tout x, x est inclus dans x Il reste évidemment à définir à son tour une théorie rigoureuse pour ce deuxième langage, de sorte qu’il soit possible en son sein de prouver que « pour tout x, x est inclus dans x » dans le cas où la proposition du premier langage, Πx| Ix| , x| est vraie. Nous trouvons ici la première formulation de la sémantique logique et la base du concept de modèle. De nos jours, on définit comme suit la sémantique d’un langage du premier ordre L, qui possède des variables (individuelles), des constantes (individuelles), des lettres de foncteurs (chacun d’une arité donnée n) et des lettres de prédicats (chacun donné avec une arité donnée n également). On se donne un univers U non vide (cf. ci-dessus la théorie des ensembles) et une fonction Val (soit M = (U, Val)) qui à toute constante individuelle associe un élément de U, à toute lettre de foncteur n-aire associe une fonction de Un dans U, à toute lettre de prédicat n-aire associe une partie de Un. On se donne d’autre part la notion de fonction d’assignation10, à savoir n’importe quelle fonction qui associe à chaque variable xi du langage un élément de U et cela permet de définir récursivement la vérité d’une formule quelconque du langage L, par rapport à la L-structure M et à une fonction d’assignation g. On note [[ϕ]]M,g la valeur de vérité de la formule ϕ par rapport à M et à g, c’est soit 1, soit 0 (vrai ou faux). On a les clauses suivantes : Termes : (a) si x est une variable, [[x]]M,g = g(x) (b) si c est une constante, [[c]]M,g = Val(c) (c) si f(t1, …,tk) est un terme complexe, [[f(t1, …,tk) ]]M,g = [[f]] M,g([[t1]]M,g …,[[tk]]M,g) Formules : (d) si ϕ(t1, …, tn) est une formule atomique, [[ϕ(t1, …, tn)]] M,g = 1 ssi ([[t1]]M,g …,[[tk]]M,g)∈Val(ϕ) (e) [[A∧B]] M,g = 1 ssi [[A]] M,g = [[B]] M,g = 1 (f) [[A∨ B]] M,g = 0 ssi [[A]] M,g = [[B]] M,g = 0 (g) [[A⇒ B]] M,g = 0 ssi [[A]] M,g = 1 et [[B]] M,g = 0 (h) [[¬A]] M,g = 1 ssi [[A]] M,g = 0 (i) [[∀xA]] M,g = 1 ssi toute fonction d’assignation h identique à g sauf éventuellement en x est telle que [[A]] M,h = 1 (j) [[∃xA]] M,g = 1 ssi il existe une fonction d’assignation h identique à g sauf éventuellement en x telle que [[A]] M,h = 1 Etant donnés un langage L, un ensemble de formules closes11 Φ et une L-structure M, on dit que M est un modèle de Φ si et seulement si toutes les formules dans Φ sont vraies par rapport à M. En utilisant une telle méthode, nous voyons que la vérité du premier langage (L) est définie dans le deuxième langage (L’), lequel est un métalangage. Comment fonder alors la vérité au sein de ce deuxième langage ? Cela ne serait possible bien sûr qu’au sein d’un troisième langage (un méta-métalangage) L’’ et ainsi de suite, dans une ascension irrésistible que rien n’arrête (puisqu’on a écarté toute idée d’un langage universel qui serait à lui-même son propre métalangage). Notons en chemin que si la théorie des ensembles est correcte, alors on possède une définition assurée de la vérité d’une formule appartenant à un langage du premier ordre… mais cette vérité n’est que conditionnelle. Il reste à exprimer le lien entre le langage, avec ses inférences (et donc sa notion de théorème ou de thèse), et la structure (qui permet de définir la notion de formule vraie, ou « valide »). Dans le cas du calcul des classes, Tarski montre (récurrence sur la structure de la démonstration à partir de la reconnaissance que tout axiome est bien une formule vraie) que toute thèse est vraie. On peut aussi le démontrer dans le cas de logique des prédicats du premier ordre. Etant entendu que si x∈Vr (ensemble des propositions vraies), alors x ∉ Fx (ensemble des propositions fausses) , on en déduit bien 10 Tarski, 1933 n’utilise pas des fonctions d’assignation mais des « suites infinies » d’objets – par exemple de classes – de sorte qu’à la variable x| corresponde le premier élément d’une telle suite, à x|| le deuxième et ainsi de suite, à x||…| (n barres) le nième. Ainsi définit-il une proposition vraie comme une proposition « satisfaite par toute suite infinie » (fameuse « définition 23 » de son mémoire). 11 Une formule est dite close si elle ne contient aucune variable libre. Dans le cas d’une formule close, il est facile de vérifier que son évaluation ne dépend pas d’une fonction d’assignation quelconque. qu’aucune thèse n’est une contradiction et que, donc, la théorie est non-contradictoire ou cohérente. Mais dit Tarski, il peut exister des théories où des propositions vraies ne sont pas des thèses12. Nous voyons ici émerger, en plus de la traditionnelle notion de cohérence, une notion de complétude. Intuitivement, une théorie est complète si pour chacune de ses formules closes ϕ, elle est capable de fournir soit une preuve de ϕ soit une preuve de ¬ϕ, autrement dit est capable de statuer sur chacune de ses formules closes. On voit que si toute proposition vraie est une thèse, autrement dit est prouvable, étant donnée une formule ϕ quelconque, ou bien elle est vraie et elle est prouvable, ou bien elle est fausse et dans ce cas elle est non prouvable car d’après le paragraphe ci-dessus, si elle l’était, elle serait vraie ! Autrement dit, une théorie capable de prouver toutes les formules vraies est forcément complète au sens ici indiqué. On parle en général de complétude syntaxique et de complétude sémantique. Bien sûr, on peut avoir une notion de complétude syntaxique indépendamment de toute construction sémantique, mais on voit que si une théorie est sémantiquement complète alors elle est nécessairement syntaxiquement complète également. Autre remarque : le principe du tiers – exclu semble intégralement admis dans le métalangage par Tarski. Tarski étend la définition de la vérité aux langages d’ordre fini, autrement dit contenant des prédicats d’ordre 1, 2, … n (si un prédicat du premier ordre est un prédicat qui n’a comme arguments que des termes individuels, c’est-à-dire interprétés par des éléments de U, un prédicat du 2ème ordre a parmi ses arguments au moins un prédicat du 1er ordre, et pas de prédicat d’ordre supérieur, un prédicat du (n+1)ème ordre au moins un prédicat du nème ordre et pas de prédicat d’ordre supérieur et ainsi de suite) où n est borné mais montre qu’il est impossible d’obtenir une telle définition dans le cas d’un langage d’ordre infini (qui admettrait des entités d’ordre arbitrairement grand). On se moque parfois de la théorie tarskienne de la vérité (voir J. Y. Girard à ce sujet) en la présentant comme basée sur des lapalissades : bien sûr « il neige » est vrai si et seulement s’il neige ! Est-ce là quelque chose de bien différent qu’affirmer que lorsqu’il neige, il tombe de l’eau gelée ? C’est faire à Tarski un mauvais procès. D’abord, comme nous l’avons vu, Tarski ne prétend pas avoir donné une définition de la vérité dans le langage ordinaire, puisqu’il dit justement qu’une telle définition lui paraît impossible : une telle définition n’est possible que dans les langages formalisés. Ensuite, cette conception est loin d’être ridicule : elle montre qu’une recherche d’une définition de la vérité nous engage nécessairement dans une ascension de systèmes emboîtés les uns dans les autres. Chaque système doit contenir une image du précédent avec en plus un ensemble de symboles et de formules qui lui sont propres et qui servent à en parler. On n’a pas de « vérité absolue », mais seulement en droit une vérité relative, toujours en construction, une construction qui n’en finit jamais. Une autre remarque mérite d’être faite : le philosophe standard, disons plus ou moins kantien, s’attend, lorsqu’on évoque une « définition de la vérité », à ce qu’on lui délivre un critère, autrement dit une méthode absolue permettant de décider de la vérité ou de la fausseté d’un énoncé. Il s’étonne alors et s’insurge (à juste titre) puisque selon lui, on prétendrait par là clore l’ensemble des problèmes (philosophiques et autres). Or, la définition tarskienne de la vérité ne serait un critère que si la procédure présentée ci-dessus pour définir la valeur de vérité d’une formule était décidable, autrement dit s’il existait un algorithme général permettant, pour toute formule, de dire si elle est vraie ou si elle est fausse. Certes, un tel algorithme existe pour le calcul propositionnel, qui est une toute petite partie de la logique des prédicats, et tout le monde le connaît : il repose sur la méthode des tables de vérité. Cette situation est exceptionnelle. De grands théorèmes (établis notamment par A. Church) montreront que la logique des prédicats du premier ordre n’est pas décidable, autrement dit qu’il n’existe pas d’algorithme général pour évaluer la valeur de vérité d’une formule quelconque. Cela pourtant n’empêche pas qu’elle soit complète13, c’est-à-dire que pour toute formule vraie, il existe une 12 Par exemple, le système formel que propose Tarski pour le calcul des classes n’est capable de démontrer ni que : ∀x∀y x ⊂y est une thèse ni que sa négation en est une, alors que bien évidemment la négation est vraie. 13 La complétude de la logique du premier ordre a fait l’objet de plusieurs démonstrations différentes, toutes plus ingénieuses les unes que les autres, de la part de Gödel, de Henkin (démonstration revue par Hintikka) et de Gentzen. Nous reviendrons notamment sur la démonstration de Gentzen puisque c’est en la réalisant que le logicien allemand invente un système astucieux pour la recherche de preuves : le calcul des séquents. démonstration (dans sa présentation sous forme de système formel). Simplement, nous ne savons pas forcément trouver cette démonstration au moyen d’une méthode générale. Tarski ne vise donc pas un « critère de vérité » : c’est sans doute sa grande originalité, par rapport à ceux qui l’ont précédé qui se sont penchés sur la vieille question (réputée absurde par Kant) de « qu’est-ce que la vérité ? »14. Les recherches sur le calcul des prédicats du point de vue de la théorie des modèles vont conduire à des résultats tout aussi importants que la complétude et l’indécidabilité mentionnées ci-dessus, en particulier le théorème de Löwenheim-Skolem : Théorème : si une théorie T (c’est-à-dire un ensemble de formules closes) admet un modèle infini, alors elle admet un modèle dénombrable. Cela a comme conséquence qu’il est vain d’espérer formuler une théorie du premier ordre pour la théorie des ensembles, c’est-à-dire un système fini d’axiomes formulés dans un langage du premier ordre qui démontrerait tous et rien que les énoncés vrais de la théorie des ensembles. Nécessairement un tel système d’axiomes admettrait un modèle dénombrable c’est-à-dire un univers ne contenant qu’une suite énumérable d’objets, or nous savons que l’univers de la théorie des ensembles ne saurait être ainsi (puisqu’il contient toutes les parties de N, qui sont en quantité non dénombrable). On a également le théorème de compacité : Théorème : si une théorie T est telle que toute partie finie possède un modèle, alors elle a elle-même un modèle. Ce théorème est mis à contribution pour montrer que l’axiomatique de Peano (arithmétique formelle) exprimée en premier ordre, ne caractérise pas l’ensemble des entiers de manière univoque. L’argument est le suivant. L’arithmétique de Peano contient, entre autres axiomes la formulation du fameux principe de récurrence : P (0) ∧ (∀n( P(n) ⇒ P(n + 1)) ⇒ ∀nP(n) Ce principe n’est pas un axiome, mais une infinité d’axiomes ! Il faut en effet formuler ce principe pour chaque prédicat P. Evidemment, on pourrait quantifier sur P et écrire : (∀P) P (0) ∧ (∀n( P(n) ⇒ P(n + 1)) ⇒ ∀nP(n) Mais nous ne serions plus dans le premier ordre : nous serions dans le second ordre, or, nous verrons plus loin que la logique du second ordre n’est pas axiomatisable. Ainsi l’arithmétique de Peano nous donne-t-elle un exemple de théorie du premier ordre avec une infinité (dénombrable) d’axiomes. D’après le théorème de compacité, il suffit de vérifier que tout sous-ensemble fini de cette théorie possède un modèle pour être assuré qu’elle a bien un modèle, lequel serait bien sûr N. On peut prouver effectivement que c’est le cas : l’ensemble des ordinaux finis fournit un modèle pour cette théorie. Mais la chose nouvelle est que… il n’est pas le seul ! Il suffit d’ajouter au langage une nouvelle constante c et d’introduire une nouvelle infinité d’axiomes : c ≠ 0, c ≠ 1, c ≠ 2, c ≠ 3, etc. La nouvelle théorie obtenue T’ est aussi telle que tous ses sous-ensembles finis aient un modèle, elle possède donc un modèle, qui se trouve être aussi un modèle de la théorie originelle T, mais ce modèle n’est pas isomorphe à N car il contient un objet c distinct de tous les autres éléments de N. De là découle que l’ensemble des entiers n’est pas caractérisable en premier ordre : toute théorie du premier ordre construite pour en rendre compte possède des modèles non isomorphes (on dit que c’est une théorie non catégorique). Pourquoi la logique du second ordre est-elle non axiomatisable ? Simplement parce que, si elle l’était, étant donné qu’elle permet, elle (résultat déjà vu par Dedekind) de produire une théorie catégorique des entiers (l’ensemble N est son seul modèle, à un isomorphisme près), on pourrait prouver dans cette théorie n’importe quelle propriété des entiers, ce qui contredirait le théorème d’incomplétude de Gödel. Ce paragraphe nous aura permis de faire un bond important dans la logique mathématique du XXème siècle. Au passage nous avons vu qu’une théorie (c’est-à-dire un ensemble de formules closes dans un 14 Lire à ce sujet F. Rivenc, ‘Définition et critère de la vérité’, revue Philosophie, n°65, mars 2000, pp. 73-88. système formel) étant définie et en principe naïvement construite pour rendre compte d’un domaine donné de sorte que celui-ci soit un modèle pour celle-là… il peut s’avérer qu’il y ait plusieurs modèles, non nécessairement isomorphes, de la même théorie ! La vision idéaliste de Frege, consistant à créer une langue universelle qui servirait à établir comme certitudes tout ce qu’il y a de vrai dans le domaine des mathématiques se trouve détruite : il n’y a pas un seul modèle d’une telle langue, ou dit autrement : cette langue ne décrit pas un seul univers, plusieurs peuvent être compatibles avec elle ! Autre conséquence : il y a un fossé entre logique du premier ordre et logique du second ordre. La logique du second ordre, c’est les « vraies » mathématiques, c’est l’arithmétique, c’est la théorie des ensembles, mais elle n’est pas axiomatisable, alors que la logique du premier ordre, quant à elle, si elle est axiomatisable, elle ne peut caractériser univoquement les concepts importants des mathématiques. Avant d’achever ce chapitre sur ce qui semble être un constat d’échec relativement à cette rencontre entre logique et mathématiques, il faut que nous nous attardions sur ce qui est la clé de voûte de cette rencontre ratée et que nous avons évoqué déjà plusieurs fois : le théorème de Gödel. 6- Le théorème de Gödel L’article de Gödel de 1931 est intitulé : « Sur les propositions formellement indécidables des Principia Mathematica et des systèmes apparentés ». Il débute par ces mots : « Le développement des mathématiques vers plus de précision a conduit à la formalisation de vastes domaines de telle sorte que les démonstrations puissent être développées en suivant un petit nombre de règles mécaniques. Les systèmes formels les plus étendus à ce jour sont, d’une part les Principia Mathematica de Whitehead et Russell et, d’autre part, le système de ZermeloFraenkel de la théorie axiomatique des ensembles. Ces deux systèmes sont si vastes que toutes les méthodes de démonstration utilisées aujourd’hui en mathématiques peuvent y être formalisées, c’est-à-dire peuvent être réduites à un petit nombre d’axiomes et de règles de déduction. Il semblerait donc raisonnable de conjecturer que ces axiomes et ces règles de déduction suffisent pour décider de toutes les questions mathématiques qui peuvent être formulées dans le système concerné. Dans ce qui suit, il sera montré qu’il n’en est pas ainsi, mais plutôt, que dans les deux systèmes cités, il existe des problèmes relativement simples de la théorie des nombres entiers ordinaires sont on ne peut décider sur la base des axiomes ». Quelle est l’idée centrale de la démonstration de Gödel ? Brièvement dit, c’est qu’à partir du moment où nous aurions un système formel incluant la possibilité d’exprimer des relations arithmétiques (les nombres entiers et leurs propriétés élémentaires), alors ce système serait capable d’exprimer des propriétés sur lui-même, et si nous sommes capables de construire rigoureusement dans un tel système une formule analogue à celle du Menteur, alors de deux choses l’une : ou nous acceptons qu’il y ait une contradiction dans le système ou nous acceptons qu’il y ait des formules vraies qui ne puissent pas être démontrées et c’est bien sûr la deuxième possibilité que nous choisirons. Mais il est utile d’entrer plus en détails et de voir comment cette construction peut avoir lieu. Tout d’abord, Gödel introduit une numérotation des énoncés (« numérotation de Gödel ») de telle sorte que toute formule du système possède son numéro en propre et que les numéros soient tels qu’on puisse toujours retrouver la formule qu’ils codent. Non seulement les formules peuvent être alors codées, mais aussi les déductions (qui ne sont jamais que des suites finies de formules). Prenons par exemple les deux lignes suivantes : (∃x)( x = sy ) (∃x)( x = s 0) Elles peuvent figurer dans une déduction à la suite l’une de l’autre parce qu’on peut passer de l’une à l’autre simplement par application de la règle de substitution : substituer 0 à y dans la première ligne. Si m est le nombre de Gödel de la première formule et n celui de la deuxième, décidons de former un nombre de Gödel pour cette suite en prenant les deux premiers nombres premiers restants (par exemple 2 et 3) et en formant 2m×3n. Soit k le nombre obtenu. Considérons maintenant l’assertion métamathématique : « la suite de formule de nombre de Gödel x est une démonstration de la formule de nombre de Gödel z ». Elle s’exprime par une relation arithmétique entre le nombre x et le nombre z. Par exemple, dans le cas des deux lignes précédentes, nous avons une telle relation entre k et n, s’exprimant par k = 2m×3n. Notons Dem cette relation arithmétique (entre nombres, donc). Admettons que cette relation soit bien définie (Gödel la définit explicitement, ce qui n’est bien sûr pas particulièrement facile). Nous avons la situation suivante : l’assertion métamathématique « la suite de formule de nombre de Gödel x est une démonstration de la formule de nombre de Gödel z » est représentée (« reflétée ») dans le système par la relation purement interne qui s’écrit : Dem(x, z). Donc, cette relation possède elle-même un nombre de Gödel. Et il en est de même pour sa négation ¬Dem(x, z), ainsi que pour la formule quantifiée universellement : (∀x)¬Dem( x, z ) qui signifie qu’il n’existe aucune démonstration de la formule de nombre de Gödel z (autrement dit, celle-ci est indémontrable). Imaginons maintenant que nous ayons une certaine formule ϕ incluant une variable libre y, que ϕ ait le nombre de Gödel m, y le nombre de Gödel p. On peut substituer n’importe quel symbole de nombre (c’est-à-dire un chiffre !) à y et on obtient alors une formule ayant un autre nombre de Gödel. Notons sub(m, p, q) le nombre de Gödel de la formule obtenue en substituant à la variable de nombre de Gödel p dans la formule de nombre de Gödel m, le chiffre q. Considérons maintenant la formule : (∀x)¬Dem( x, sub( y, p, y )) Cette formule dit que quel que soit x, x ne démontre jamais la formule obtenue en substituant à la variable de nombre p, au sein de la formule de nombre de Gödel y, cet y lui-même, autrement dit, la formule obtenue de cette manière n’est pas démontrable, ou encore : la formule de nombre de Gödel sub(y, p, y) n’est pas démontrable. Mais cette formule elle-même (qui traduit l’énoncé métamathématique précédent au sein du système) possède un nombre de Gödel ! Soit n, ce nombre, et substituons n à y dans la formule précédente. Il vient : (∀x)¬Dem( x, sub(n, p, n)) Soit G cette formule. Quel est son nombre de Gödel ? souvenons-nous de la manière dont elle a été obtenue : on l’a obtenu en substituant au sein de la formule portant le nombre de Gödel n, à la variable de nombre de Gödel p, le chiffre pour n, or cela correspond exactement à la définition du nombre sub(n, p, n). Ainsi la formule G : (∀x)¬Dem( x, sub(n, p, n)) a pour nombre de Gödel sub(n, p, n). Par ailleurs G est la représentation dans le système de l’assertion métamathématique selon laquelle « la formule qui porte le nombre de Gödel sub(n, p, b) n’est pas démontrable ». Donc G dit d’elle-même qu’elle n’est pas démontrable. Gödel démontre ensuite que : si G est démontrable, alors ¬G est aussi démontrable. En effet, si G est démontrable, on peut trouver une suite de formule de nombre de Gödel k, telle qu’on ait : Dem(k, sub(n, p, n)). On peut prouver que si la relation Dem(x, z) existe entre deux nombres, alors cette relation est démontrable. Il en résulte que Dem(k, sub(n, p, n)) est démontrable, d’où il suit que ¬(∀x)¬Dem( x, sub(n, p, n)) est démontrable, or c’est la formule ¬G. Un raisonnement analogue amène Gödel à conclure que si réciproquement ¬G est démontrable, alors G l’est aussi. D’où la situation selon laquelle G et ¬G sont toutes les deux démontrables, ce qui rend le système incohérent (ou inconsistant). Si le système est consistant, ni G, ni ¬G ne sont donc démontrables, et nous avons trouvé un système comportant une proposition indécidable. Mais ce n’est pas tout, encore faut-il s’assurer que G est vrai si on veut bien obtenir le fait qu’il existe une proposition vraie non démontrable, ce qui permettra d’affirmer l’incomplétude du système. Nous avons démontré que G n’est pas démontrable : or, c’est justement ce que dit G ! Donc G est vrai ! d’où le théorème : si l’arithmétique est consistante, elle est incomplète. Mais l’arithmétique est-elle consistante ? Dire qu’une théorie est consistante, c’est dire qu’il y a au moins une formule de son langage qui n’est pas démontrable (cela est équivalent à la cohérence). Or, cela s’exprime parfaitement dans notre système, par la formule (∃y )(∀x)¬Dem( x, y ) . De même l’incomplétude s’exprime par la formule G. L’énoncé « si l’arithmétique est consistante, elle est incomplète » s’exprime donc dans le système par une formule assez simple : (∃y )(∀x)¬Dem( x, y ) ⇒ (∀x)¬Dem( x, sub(n, p, n)) que nous résumons simplement par : « A ⇒ G ». Gödel prouve que cette formule est formellement démontrable. Mais alors, on voit la conséquence qui s’ensuit : si jamais A était formellement démontrable, alors par règle du modus ponens, G le serait ! Résultat : A ne peut pas être démontré dans la théorie de l’arithmétique elle-même. D’où le deuxième théorème : la non-contradiction de l’arithmétique formelle ne peut pas être démontrée à l’intérieur d’elle-même. Cela ne veut pas dire qu’elle ne peut pas être démontrée, cela signifie simplement que si on veut la démontrer, il faudra se placer dans un système strictement englobant et utiliser des méthodes de déductions non autorisées dans les Principia, c’est-à-dire des méthodes non finitistes, non « hilbertiennes ». C’est en cela que le théorème de Gödel ruine effectivement le programme de Hilbert.