CHAPITRE VII Logique du premier ordre Résumé. • La logique du premier ordre est la logique des formules usuelles, avec la contrainte que les variables représentent toutes des objets du même type. • Une signature Σ est un choix de symboles de constante, d’opérations et de relations spécifiques, et on lui associe une logique du premier ordre LΣ . • Les termes de LΣ sont construits récursivement à partir des variables et des symboles de constantes à l’aide des symboles d’opération; les formules atomiques de LΣ sont construites à partir des termes en utilisant l’égalité et les symboles de relation; les formules de LΣ sont construites à partir des formules atomiques à l’aide des connecteurs booléens et des quantifications. Une formule close est une formule sans variable libre. • La sémantique de LΣ transcrit la notion usuelle de satisfaction d’une formule F dans une structure, ou réalisation, R, notée R |= F. On dit qu’une réalisation M est un modèle d’un ensemble de formules T si M |= F est vrai pour tout F dans T. • Une preuve de LΣ formalise la notion usuelle de démonstration ; on utilise les règles de coupure et de généralisation, plus des axiomes correspondant à des schémas usuels. • Toute formule close prouvable est valide. Le théorème de complétude affirme la réciproque : toute formule close valide est prouvable. Plus généralement, tout ensemble consistant (fini ou infini) de formules closes a un modèle. • Le théorème de compacité affirme l’existence d’un modèle pour une théorie du premier ordre dont tout sous-ensemble fini a un modèle. • Le théorème de Lowenheim–Skolem affirme que toute théorie du premier ordre dans une signature dénombrable qui a des modèles infinis a des modèles infinis de toute cardinalité. • La logique du premier ordre ne permet pas de caractériser la structure (N, +, ×) : il existe des modèles non-standards de l’arithmétique, structures non isomorphes à (N, +, ×) mais vérifiant exactement les mêmes formules closes du premier ordre. • Pour toute propriété P exprimable en logique du premier ordre par une formule F, il est raisonnable de modéliser l’existence d’une démonstration pour P par l’existence d’une preuve formelle pour F. • Comme tous les objets usuels peuvent être représentés par des ensembles purs, il est raisonnable d’adopter le cadre « théorie des ensembles + logique du premier ordre » comme cadre formel global, c’est-à-dire de tenir pour établis les résultats dont la formalisation a une preuve au sens de la logique du premier ordre à partir des axiomes de la théorie des ensembles. • Chaque résultat de prouvabilité est lui-même établi dans un contexte métamathématique, qui peut être formalisé. • La logique du second ordre a un pouvoir d’expression supérieur à la logique du premier ordre, mais elle ne satisfait aucun des théorèmes généraux satisfaits par celle-ci. ! L’objet de ce chapitre est d’introduire la logique du premier ordre, et d’en démontrer les résultats de base qui seront utilisés dans la suite du texte, à savoir principalement le théorème de complétude de Gödel, le théorème de compacité, et le théorème de Lowenheim–Skolem. 179 180 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] Le plan du chapitre est le suivant. Dans la première partie, on définit la syntaxe de la logique LΣ , sa sémantique basée sur la notion de structure de type Σ, et on examine le pouvoir d’expression des logiques du premier ordre en discutant quelques exemples de propriétés exprimables par des formules du premier ordre. Dans la seconde partie, on définit une notion de preuve formelle fondée sur les règles de coupure et de généralisation et sur une famille infinie d’axiomes correspondant à des schémas de démonstration usuels. On établit ensuite par la méthode dite de Henkin le théorème de complétude de Gödel, qui garantit que toute formule valide est prouvable. La troisième partie regroupe quelques applications du théorème de complétude, à savoir le principe des démonstrations sémantiques, les théorèmes de compacité et de Lowenheim–Skolem, et la notion d’équivalence élémentaire, qu’on applique au cas des modèles non-standards de l’arithmétique, dont on montre qu’il existe une famille non dénombrable. Dans la quatrième partie, on discute l’adoption de la logique du premier ordre et de la notion de preuve associée comme modèle du raisonnement mathématique. Enfin, en appendice, on mentionne brièvement la logique du second ordre et on montre que celle-ci ne satisfait ni le théorème de compacité, ni le théorème de Lowenheim–Skolem. " ! La logique du premier ordre, aussi appelée calcul des prédicats, est la logique des formules mathématiques usuelles, telles que ∀x, y ∃z (x + z = y + 1), ou ∀ε> 0 ∃δ> 0 (|x − x0 | < δ⇒|f (x) − f (x0 )| < ε). Il n’est pas surprenant qu’on puisse codifier l’emploi des différents symboles de façon à décrire précisément les formules, puis, suivant le schéma général présenté au chapitre VI, définir une sémantique calquée sur l’usage courant et pouvant être qualifiée de naturelle et, par ailleurs, dégager des règles de déduction valides elles aussi fondées sur les principes de démonstration habituels. Tout cela n’est que la mise en forme d’une sténographie. L’intérêt de cette formalisation tient à la possibilité de démontrer des théorèmes portant sur les démonstrations prises elles-mêmes comme objet d’étude. On peut se douter qu’il n’y a à espérer aucune recette nouvelle pour inventer des démonstrations et résoudre miraculeusement des problèmes ouverts, mais on constatera que l’approche mène à des résultats non triviaux, dont certains ont eu récemment des applications inattendues dans divers domaines des mathématiques. Pour ce qui est de la théorie des ensembles, où les formules jouent un rôle fondamental, il n’est pas étonnant que les théorèmes de logique y soient importants et, de fait, on verra dans la troisième partie de ce texte que le théorème de complétude de la logique du premier ordre mène directement au changement radical de point de vue qui marque le début de la théorie moderne. L’existence de résultats non triviaux, typiquement le théorème de complétude qui montre que les formules valides sont exactement celles qui possèdent une preuve d’un certain type syntaxique simple, explique l’intérêt spécifique apporté à la logique du premier ordre, par opposition à d’autres logiques peut-être aussi naturelles. Le cas des logiques du second ordre sera mentionné afin justement de mettre en évidence toutes les lacunes de celles-ci et faire ressortir par contraste les qualités propres à la logique du premier ordre. $ 1. Logiques du premier ordre ! On décrit la syntaxe et la sémantique de la logique du premier ordre LΣ associée à un choix de symboles Σ : on définit la famille des formules, et on montre comment attribuer une valeur de vérité à une VII.1. Logiques du premier ordre 181 formule dans le cadre d’une réalisation convenable, ici une structure de type Σ. Cette section est purement descriptive. " ! Comme au chapitre VI avec la logique propositionnelle, le principe est de mimer autant que faire se peut l’usage courant : autrement dit, il s’agit d’organiser en un système formel précis les énoncés mathématiques usuels. Les définitions dans la suite sont multiples, mais on devrait se convaincre rapidement que toutes les notions sont, au moins implicitement, déjà toutes familières : la logique du premier ordre est la prose du mathématicien... $ 1.1. Formules du premier ordre. ! On commence par la définition des formules. Le point spécifique, qui explique qu’il y ait des logiques du premier ordre plutôt qu’une seule, est l’option consistant à fixer un ensemble de symboles non logiques, appelé signature. " ! L’examen d’un texte mathématique quelconque permet de constater que les formules qui y apparaissent obéissent à un même schéma général, à savoir assembler, à l’aide de connecteurs booléens ∧, ∨, ¬, ⇒, ⇔ et de quantifications ∀ et ∃, des formules simples du type t1 = t2 , t1 < t2 ,..., d’une façon générale r (t1 , ..., tk ) où r désigne une relation k-aire, et où t1 ,..., tk représentent des éléments de la structure considérée et sont eux-mêmes soit des variables, soit des noms d’éléments particuliers, soit des combinaisons de variables et de noms à l’aide d’opérations ou de fonctions, sur le modèle de (1.1) x1 ∀x x2 (x x1 # x 2 ⇔ ∃x x3 (x x1 + x 3 = x 2 )). ∀x C’est ce type de formule qu’on se propose de définir et d’étudier ici sous le nom de formule du premier ordre. Deux options sont retenues. La première est que, le but étant d’exprimer les propriétés de structures variées, il est plus commode d’introduire une famille de logiques plutôt qu’une logique unique. Ces logiques sont toutes bâties sur le même modèle, mais chacune dépend d’un choix spécifique des opérations et des relations considérées. Par exemple, en sus des variables et des symboles logiques (dont l’égalité) communs à toutes les logiques du premier ordre, la formule (1.1) met en jeu une relation binaire # et une opération binaire +, et on dira qu’il s’agit d’une formule du premier ordre relativement à la signature 1 consistant en un symbole de relation binaire # et un symbole d’opération binaire + ou, plus généralement, à toute signature contenant ces symboles. La seconde option est d’établir une claire distinction entre les symboles qui figurent dans une formule et les objets mathématiques qu’ils représentent : même si le contexte suggère que # représente une relation d’ordre, voire plus précisément un certain ordre, par exemple l’ordre canonique des entiers naturels, il est utile pour la suite de maintenir les formules à un niveau purement syntaxique, afin notamment de pouvoir interpréter une même formule dans plusieurs contextes distincts et, par exemple, pouvoir déclarer que la même formule (1.1) est vraie dans N et fausse dans Z. De la sorte, la formule elle-même, qui n’est qu’un mot, n’est ni vraie ni fausse hors d’un contexte spécifique. Pour rendre cette distinction visible, on utilisera, au moins dans un premier temps, des notations distinctes, typiquement pour une relation (ensemble de kuplets) et pour le symbole qui la représente ; pour ne pas compliquer, lorsqu’une notation pour une relation ou une opération est usuelle, on utilisera par défaut la même notation en gras pour le symbole correspondant. Par exemple, à côté de la relation d’appartenance ∈, on utilisera ∈ comme un symbole de relation binaire. La distinction est que ∈ est un ensemble de couples, alors que ∈ n’est qu’une lettre. $ Définition 1.1. (signature) On appelle signature un ensemble, fini ou infini, de symboles avec, pour chacun, la spécification d’un type pouvant être 1 ici au sens d’ensemble de signes 182 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] « constante » 2 , « opération », ou « relation », et, dans les deux derniers cas, d’un entier naturel non nul appelé arité. A chaque signature Σ on va associer une logique du premier ordre LΣ . Exemple 1.2. (signatures Σens , Σarith , logiques Lens , Larith ) On a déjà mentionné la signature ensembliste Σens comprenant un unique symbole de relation ∈}, qu’on peut écrire plus précisément comme binaire ∈ ; on a donc Σens = {∈ ∈r2 } pour indiquer que ∈ est un symbole de relation (« r ») binaire. De Σens = {∈ même, les formules!ensemblistes étendues du chapitre III correspondent à la signature {∅∅c , { •, •}o2 , o1 , ∪ o2 , P o1 , ∈ r2 , ⊆ r2 }, qu’on notera Σens+ , et l’arithmétique de Peano est exprimée par des formules mettant en jeu la signature {00c , S o1 , + o2 , · o2 }, qu’on notera Σarith , voire la signature {00c , S o1 , + o2 , · o2 , # r2 } notée Σarith+ . Dans toute la suite, on notera Lens la logique du premier ordre associée à la signature Σens , et, de même, Lens+ , Larith et Larith+ les logiques associées à Σens+ , Σarith et Σarith+ respectivement. La construction des formules de LΣ se fait en plusieurs étapes. On commence avec des termes, destinés à représenter des objets mathématiques du domaine étudié. Comme dans le cas du calcul propositionnel, on fixe une suite infinie de variables x 1 , x 2 , . . . ; on s’autorise à utiliser des métavariables, c’est-à-dire à utiliser x , y , etc. pour représenter une variable non spécifiée. Définition 1.3. (terme) Soit Σ une signature. On appelle terme de LΣ tout mot obtenu à partir des variables xi et des constantes de Σ en appliquant un nombre fini de transformations (t1 , ..., tk ) +→ s (t1 , ..., tk ) avec s symbole d’opération k-aire dans Σ. Exemple 1.4. (terme) Les mots (1.2) ∅, x2, P (∅∅) ∪ x 2 , P(x x1 ∪ ∅ )) ∪ x 2 P (P sont des termes de Lens+ . On suit l’usage d’écrire (t1 )ss(t2 ) pour s (t1 , t2 ) quand s est un symbole binaire, et, comme pour le calcul propositionnel, on omet des parenthèses pour alléger l’écriture lorsqu’il n’y a pas d’ambiguı̈té. Noter que, si une signature Σ ne comporte aucun symbole de constante ou d’opération, ainsi que c’est le cas de la signature Σens , alors les seuls termes de LΣ sont les variables x i . On introduit maintenant les formules, qui expriment des relations entre des termes. Définition 1.5. (formule) Soit Σ une signature. On appelle formule atomique de LΣ tout mot de la forme t1 = t2 ou r (t1 , ..., tk ) avec r symbole de relation k-aire de Σ, et t1 , ..., tk termes de LΣ . On appelle formule de LΣ tout mot pouvant s’obtenir à partir de formules atomiques en Σ en appliquant un L’usage qu’on en fera dans la suite montrera qu’on peut assimiler les constantes à des opérations à zéro argument, et donc ne distinguer que deux types de symboles, d’opération et de relation. 2 VII.1. Logiques du premier ordre 183 nombre fini de transformations F +→ ¬(F), (F, G) +→ (F)∧(G), (F, G) +→ (F)∨(G), xi (F). xi (F), et F +→ ∀x (F, G) +→ (F)⇒(G), F +→ ∃x Comme dans le cas des logiques propositionnelles du chapitre VI, et comme il est d’usage, on s’autorisera à supprimer des parenthèses dans les termes et les formules pour autant que ceci ne crée pas d’ambiguı̈té. Exemple 1.6. (formule) Le mot x 2 ∈ P (∅∅) ∪ x 2 est une formule atomique de Lens+ , tandis que (1.3) x2 ∈ (P P(∅∅) ∪ x2 ))⇒(P P(x x3 ) ⊆ ∅) x2 (x ∃x est une formule (non atomique) de Lens+ . Tant l’ensemble des termes de LΣ que celui des formules de LΣ est défini comme clôture d’un ensemble de base par un certain nombre de transformations. Comme dans le cas des formules propositionnelles, on en déduit un critère de démonstration par induction. Proposition 1.7. (induction) Soit Σ une signature. Pour montrer qu’une propriété P est vraie pour tous les termes de LΣ , il suffit de montrer • que P est vraie pour les variables x i et les symboles de constante de Σ, • et que, pour chaque symbole d’opération k-aire s de Σ, si P est vraie pour t1 ,..., tk , alors elle est vraie aussi pour s (t1 , ..., tk ). Pour montrer qu’une propriété P est vraie pour toutes les formules de LΣ , il suffit de montrer • que P est vraie pour les formules atomiques, • que, si P est vraie pour F, alors elle est vraie aussi pour ¬F, • que, si P est vraie pour F et G, alors elle est vraie aussi pour F∧G, F∨G, et F⇒G, et • que, si P est vraie pour F, alors, pour toute variable x , elle est vraie pour x(F) et ∀x x(F). ∃x Une formule étant un mot, chaque symbole qui y figure a une position bien définie, qu’on peut repérer par son rang en partant du début. On appelle occurrence d’un symbole s dans une formule F tout entier n tel que le n-ème symbole de F soit s. Par exemple, x 2 a trois occurrences dans (1.3), à savoir 2, 4, et 12 3 . Définition 1.8. (libre, liée) Pour chaque variable x i et chaque formule F, on définit inductivement l’ensemble des occurrences liées et libres de x i dans F par les règles suivantes : • si F est sans quantificateur, toutes les occurrences de x i dans F sont libres ; xi (G) ou ∃x xi (G), toutes les occurrences de x i dans F sont liées ; • si F est ∀x en prenant ici le parti de compter x 2 comme un symbole unique ; une option alternative (plus pertinente pour les questions de complexité algorithmique) serait de considérer x 2 comme étant un mot de longueur 2 3 184 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] xj (G) ou ∃x xj (G) avec j -= i, les occurrences libres si F est ¬G, ou G c H, ou ∀x 4 et liées de x i dans F viennent de celles de G et, le cas échéant, H. • Par exemple, dans (1.3), la variable x 2 a trois occurrences liées, tandis que la variable x 3 n’a qu’une occurrence, qui est libre. On prendra soin qu’une même variable peut avoir simultanément des occurrences libres et des occurrences liées à l’intérieur d’une formule. ! Comme dans le cas des formules propositionnelles, on peut associer inductivement un arbre fini à tout terme, puis à toute formule, comme illustré sur la figure 1. Sous cette forme, la notion de portée d’un quantificateur est claire: une occurrence de la variable x i dans une formule F est liée si le sommet qui lui est associé dans l’arbre a(F) se trouve sous au moins un quantificateur ∃ ou ∀ dont le fils gauche est étiqueté x i , et libre sinon. $ ⇒ ∪ x2 P x2 P ⊆ ∈ P ∅ x2 ∪ x3 ∪ x1 ∃ P x2 ∅ ∅ P(x x1 ∪ ∅ )) ∪ x 2 et à la forFigure 1. Arbres associés au terme P (P x2 (x x2∈ (P P(∅∅) ∪ x 2 ))⇒(P P(x x3 ) ⊆ ∅ ) ; on lit sur l’arbre associé que la varimule ∃x able x 2 a trois occurrences liées puisque situées sous un quantificateur de même x2 , tandis que la variable x 3 n’a qu’une occurrence, qui est libre puisque nom, ici ∃x située sous aucun quantificateur. Définition 1.9. (formule close, théorie) Une formule sans occurrence libre de variable est dite close 5 . Une famille de formules closes est appelée une théorie. x2 (x x1 = x 2 + 1 ) ∧ ∀x x1 (x x1 = x 1 ) Exemple 1.10. (formule close) La formule ∃x n’est pas close, puisque la première occurrence de x 1 (qui en a quatre en tout) x2 (x x1 = x 2 + 1 ) est close. x1 ∃x est libre. Par contre, ∀x On somplète la description de la syntaxe de LΣ avec quelques conventions de notation supplémentaires. Convention 1.11. (i)(équivalence) On note F ⇔ G pour (F⇒G)∧(G⇒F). Cette formulation est imprécise mais devrait être claire : par construction, G est un sousmot de F, et donc chaque symbole apparaissant dans G a une contrepartie bien définie dans F, même si le rang compté depuis la gauche n’est pas le même. 5 ou encore est appelée énoncé 4 VII.1. Logiques du premier ordre 185 (ii) (quantifications conditionnelles) Si r est un symbole de relation binaire, xry (...) pour ∀x x(x xry ⇒...) 6 . xry (...) pour ∃x x(x xry ∧...), et ∀x on note ∃x (iii)(abus d’écriture) • On écrit t1 -= t2 pour ¬(t1 = t2 ) ; • On écrit F∧G∧H pour F∧(G∧H), et F∨G∨H pour F∨(G∨H) ; # # • Pour r , r symboles de relation binaire ou le symbole =, on écrit t1r t2r t3 pour (t1r t2 )∧(t2r # t3 ) ; x, y pour ∃x x∃yy , et ∀x x, y pour ∀x x∀yy . • On écrit ∃x x(F(x x)) pour ∃x x(F(x x)) ∧ ∀x x, y ((F(x x)∧F(yy )) ⇒ x = y ). • On écrit ∃!x ! Comme dans le cas de la logique propositionnelle au chapitre VI, la description précédente de la syntaxe de la logique du premier ordre LΣ fait appel à divers symboles non définis, et, tant pour combler cette lacune que pour les développements ultérieurs, il est utile de définir ces éléments manquants ou, tout au moins, d’en fixer une contrepartie dans le monde des ensembles. $ Définition 1.12. (logique LΣ ) (i) Pour chaque entier i non nul, on note x i pour (0, i). On appelle symbole de constante toute suite finie de la forme (1, 0, a), et, pour k entier non nul, symbole d’opération k-aire toute suite finie de la forme (1, k, a), et symbole de relation k-aire toute suite finie de la forme (2, k, a) ; on appelle signature tout ensemble de symboles de constante, d’opération et de relation. (ii) Pour toute signature Σ, l’ensemble des termes de LΣ est défini comme le plus petit ensemble contenant les variables x i et les symboles de constante de Σ, et clos par chacune des transformations (t1 , ..., tk ) +→ (s, t1 , ..., tk ) pour s symbole d’opération k-aire de Σ. (iii) On note = la suite (2, 2, 0). Pour toute signature Σ, l’ensemble des formules atomiques de LΣ est défini comme l’ensemble des suites de la forme (=, t1 , t2 ) et (r, t1 , ..., tk ), avec r symbole de relation k-aire de Σ et t1 , ..., tk termes de LΣ . (iv) On pose ¬ := 1, ⇒ := 2, ∨ := 3, ∧ := 4, et, pour i entier non nul, on note xi la suite (4, i). Pour toute signature Σ, l’ensemble des xi la suite (3, i), et ∀x ∃x formules de LΣ est défini comme le plus petit ensemble contenant les formules atomiques de LΣ , et clos par chacune des transformations F +→ (¬, F ), (F, G) +→ xi , F ), F +→ (∀x xi , F ), (⇒, F, G), (F, G) +→ (∨, F, G), (F, G) +→ (∧, F, G), F +→ (∃x ! La définition précédente calque et précise celles des définitions 1.1, 1.3, et 1.5, tout en rendant explicite la structure d’arbre des formules. De la sorte, on attribue à chaque terme t et à chaque formule F des contreparties t et F qui sont des ensembles (finis). Par exemple, si t est le terme P(x x1 ∪ ∅ )) ∪ x 2 considéré dans la figure 1, l’ensemble t qui en est la contrepartie est la suite P!(P P, (P P, (∪ ∪, x 1 , ∅ ))), x 2 ), soit, en supposant (par exemple) qu’on a choisi les représentations ( , (P ! = (1, 1, 2), P = (1, 1, 3), ∪ = (1, 2, 3), et ∅ = (1, 0, 2), la suite ((1, 1, 2), ((1, 1, 3), ((1, 1, 3), ((1, 2, 3), (0, 1), (1, 0, 2)))), (0, 2)), dont on remarque qu’elle appartient à Vω . L’apparente dissymétrie entre les cas de ∃ et ∀ est justifiée par le désir de maintenir xry (...)) et le comportement vis-à-vis de la négation sous la forme d’une équivalence de ¬(∃x xry (¬(...)). ∀x 6 186 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] Il sera commode dans la suite de fixer une signature une signature de référence. $ Définition 1.13. (signature Σmax ) On note Σmax la signature consistant en tous les symboles (1, k, i) et (2, k, i) avec i entier non nul. On note Lmax la logique du premier ordre associée à la signature Σmax . ! Comme dans l’exemple précédent, on remarque que, pour toute signature Σ incluse dans Σmax , tout terme et toute formule de LΣ est un ensemble fini appartenant à Vω . Les signatures de l’exemple 1.2 entrent dans ce cadre, pour peu qu’on décide que le symboles de relation ∈ et # sont respectivement les suites (2, 2, 1) et (2, 2, 2), que le symbole de constante 0 est la suite (1, 0, 1), et que les symboles d’opération S , + , et · sont respectivement (1, 1, 1), (1, 2, 1), et (1, 2, 2). On laisse au lecteur le soin de choisir des définitions pour les symboles de Σens+ . Comme dans le cas propositionnel, on pourra dans la suite oublier la distinction entre une formule F et sa contrepartie ensembliste F. Malgré tout, en comme dans le cas des entiers, on continuera à utiliser des caractères spécifiques F, G, ... (plutôt que F, G,...) pour les formules afin d’insister sur le fait que, même s’ils sont représentables dans les ensembles, ces objets ne sont a priori pas des ensembles, et ne font donc pas partie du monde des ensembles. $ 1.2. Sémantique. ! Comme dans le cas de la logique propositionnelle, on attribue des valeurs de vérité aux formules du premier ordre. L’évaluation d’une formule est définie par référence à une réalisation convenable, à savoir un contexte où on interprête les symboles de base pour ensuite déterminer de proche en proche la valeur de la formule. " ! De même que la syntaxe, la sémantique des logiques du premier ordre n’est définie que pour refléter l’usage des formules comme sténographie des mathématiques, autrement dit déclarer une formule F formellement vraie quand la propriété qu’elle exprime est vraie dans un sens intuitif supposé clair. Dans le cas propositionnel, les seuls symboles non logiques sont les variables propositionnelles, et, pour initialiser l’évaluation, on attribue une valeur 0 ou 1 à ces variables. Dans le cas des logiques du premier ordre, les symboles non logiques sont d’une part les variables, et d’autre part les symboles de constante, d’opération et de relation spécifiques à la signature considérée. Calquée sur l’usage escompté des formules, l’initialisation de l’évaluation se fait en fixant un domaine où les variables sont astreintes à prendre leurs valeurs, et une interprétation de chaque symbole de la signature considére Σ par une opération ou une relation sur le domaine. Une telle donnée est appelée structure de type Σ, ou, de façon exactement synomyme, réalisation de LΣ , une expression qui souligne bien l’idée du passage du niveau abstrait des formules où rien n’est ni vrai ni faux à un niveau concret où les valeurs de vérité prennent un sens. $ Définition 1.14. (structure, réalisation) Soit Σ une signature. Une structure de type Σ, aussi appelée réalisation de LΣ , est une suite R composée d’un ensemble non vide Dom(R) appelé domaine de R, et, pour chaque symbole s de Σ, d’une interprétation sR de s dans R consistant, • pour un symbole de constante, en un élément de Dom(R), k • pour un symbole d’opération k-aire, en une application de Dom(R) dans Dom(R), • pour un symbole de relation k-aire, en une relation k-aire sur Dom(R), c’està-dire une application de Dom(R)k dans {0, 1} ou, de façon équivalente, une partie de Dom(R)k . VII.1. Logiques du premier ordre 187 Exemple 1.15. (structure) Soit R la suite (N, 0, S, +, ·). Alors R est une réalisation de Larith : le domaine est l’ensemble N des entiers naturels, l’interprétation 0 R du symbole de constante 0 dans R est l’entier 0, et, de la même façon, l’interprétation S R du symbole S est l’application successeur, l’interprétation + R du symbole + est l’addition des entiers, etc. La suite (Z, 0, S, +, ·) 7 est une autre structure de type Σarith , dont le domaine est cette fois l’ensemble des entiers √ relatifs, et de même (Q, 0, S, +, ·), mais aussi (N, 2,2 , +, +), ou (R, π, , −, +). ! Dès lors que les formules ne sont que de nature syntaxique, donc indépendante de toute interprétation et de toute structure, le choix des symboles est indifférent. Dans le cas de l’exemple 1.15 et des formules d’arithmétique, le choix de symboles tels que 0 ou de + est bien sûr influencé par le souci de lisibilité dès lors qu’on a en vue l’interprétation dans la structure particulière R. Mais rien n’interdirait d’utiliser d’autres symboles, de même que, symétriquement, rien (sinon les risques pratiques de confusion) n’interdit d’interpréter les symboles 0 ou + par le réel π ou la soustraction des réels, comme dans la dernière structure considérée ci-dessus. Il est maintenant facile de définir inductivement la valeur d’une formule dans une structure en transcrivant la signification usuelle des connecteurs et des quantificateurs. Le but est d’obtenir une valeur « vrai » ou « faux » — ou, de façon équivalente, 1 ou 0 — pour les formules closes, c’est-à-dire sans variable libre. Si p variables ont des occurrences libres, la valeur de la formule n’est définie que si des valeurs prises dans le domaine de la structure sont attribuées à ces variables, et la valeur de la formule dans une structure R se trouve naturellement définie comme une fonction de Dom(R)p dans {0, 1} et non un élément défini de {0, 1}. $ x1 , ..., x p ) un terme Notation 1.16. (variables) Ainsi qu’il est usuel, on note t(x x1 , ..., x p ) une où n’apparaissent que des variables parmi x 1 , ..., x p , et, de même, F(x formule où les seules variables ayant des occurrences libres sont parmi x 1 , ..., x p . Noter l’analogie avec les polynômes, qu’on peut voir comme des termes particuliers. Enfin, on utilise "a comme abréviation pour une suite finie (a1 , ..., ap ). Définition 1.17. (p-valeur) Soit Σ une signature, et R une réalisation de LΣ . x1 , ..., x p ) terme de LΣ , on appelle p-valeur de t dans R l’application tR,p Pour t(x de Dom(R)p dans Dom(R) définie inductivement par " si t est x i , ai tR,p ("a) = R,p R,p R,p s (t1 ("a), ..., tk ("a)) si t est s (t1 , ..., tk ). Il y a en principe une ambiguı̈té due à l’utilisation de la même notation pour les diverses additions : on pourrait noter plus précisément +N , +Z , etc. ; en pratique, on sait bien qu’il n’y a pas de danger puisque +N est la restriction de +Z , il n’empêche que ce n’est pas la même opération 7 188 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] x1 , ..., x p ) formule de LΣ , on appelle p-valeur de F dans R l’application Pour F(x R,p F de Dom(R)p dans {0, 1} définie récursivement par 1 = (tR,p a), tR,p a)) si F est t1 = t2 , 1 (" 2 (" R,p R,p R,p si F est r (t1 , ..., tk ), r (t1 ("a), ..., tk ("a)) R,p 1 − G ("a) si F est ¬G, R,p R,p si F est G∧H, inf(G ("a), H ("a)) R,p R,p R,p F ("a) = sup(G ("a), H ("a)) si F est G∨H, R,p R,p si F est G⇒H, sup(1 − G ("a), H ("a)) R,p R,p 1 = (G ("a), H ("a)) si F est G⇔H, R,p xi (G), sup{G (a1 , ..., ai−1 , x, ai+1 , ..., ap ); x ∈ Dom(R)} si F est ∃x inf{GR,p (a , ..., a , x, a , ..., a ); x ∈ Dom(R)} si F est ∀x xi (G), 1 i−1 i+1 p où 1= (x, y) vaut 1 si x = y et 0 sinon, et où {0, 1} est ordonné par 0 < 1. On note aussi Valp (F, R, "a) pour FR,p ("a). ! La définition précédente est fastidieuse mais triviale: la valeur FR,p (&a) correspond exactement à ce qu’on obtient lorsqu’on affecte la valeur ai à la variable x i , et qu’on évalue de proche en proche la formule en se servant des opérations et relations de R. Par exemple, la 1-valeur du terme x 1 + 1 dans la structure (N, 1, +) est l’application n +→ n + 1 de N dans lui-même. De x2 (x x1 = x 2 + 1 ) dans (N, 1, +) est 1 exactement pour même, la 1-valeur en n de la formule ∃x n $ 1. On pourra noter que la définition 1.17 est à la fois claire et en même temps assez étrange : en déclarant que R satisfait F∧G si R satisfait F et R satisfait G, on ne fait que reporter la définition de ∧ sur celle de la conjonction française « et » supposée pré-existante, et de même pour les autres connecteurs. Ceci ne pose pas de problème si on cherche seulement à mimer une situation métamathématique claire — ce qui est notre cas ici — mais ne serait guère satisfaisant pour qui prétendrait définir ainsi la sémantique ex nihilo (cf. section 4.5). Un point par contre qui n’est pas mystérieux est la dépendance de la valeur par rapport à l’entier p, c’est-à-dire par rapport à la sélection de variables considérée. En effet, une induction facile donne : $ x1 , ..., x p ) une formule de LΣ , et R une réalisation Lemme 1.18. Soient F(x R,p de LΣ . Alors la fonction F ne dépend que des variables x i qui ont au moins une occurrence libre dans F. On peut donc définir la valeur de façon non-ambiguë en ne considérant que les variables possédant au moins une occurrence libre. Définition 1.19. (valeur, satisfaction, modèle, valide, satisfaisable) Soit Σ une signature, et R une réalisation de LΣ . (i) Si F est une formule de LΣ dont les variables libres sont x i1 , ..., x in , alors, pour "a dans Dom(R)n , on définit la valeur FR("a), aussi notée Val(F, R, "a), comme la valeur commune de Valp (F, R, "b) pour toute suite "b vérifiant bi1 = a1 ,..., bin = an . (ii) On dit qu’une formule F est satisfaite, ou vraie, en "a, ou encore que F("a) est satisfaite, ou vraie, dans R, et on note R |= F("a), si on a Val(F, R, "a) = 1. On dit que F est satisfaite, ou vraie dans R, et on note R |= F, si on a R |= F("a) pour tout choix de "a dans Dom(R). VII.1. Logiques du premier ordre 189 (iii) Si T est une théorie de LΣ , on dit que R est modèle de T, noté R |= T, si R est une réalisation de LΣ et qu’on a R |= F pour chaque formule F dans T. (iv) Une formule, ou un ensemble de formules, est dite valide (resp. satisfaisable) si elle est vraie dans toute (resp. au moins une) structure. ! On notera que, lorsque &a est une suite d’éléments dans le domaine d’une structure, l’objet F(&a) n’est pas une formule : une formule est un objet purement syntaxique (un mot), alors qu’ici figurent les éléments &a, qui appartiennent au monde externe, à savoir au domaine dans lequel on évalue F. La notation usuelle R |= F(&a) est à considérer d’un seul tenant, et, de fait, il serait plus correct de noter (R, &a) |= F(& x ), en distinguant bien entre le sémantique, à gauche du symbole |=, et le syntaxique, à sa droite. $ x1 ∃x x2 (x x1 = x 2 + 1 ) est satisExemple 1.20. (satisfaction) La formule close ∀x Z N faite dans la structure (Z, 1, + ), mais pas dans (N, 1, + ), ce qu’on écrit x1 ∃x x2 (x x1 = x 2 + 1 ) et (Z, 1, +Z ) |= ∀x x1 ∃x x2 (x x1 = x 2 + 1 ), (N, 1, +N ) -|= ∀x x1 ∃x x2 (x x1 = x 2 + 1) et N -|= ∀x x1 ∃x x2 (x x1 = x 2 + 1) si les voire simplement Z |= ∀x interprétations des symboles sont suffisamment évidentes — mais il s’agit d’un abus de langage : aucun symbole n’a d’interprétation canonique prédéfinie. 1.3. Exprimabilité au premier ordre. ! On discute brièvement le pouvoir d’expression des logiques du premier ordre : celui-ci est grand, mais, d’un autre côté, certaines propriétés simples semblent difficiles à exprimer. " ! D’innombrables propriétés mathématiques sont exprimables en logique du premier ordre, ce qui est prévisible puisque les formules du premier ordre ont été introduites comme mise en forme précise des formules usuelles. C’est du reste pour cela qu’on a adopté une syntaxe aussi complète : une partie des fastidieuses vérifications pourrait être évitée en se restreignant par exemple aux symboles logiques ¬, ∨, ∃, mais on s’éloignerait ainsi de la pratique. $ Définition 1.21. (exprimable) Une propriété P des structures de type Σ est dite finiment exprimable 8 au premier ordre (resp. exprimable 9 au premier ordre) s’il existe une formule F (resp. une famille T de formules) de LΣ telle que, pour toute structure R de type Σ, la propriété P est vraie dans R si et seulement si la relation R |= F (resp. R |= T) est satisfaite. ! On pourrait penser que toute propriété peut être exprimée par une formule du premier ordre : ceci est essentiellement vrai dans la mesure où tous les objets mathématiques peuvent être représentés par des ensembles, et où la quasi-totalité des propriétés des ensembles mentionnées dans la suite sont exprimées par des formules ensemblistes du premier ordre (cf. exemple 1.27). Par contre, lorsqu’on étudie un type d’objet particulier dans un cadre spécifique, c’est-à-dire relativement à une signature fixée, alors les contraintes découlant de la définition des formules entraı̂nent qu’il existe des propriétés non exprimables à l’aide de formules du premier ordre, ou, tout au moins, n’apparaissent a priori pas comme telles de façon claire. $ 8 9 ou encore finiment axiomatisable ou encore axiomatisable 190 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] Exemple 1.22. (ordres) La propriété que (A, <) est un ordre (strict) est finiment exprimable au premier ordre en la signature restreinte à un symbole de relation binaire : (A, <) est un ordre si et seulement si (A, <) satisfait la formule du premier ordre x < y < z ⇒ x < z )). x ∀yy ∀zz (¬(x x < x ) ∧ (x ∀x De même la propriété que (A, <) soit un ordre total ; par contre, la propriété d’être un bon ordre pose problème puisque la définition alias X (∃x x(x x ∈ X ) ⇒ ∃x x(x x∈X ∀X ∧ X (¬(yy < x )))), ∀yy ∈X X (yy )⇒¬(yy < x )))), X (∃x x(X X (x x)) ⇒ ∃x x(X X (x x) ∧ ∀yy (X ∀X n’est pas du premier ordre, puisqu’elle utilise des variables référant à deux types d’objets distincts, ici les éléments et les sous-ensembles du domaine, alias les x1 > x 2 > ...), qui x1 , x 2 , ...)(x relations unaires sur celui-ci. On remarquera que ¬(∃x exprime une propriété équivalente modulo l’axiome des choix dépendants, n’est pas non plus du premier ordre puisqu’elle est de longueur infinie, pas davantage n∈N (ss(n n) > s (n n + 1))), qui fait appel à deux types d’objets. que ¬(∃ss ∀n Exemple 1.23. (groupes) Que la structure (G, ∗) composée d’un ensemble et d’une opération binaire ∗ sur cet ensemble soit un groupe est exprimé par la conjonction des deux formules x, y , z (x x ∗ (yy ∗ z ) = (x x ∗ y ) ∗ z ), ∀x x ∗ y = y ∗ x = e )), x (x x ∗ e = e ∗ x = x ∧ ∃yy (x ∃ee ∀x et est donc finiment exprimable au premier ordre. Noter que la propriété que G est un groupe d’opération ∗, d’élément neutre 1 et d’inverse −1 s’exprime également, relativement à la signature comprenant une constante 1 , une opération unaire −1 et une opération binaire ∗ par la formule alternative x, y , z (x x ∗ (yy ∗ z ) = (x x ∗ y) ∗ z ∀x ∧ x ∗ 1 = 1 ∗ x = x ∧ x ∗ x−1 = x−1 ∗ x = 1) ne comportant que des quantifications universelles. De même, la propriété d’être x(x x ∗ x ∗ ... ∗ x = 1 ), avec p fois x — de p-torsion est exprimée par la formule ∀x où on convient que t1 ∗ t2 ∗ t3 signifie t1 ∗ (t2 ∗ t3 ). Par contre, pour la propriété d’être de torsion, c’est-à-dire que chaque élément est de p-torsion pour au moins x ∃p∈ N (x xp = 1 ) ne un p, dépendant éventuellement de l’élément, la formule ∀x convient pas, car elle fait intervenir deux variables de types différents. La formule x(x x = 1 ∨ x ∗ x = 1 ∨ x ∗ x ∗ x = 1 ∨ ...) ne convient pas davantage, alternative ∀x puisqu’elle est infinie. La question reste donc ouverte pour le moment. Exemple 1.24. (corps) Etre un corps est finiment exprimable au premier ordre, par rapport à une signature comportant deux symboles d’opération binaire, et des symboles de constante pour les éléments neutres. La propriété additionnelle d’être algébriquement clos s’exprime à l’aide d’une liste (infinie) de formules du VII.1. Logiques du premier ordre 191 premier ordre : il suffit d’exprimer, pour chaque entier n, que chaque polynôme de xn ∗ y n + · · · + x 1 ∗ x0 , x 1 , ..., x n ∃yy (x degré n a un zéro, ce que fait la formule close ∀x n x0 = 0 ), où y est une notation abrégée pour y ∗(yy ∗...)), n fois y . Il s’agit donc y +x d’une propriété exprimable au premier ordre, mais, a priori, pas nécessairement finiment exprimable. La propriété d’être de caractéristique p est exprimée par l’unique formule 1 + 1 + · · · + 1 = 0 , p fois 1 , et elle est donc finiment exprimable au premier ordre. D’un autre côté, la propriété d’être de caractéristique nulle s’exprime à l’aide de la famille infinie de formules 1 + 1 -= 0 , 1 + 1 + 1 -= 0 , 1 + 1 + 1 + 1 + 1 -= 0 , etc. : la notion est donc exprimable au premier ordre, mais a priori pas nécessairement finiment exprimable. Exemple 1.25. (espaces vectoriels) Il semble y avoir une difficulté, car deux types d’objets différents, les scalaires et les vecteurs, entrent en jeu. En fait, supposant le corps de base K fixé, on peut exprimer que E est un K-espace vectoriel à l’aide de formules du premier ordre en introduisant l’opération unaire x +→ λx pour chaque scalaire λ. Les seules variables à considérer sont alors les vecteurs, et les axiomes sont des formules du premier ordre. Exemple 1.26. (arithmétique) Le système de Peano constitue une base commode, et il met en jeu la signature Σarith de l’exemple 1.2. Suivant la définition III.1.8, les six premiers axiomes du système de Peano sont des formules de Larith . Par contre, l’axiome d’induction (1.4) x(X X (x x) ⇒ X (S S (x x)))) ⇒ ∀x x(X X (x x))), X ((X X (00) ∧ ∀x ∀X n’est pas du premier ordre, puisqu’y figure la variable X qui réfère non à un élément, mais à un sous-ensemble du domaine dans lequel il s’agit d’évaluer la formule. Cette difficulté est contournée en introduisant un nouveau système PA1 , dit Peano du premier ordre, dans lequel on substitue à l’axiome d’induction 1.4 la liste infinie des formules du premier ordre (1.5) x(F(x x)⇒F(S S (x x)))) ⇒ ∀x x(F(x x)) (F(00) ∧ ∀x pour F formule de Larith à une variable libre. Ceci revient à restreindre l’induction x ; F(x x)}, c’est-à-dire aux ensembles d’entiers qui peuvent aux ensembles du type {x être définis par une formule — lesquels forment une famille dénombrable, alors que la famille de tous les ensembles d’entiers est non dénombrable. Exemple 1.27. (théorie des ensembles) Les axiomes de Zermelo–Fraenkel constituent une liste (infinie) de formules closes de Lens . L’option de restreindre l’étude aux ensembles purs est essentielle ici, car c’est elle qui rend raisonnable de ne considérer qu’un seul type d’objet, à savoir des ensembles purs. La structure de référence dans laquelle il semble naturel d’évaluer les formules est la classe V de tous les ensembles purs, munie de l’appartenance : poser que les axiomes du système ZF sont satisfaits signifie admettre qu’on a (V, ∈) |= A pour chaque axiome A de ZF. Néanmoins, il y a une difficulté à parler ici d’une structure 192 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] dont le domaine n’est pas un ensemble, qui contredit au moins la lettre de la définition 1.14. Ceci sera précisé au chapitre IX. 2. Preuves en logique du premier ordre ! On décrit une notion de preuve pour les logiques du premier ordre calquée, comme dans le cas de la logique propositionnelle booléenne, sur des règles de déduction usuelles. On étudie ici les preuves ainsi obtenues et, en particulier, on établit le théorème de complétude de Gödel qui affirme la coı̈ncidence entre validité et prouvabilité. " ! Le théorème de complétude de Gödel est un des résultats fondamentaux de la logique. Sa portée est vaste car il garantit que, pour ce qui est des propriétés exprimables par une formule du premier ordre, les méthodes de démonstration usuelles — et, plus spécifiquement, celles qu’on choisit d’inclure ci-dessous dans la définition des preuves — sont exhaustives (cf. section 4). $ 2.1. Preuves. ! Comme dans le cas propositionnel, on introduit une notion de preuve pour la logique du premier ordre à l’aide de règles de déduction, un cas particulier étant constitué par les axiomes, qui sont des règles sans argument permettant de poser une formule comme point de départ. " ! A titre de remarque préliminaire, notons qu’à la différence du cas propositionnel où la validité d’une formule peut toujours être décidée sémantiquement en testant toutes les affectations de valeurs de vérité possibles, il n’existe aucun algorithme naı̈f pour reconnaı̂tre si une formule du premier ordre est valide ou satisfaisable : aucune restriction n’est imposée aux structures à considérer et la validité met en jeu une infinité de structures possibles ; on peut tester si une formule est satisfaite ou non dans une structure de domaine fini, mais ceci est impossible dès qu’on considère des structures infinies, ou une infinité de structures même finies. $ Définition 2.1. (libre) Si F est une formule, x une variable dont toutes les x←t) 10 la formule obtenue occurrences sont libres dans F, et t un terme, on note F(x en remplaçant chaque occurrence de x dans F par t. On dit alors que t est libre pour x dans F si toutes les occurrences de variables dans t donnent des occurrences x←t). libres dans F(x Exemple 2.2. (libre) Soit F la formule ∃yy (yy -= x ). La variable x n’a qu’une occurrence, libre, dans F. Si z n’est pas y , alors z est libre pour x dans F. Par contre x←yy ), qui est ∃yy (yy -= y ), l’occurrence y n’est pas libre pour x , puisque, dans F(x de y soulignée, créée par la substitution à x , n’est pas libre. Définition 2.3. (axiome, généralisation, preuve) (i) Soit Σ une signature. On appelle axiomes de LΣ • les instances dans LΣ des axiomes du calcul propositionnel, c’est-à-dire toutes les formules obtenues à partir d’un axiome de L• en substituant des formules de LΣ aux variables propositionnelles, x(F⇒G)⇒(F⇒ ∀x x (G)) avec x sans occurrence libre dans F, • les formules ∀x x) ou simplement F(t) s’il n’y a pas ambiguı̈té, et notamment lorsqu’on a écrit F(x auparavant 10 VII.2. Preuves en logique du premier ordre 193 x(F(x x))⇒F(t) avec t libre pour x dans F(x x), les formules ∀x x(¬F)⇔¬ ∀x x (F), • les formules ∃x x1 = x 2 ∧ x 2 = x 3 ) ⇒ x 1 = x 3 , et • les formules x 1 = x 1 , x 1 = x 2 ⇒ x 2 = x 1 , (x x1 , ..., x k ) = s (x xk+1 , ..., x 2k )), x1 = x k+1 ∧...∧x k = x 2k ) ⇒ (ss(x (x x1 , ..., x k ) ⇔ r(x xk+1 , ..., x 2k )) x1 = x k+1 ∧...∧x k = x 2k ) ⇒ (r(x (x avec s , r respectivement symbole d’opération et de relation k-aire de Σ. (ii) On dit que G se déduit de F par généralisation s’il existe i tel que G est xi (F). ∀x (iii) On dit que F1 , ..., Fp est une preuve (par coupure, généralisation et axiomes) à partir de T dans LΣ si, pour chaque i, la formule Fi est dans T, ou est un axiome de LΣ , ou il existe j < i tel que Fi est obtenu par généralisation à partir de Fj , ou il existe j, k < i tels que Fi est obtenu par coupure 11 à partir de Fj et Fk . On note T 1LΣ F, ou T 1 F s’il existe une preuve à partir de T se terminant par F. • ! Les axiomes et les règles de la définition 2.3 correspondent tous à des schémas de démonstration usuels et on peut donc s’attendre à ce qu’ils soient compatibles avec la sémantique : si ces règles ont été considérées comme pertinentes depuis des siècles, c’est qu’elles ne mènent pas à des conclusions réfutables. La vérification formelle de la compatiblité avec la sémantique de la définition 1.19 se fait par une induction facile qui paraphrase les arguments dits de bon sens, et qu’on ne détaillera pas. Les seuls points à remarquer sont la nécessité des restrictions posées. En effet, dans les axiomes du deuxième groupe, la restriction sur les variables libres est nécessaire pour que la formule soit valide : par exemple, si 0 est un symbole de constante, la x(x x=00⇒x x=00) est valide, alors que la formule x=00⇒ ∀x x (x x=00) ne l’est pas, puisque, si formule ∀x R est une réalisation dont le domaine a au moins deux éléments, il existe a dans DomR tel que x(x x=00) ne l’est pas, soit R -|= a=00⇒ ∀x x (x x=00). De même, a=00 est satisfait dans R, alors que ∀x dans les axiomes du troisième groupe, la restriction sur les termes pouvant être substitués est x ∃yy (yy -= x ) ⇒ ∃yy (yy -= y ) n’est pas valide, puisque ∀x x ∃yy (yy -= x ) est nécessaire : la formule ∀x satisfaisable alors que ∃yy (yy -= y ) ne l’est pas. $ Proposition 2.4. (cohérence) Si T est une théorie et F une formule de LΣ vérifiant T 1 F, toute structure satisfaisant T satisfait aussi F. En particulier, si T est valide, il en est de même de F. Par conséquent, 1 F entraı̂ne |= F : toute formule prouvable est valide. ! Comme dans le cas propositionnel, c’est la réciproque de cette propriété, c’est-à-dire la complétude, qui constitue le résultat non trivial, puisqu’il s’agit de montrer que les quelques schémas de preuves introduits dans la définition 2.3 épuisent toutes les possiblités compatibles avec la sémantique. Comme au chapitre VI, on va établir une forme globale de complétude mettant en jeu une famille de formules plutôt qu’une formule unique, mais, à la différence du cas précédent, on va commencer par la forme globale. On verra plus loin que cette forme globale de complétude entraı̂ne la forme locale (« toute formule valide est prouvable »), ainsi que plusieurs autres corollaires non triviaux. $ Appelant comme on chapitre VI consistante toute théorie T qui ne prouve jamais à la fois une formule et sa négation, on va démontrer le résultat suivant, dû à Kurt Gödel : 11 c’est-à-dire que Fj est la formule Fi ⇒Fk 194 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] Proposition 2.5. (théorème de complétude) Soit Σ une signature bien ordonnable 12 . Alors toute théorie consistante de LΣ admet un modèle dont le domaine est bien ordonnable de cardinal au plus max(ℵ0 , card(Σ)). 2.2. Le théorème de la déduction. ! La démonstration du théorème de complétude passe par des résultats préparatoires, dont chacun pris séparément est facile. Le premier est un énoncé analogue au théorème de la déduction du calcul propositionnel. " Lemme 2.6. (i) Toute formule de LΣ qui est une instance d’une formule propositionnelle valide est prouvable. X 1 , ..., X n ) une formule propositionnelle dont les variables sont parmi (ii) Soit H(X X 1 , ..., X n . Si une théorie T de LΣ prouve Fi ⇔Gi pour i = 1, ..., n, alors T prouve H(F1 , ..., Fn ) ⇔ H(G1 , ..., Gn ) 13 . Démonstration. (i) Supposons F = H(F1 , ..., Fn ), où H est une formule propositionnelle valide. Par le théorème de complétude propositionnel, H est prouvable par coupure à partir des axiomes de L• : il existe une preuve H1 , ..., Hp dans L• se terminant par H. Alors la suite H1 (F1 , ..., Fn ), ..., Hp (F1 , ..., Fn ) 14 est une preuve dans LΣ : une instance d’un axiome de L• est un axiome de LΣ , et la coupure est, en un sens évident, compatible avec la substitution. (ii) On applique (i) à la formule propositionnelle valide X 1 ⇔Y Y 1 )⇒((X X 2 ⇔Y Y 2 )⇒(...((X X n ⇔Y Y n )⇒H(X X 1 , ..., X n )⇔H(Y Y 1 , ..., Y n )))...)) (X pour obtenir T 1 (F1 ⇔G1 )⇒((F2 ⇔G2 )⇒(...((Fn ⇔Gn )⇒H(F1 , ..., Fn )⇔H(G1 , ..., Gn ))...)), d’où T 1 H(F1 , ..., Fn )⇔H(G1 , ..., Gn )) en appliquant n coupures. Proposition 2.7. (théorème de la déduction) Soient T une théorie et F, G deux formules de LΣ . On suppose F close. Alors T 1 F⇒G équivaut à T∪{F} 1 G. Démonstration. Comme dans le cas propositionnel, il est clair que la condition est nécessaire, car, si on a T 1 F⇒G, alors T ∪ {F} prouve à la fois F et F⇒G, donc G par coupure. Inversement, on montre par récurrence sur n que, s’il existe une preuve de longueur n de G à partir de T ∪ {F}, alors il existe une preuve de F⇒G à partir de T. Supposons que H1 , ..., Hn est une preuve de G à partir de T ∪ {F}. Par hypothèse de récurrence, il existe une preuve à partir de T pour chacune des formules F⇒H1 , ..., F⇒Hn−1 . On considère Hn , c’est-à-dire G. Quatre cas sont possibles. X ⇒Y Y ) est une formule (i) La formule G est un axiome, ou une formule de T. Comme Y ⇒(X propositionnelle valide, on a T 1 G et, par le lemme 2.6, 1 G⇒(F⇒G), d’où T 1 G⇒(F⇒G) a fortiori, puis, par coupure, T 1 F⇒G. X est valide, donc, par le (ii) La formule G est la formule F. La formule propositionnelle X ⇒X 12 On n’a pas posé de restriction sur la taille de la signature ; l’hypothèse que la signature est une liste bien ordonnée, automatiquement vérifiée si la signature est finie ou dénombrable, évite le recours ultérieur à l’axiome du choix 13 en notant H(F1 , ..., Fn ) la formule obtenue à partir de H en substituant Fi à X i pour i = 1, ..., n 14 une récurrence montre qu’on peut toujours supposer que seules les variables propositionnelles apparaissant dans la dernière formule apparaissent dans les formules intermédiaires VII.2. Preuves en logique du premier ordre 195 lemme 2.6, on a 1 F⇒F et, a fortiori, T 1 F⇒G. x(Hj ) pour une certaine variable x . Par hypothèse de récurrence, (iii) Il existe j < n tel que G est ∀x x (Hj )) en ajoutant il existe une preuve à partir de T pour F⇒Hj . On obtient une preuve de F⇒ ∀x à cette preuve x(F⇒Hj ) ∀x (généralisation) x(F⇒Hj )⇒(F⇒ ∀x x (Hj )) ∀x (axiome de LΣ puisque F est close) x (Hj ), F⇒ ∀x (coupure) (iv) Il existe i, j < n tels que Hj est une formule Hi ⇒G. L’argument est alors rigoureusement le même que dans le cas propositionnel. Corollaire 2.8. Soient T est une théorie et F une formule de LΣ . (i) La théorie T prouve F si et seulement si T ∪ {¬F} est inconsistant. (ii) Si T est consistante, l’une au moins des extensions T ∪ {F}, T ∪ {¬F} est consistante. Démonstration. (i) Supposons T 1 F. Alors T∪{¬F} prouve à la fois F et ¬F, donc est inY ⇒X X) consistant. Inversement, supposons que T∪{¬F} prouve à la fois G et ¬G. Comme Y ⇒(¬Y est une formule propositionnelle valide, G⇒(¬G⇒F) est prouvable par le lemme 2.6, donc, par X ⇒X X )⇒X X coupure, T∪{¬F} prouve F. Par le théorème de la déduction, on a T 1 ¬F⇒F. Or (¬X est une formule propositionnelle valide, donc, toujours par le lemme 2.6, (¬F⇒F)⇒F est prouvable, et, par coupure, on obtient T 1 F. (ii) Supposons T ∪ {F} et T ∪ {¬F} inconsistantes. Alors T ∪ {¬¬F} est inconsistant, car ¬¬F⇒F est un axiome, et on déduit de toute preuve utilisant F comme hypothèse une preuve utilisant ¬¬F à la place. Utilisant (i) on déduit que T prouve ¬F et F, donc est inconsistante. 2.3. Théories explicitement complètes. ! On établit le résultat du théorème de complétude, c’est-à-dire l’existence d’un modèle, pour des théories consistantes d’un type particulier, dites explicitement complètes. " ! La difficulté pour démontrer le théorème de complétude est de construire ex nihilo une réalisation de LΣ satisfaisant des formules prescrites. Comme, a priori, les seuls objets disponibles sont les objets syntaxiques tels que termes ou formules, il est naturel de chercher à construire un modèle à partir de ces objets. Le principe de base consiste à construire un modèle M dont le domaine soit l’ensemble des termes construits à partir des seuls symboles de constante de la logique LΣ considérée, de sorte que l’interprétation d’un terme t dans M soit t lui-même. Cette approche naı̈ve ne peut certainement pas réussir dans tous les cas, et pour de multiples raisons : il se peut que Σ ne contienne aucun symbole de constante, il se peut que la théorie T prouve des égalités t = t$ entre des termes différents, enfin (et surtout) cette approche ne peut rien garantir pour les formules avec quantificateurs. Chacune de ces difficultés peut être contournée. Dans cette section, on montre comment construire un modèle suivant le schéma esquissé ci-dessus dans le cas où la théorie vérifie certaines hypothèses ad hoc. On montrera dans la section suivante qu’on peut toujours se ramener à ce cas favorable. $ Définition 2.9. (complète, explicitement complète) Une théorie consistante T de LΣ est dite complète si, pour toute formule close F de LΣ , la théorie T prouve soit F, soit ¬F ; elle est dite explicitement complète si elle est complète et x) de LΣ à une seule variable libre telle que T si, de plus, pour toute formule F(x x(F(x x)), il existe un symbole de constante c telle que T prouve F(cc). prouve ∃x 196 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] ! Une théorie explicitement complète a donc une opinion définie, positive ou négative, sur chaque formule close, et, par ailleurs, la signature est suffisamment riche pour contenir, pour chaque formule close existentielle, un nom pour un élément distingué la vérifiant dès qu’il en existe. Pour une théorie explicitement complète T, la construction d’un modèle à partir des termes sans variable est facile, à ceci près que T peut prouver des égalités entre termes distincts. La solution est évidente : pour peu que la relation T 1 t = t$ soit une congruence, c’est-à-dire soit une relation d’équivalence compatible avec les opérations et les relations, il suffit de passer au quotient. $ Lemme 2.10. Supposons que T est une théorie explicitement complète de LΣ . Soit CΣ l’ensemble des termes sans variable de LΣ et soit ≡ la relation sur CΣ définie par t ≡ t# ⇔ T 1 t = t# . Alors ≡ est une relation d’équivalence compatible avec les opérations et relations de Σ au sens où la conjonction de t1 ≡ t#1 , ..., tk ≡ t#k entraı̂ne s(t1 , ..., tk ) ≡ s(t#1 , ..., t#k ) pour tout symbole k-aire d’opération s et r (t1 , ..., tk ) ⇔ r (t#1 , ..., t#k ) pour tout symbole k-aire de relation r . Démonstration. L’hypothèse que T est explicitement complète garantit qu’il existe au x(x x = x ), et moins un symbole de constante dans Σ puisque T prouve au moins l’axiome ∃x x1 (x x1 = x 1 ) par donc CΣ n’est pas vide. Comme x 1 = x 1 est un axiome de LΣ , on déduit 1 ∀x généralisation, puis 1 t = t par particularisation, donc a fortiori T 1 t = t, soit t ≡ t. Utilisant x2 = x 1 et (x x1 = x 2 ∧ x 2 = x 3 )⇒x x1 = x 3 , on obtient de la même façon les axiomes x 1 = x 2 ⇒x que ≡ est symétrique et transitive, donc c’est une relation d’équivalence. x1 = x k+1 ∧...∧x k = x 2k ) ⇒ s (x x1 , ..., x k ) = Pour s symbole d’opération k-aire, la formule (x xk+1 , ..., x 2k ) est un axiome de LΣ . Par généralisation et particularisation, on déduit que, si on s (x a ti ≡ t$i pour i = 1, ...k, alors on a T 1 s (t1 , ..., tk ) = s (t$1 , ..., t$k ), soit s (t1 , ..., tk ) ≡ s (t$1 , ..., t$k ). Par conséquent ≡ est compatible avec s . x1 = x k+1 ∧...∧x k = x 2k ) ⇒ (rr (x x1 , ..., x k ) ⇔ r (x xk+1 , ..., x 2k )) pour Enfin, utilisant l’axiome (x r symbole de relation k-aire de Σ, et supposant toujours ti ≡ t$i pour i = 1, ...k, on déduit T 1 r (t1 , ..., tk )⇔rr (t$1 , ..., t$k ). Par conséquent ≡ est compatible avec r . Lemme 2.11. (i) Toute théorie explicitement complète de LΣ admet un modèle dont le domaine est un quotient de l’ensemble des termes sans variable de LΣ . (ii) Si la signature Σ est bien ordonnable, toute théorie explicitement complète de LΣ admet un modèle dont le domaine est un sous-ensemble de l’ensemble des termes sans variable de LΣ . Démonstration. (i) Soit, comme dans le lemme 2.10, CΣ l’ensemble des termes sans variable de LΣ . Pour t dans CΣ , on note [t] la ≡-classe de t. On définit une structure M de domaine CΣ / ≡ comme suit: pour c symbole de constante, c M est [cc]; pour s symbole d’opération k-aire, s M est définie par s M ([t1 ], ..., [tk ]) := [ss(t1 , ..., tk )] ; pour r symbole de relation k-aire, on déclare r M ([t1 ], ..., [tk ]) vrai pour T 1 r (t1 , ..., tk ). Le lemme 2.10 légitime ces définitions, et une induction facile donne tM = [t] pour tout terme sans variable t. Il reste à voir que la structure M ainsi construite est un modèle de T. On va montrer que, pour toute formule close F de LΣ , la structure M satisfait F si et seulement si T prouve F. On raisonne par induction sur le nombre d’occurrences de quantificateurs dans F et, pour un nombre donné, par récurrence sur la longueur. Si F est atomique, elle est du type t = t$ ou r (t1 , ..., tk ), où t, t$ , t1 , ..., tk sont des termes sans variable. Dans le premier cas, M |= t = t$ équivaut à t ≡ t$ , donc à T 1 t = t$ . Dans le second, M |= r (t1 , ..., tk ) équivaut à T 1 r (t1 , ..., tk ) par définition de r M . VII.2. Preuves en logique du premier ordre 197 Supposons F = ¬G. Si on a T 1 F, alors, comme T est consistante, on a T -1 G, donc, par hypothèse d’induction, M -|= G, donc M |= ¬G, soit M |= F. Inversement, supposons M |= F. Alors on a M -|= G, donc, par hypothèse d’induction, T -1 G. L’hypothèse que T est explicitement complète implique T 1 F. Supposons F = G∧H. Si on a T 1 F, alors on a nécessairement T 1 G et T 1 H, car G et H sont prouvables à partir de {G∧H}. Par hypothèse d’induction, on déduit M |= G et M |= H, d’où M |= G∧H, soit M |= F. Inversement, supposons M |= F, donc M |= G et M |= H. Par hypothèse d’induction, on a T 1 G et T 1 H, d’où T 1 F puisque G∧H est prouvable à partir de {G, H}. Les cas de ∨, ⇒, et ⇔ sont similaires. x(G(x x)). Supposons T 1 F. Soit t quelconque dans CΣ . Comme Supposons que F est ∀x x(G(x x))⇒G(t) est un axiome, on a T 1 G(t), d’où, par hypothèse d’induction, M |= G([t]). ∀x Ceci étant valable pour tout terme dans CΣ , on a M |= F. Inversement, supposons T -1 F. x (G(x x)). Comme L’hypothèse que T est explicitement complète entraı̂ne T 1 ¬F, soit T 1 ¬ ∀x x (G(x x))⇔ ∃x x (¬G(x x)) est un axiome, on déduit T 1 ∃x x(¬G(x x)). Puisque T est explicitement ¬ ∀x complète, il existe un symbole de constante c dans Σ tel qu’on ait T 1 ¬G(cc). On a donc M |= x(¬G(x x)), donc M -|= ∀x x(G(x x)). ¬G([cc]) par hypothèse d’induction, et, par conséquent, M |= ∃x x(G(x x)). Si on a T 1 F, alors, comme ci-dessus, on doit avoir Supposons enfin que F est ∃x T 1 G(cc) pour un certain symbole de constante c , d’où M |= G([cc]) par hypothèse d’induction, et donc M |= F. Inversement, si on a M |= F, il doit exister un terme t dans CΣ vérifiant M |= G([t]), d’où T 1 G(t) par hypothèse d’induction. L’hypothèse que T est explicitement x(¬G(x x)), puis complète entraı̂ne que, si T ne prouvait pas F, il prouverait ¬F, et, de là, ∀x ¬F(t), ce qui contredit le résultat précédent. On a donc T 1 F. (ii) Si on suppose la signature Σ bien ordonnable (donc en particulier si Σ est finie ou dénombrable), alors il existe une énumération (tα )α<κ des termes sans variable de LΣ , et, dans chaque classe d’équivalence [t], on peut sélectionner comme élément distingué le terme tα de ! plus petit indice. On obtient ainsi une structure M$ telle que l’interprétation tM d’un terme sans variable est tα avec α minimal tel que T prouve t = tα . Les détails sont faciles. 2.4. La méthode de Henkin. ! On complète la démonstration du théorème de complétude en montrant que toute théorie consistante admet une extension explicitement complète. " On va maintenant établir le résultat suivant : Lemme 2.12. Soit Σ une signature bien ordonnable et T une théorie consistante de LΣ . Alors il existe une signature Σ# de cardinal max(ℵ0 , card(Σ)) incluant Σ et une théorie explicitement complète T# de LΣ! incluant T. Conjugué au lemme 2.11, le lemme 2.12 entraı̂ne le théorème de complétude (proposition 2.5), puisqu’un modèle pour T# donne un modèle pour T lorsqu’on oublie les symboles de Σ# \ Σ. ! Deux lacunes peuvent rendre une théorie consistante T non explicitement complète, à savoir l’existence de formules closes F telles que T ne prouve ni F, ni ¬F, et celle de formules x(F(x x)) telles que T prouve ∃x x(F(x x)) mais qu’il n’existe pas de constante c telle que closes ∃x T prouve F(cc). Le principe est d’ajouter de proche en proche à T des formules et à Σ des constantes de façon à combler ces lacunes. Un peu de soin est nécessaire pour garantir que la consistance est maintenue à chaque étape, et que rien n’a été oublié à la fin. $ 198 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] Lemme 2.13. Supposons que Σ est une signature bien ordonnable de cardinal κ. Alors les termes, les formules, et les formules closes de LΣ forment des ensembles bien ordonnables de cardinal max(ℵ0 , κ). Démonstration. Il s’agit de fixer des énumérations des termes, formules, et formules closes de LΣ à partir d’une énumération des symboles de Σ. La tâche est facile une fois fixée une bijection entre κ et les suites finies d’éléments de κ. On renvoie au chapitre VIII où ceci sera fait de façon explicite (dans le cas κ = ℵ0 ). ! L’avant-dernier lemme préparatoire est une version formelle de la méthode usuelle consistant à démontrer une formule close en donnant un nom non encore utilisé à un objet plutôt qu’à utiliser partout une variable avec un quantificateur ∀. $ x) une formule à une seule variable Lemme 2.14. Soient T une théorie, F(x libre, et c un symbole de constante n’apparaissant pas dans F ni dans T. Alors x(F(x x)); (i) la relation T 1 F(cc) entraı̂ne T 1 ∀x x(F(x x))} est consistant, il en est de même de T ∪ {F(cc)}. (ii) si T ∪ {∃x Démonstration. (i) Soit F1 , ..., Fn une preuve de F(cc) à partir de T. Soit x une variable n’apparaissant dans aucune des formules Fi , et soit F$i la formule obtenue en remplaçant partout c par x . Alors F$1 , ..., F$n est une preuve à partir de T : si Fi est un axiome, il en est de même de F$i ; si Fi est dans T, on a F$i = Fi puisque, par hypothèse, c n’apparaı̂t pas dans T ; si Fi est obtenue par généralisation à partir de Fj , il en est de même pour F$i à partir de F$j puisque la variable sur laquelle on quantifie n’est pas x ; enfin si Fi est obtenue par coupure à partir de Fj x), puis, par et Fk , il en est de même pour F$i à partir de F$j et F$k . Donc T prouve F$n , qui est F(x x x généralisation, ∀x (F(x )). (ii) Supposons T ∪ {F(cc)} non consistant. Par le corollaire 2.8 du théorème de la déduction, x(¬F(x x)) en appliquant (i) à ¬F, puis T 1 ¬ ∃x x (F(x x)), qui on obtient T 1 ¬F(cc), d’où T 1 ∀x x x contredit la consistance de T ∪ {∃x (F(x )}. ! On en vient au dernier lemme préparatoire. Lorsqu’on passe d’une signature Σ à une signature plus riche Σ$ , il y a davantage de formules dans LΣ! que dans LΣ , donc davantage de preuves, et il se pourrait a priori qu’une théorie consistante de LΣ devienne inconsistante dans LΣ! . Ce n’est pas le cas : $ Lemme 2.15. Supposons que T est une théorie consistante de LΣ , et que Σ# est obtenue à partir de Σ en ajoutant des symboles de constantes. Alors T est une théorie consistante de LΣ! . Démonstration. Supposons que F1 , ..., Fp et G1 , ..., Gq sont des preuves respectivement de H et de ¬H à partir de T dans LΣ! . Soient c 1 , ..., c r les symboles de constantes de Σ$ \ Σ apparaissant dans ces preuves, et soient z 1 , ..., z r des variables n’y apparaissant pas. Soient F$i et G$i les formules obtenues à partir de Fi et Gi en remplaçant chaque c n par z n . Comme dans la démonstration du lemme 2.14, on voit que F$1 , ..., F$p et G$1 , ..., G$q sont des preuves de LΣ , et, par construction, F$p est la négation de G$q , donc T n’est pas consistante dans LΣ . Ce contexte précisé, on peut démontrer le lemme 2.12. Démonstration du lemme 2.12. Soit κ := max(ℵ0 , card(Σ)). On définit Σ$ comme la signature obtenue en ajoutant à Σ une suite de symboles de constantes (ccα )α<κ indexée par κ. Alors Σ$ est une signature bien ordonnable de cardinal κ. Par le lemme 2.13, on peut fixer une énumération (Fα )α<κ des formules closes de LΣ! . VII.3. Applications du théorème de complétude 199 Le but est d’étendre T en une théorie explicitement complète de LΣ! . Pour cela, on construit récursivement une suite croissante de théories consistantes (Tα )α!κ de LΣ! de sorte que Tκ soit explicitement complète. De plus, la construction assurera que, pour α < κ, les ordinaux γ tels que c γ figure dans au moins une des formules de Tα forment un segment initial propre de κ. On part de T0 := T. L’hypothèse que T est consistante comme théorie de LΣ et le lemme 2.15 garantissent que T est consistante comme théorie de LΣ! , et l’induction peut commencer. ! Pour λ ordinal limite, on pose Tλ := α<λ Tα . La seule chose à vérifier est la consistance de Tλ . Or une réunion croissante de théories consistantes est consistante, en vertu du lemme VI.3.12(iii), dont l’adaptation de L• à LΣ est immédiate. Supposons α = β + 1. Il s’agit de définir Tα à partir de Tβ . On considère la formule Fβ . Deux cas sont possibles. Si Tβ ∪ {Fβ } n’est pas consistante, alors, par le corollaire 2.8(ii), Tβ ∪ {¬Fβ } est consistante, et on pose Tα := Tβ ∪ {¬Fβ }. Supposons maintenant Tβ ∪ {Fβ } x(G(x x)). On pose alors Tα := Tβ ∪ {Fβ }. Supposons enfin consistante, avec Fβ non du type ∃x x(G(x x)) où G est une formule à une seule variable libre. On Tβ ∪ {Fβ } consistante, avec Fβ = ∃x pose Tα := Tβ ∪ {Fβ , G(ccβ )}. Le lemme 2.14 garantit que Tα est consistante. Soit T$ la théorie Tκ . Alors T$ est consistante comme union croissante de théories consistantes. Soit F une formule close quelconque de LΣ! . Alors il existe un ordinal α tel que F est Fα , et donc, par construction, F ou ¬F est dans Tα+1 , donc dans T$ , et T$ est complète. x) est une formule de LΣ! ayant x comme seule variable libre et que Enfin, supposons que G(x x(G(x x)). Alors il existe α tel que ∃x x(G(x x)) est Fα . A l’étape α, on a trouvé Fα conT$ prouve ∃x sistant avec Tα car, sinon, ¬Fα aurait été mis dans Tα+1 et serait donc dans T$ , contredisant l’hypothèse que T$ prouve Fα . On a donc certainement posé Tα+1 := Tα ∪ {Fα , G(ccα )}, et, par conséquent, T$ contient G(ccα ). Donc T$ est une théorie explicitement complète. ! Comme dans le cas propositionnel, on pourra noter que tous les axiomes et règles de déduction de la logique LΣ ont été utilisés dans la démonstration ci-dessus du théorème de complétude. Il n’y a là aucun hasard : au contraire, la liste des axiomes a été fixée a posteriori comme celle qui permet l’argument précédent, le seul point réellement important étant que la liste soit suffisamment explicite et, de façon précise, qu’il existe un algorithme permettant de décider si une formule est ou non un axiome de LΣ dès que Σ est explicite. $ 2.5. Forme locale du théorème de complétude. ! Le théorème de complétude (proposition 2.5) est donc démontré dans sa forme globale concernant un ensemble de formules closes. On en déduit facilement une forme locale de complétude. " Proposition 2.16. (théorème de complétude, forme locale) Toute formule du premier ordre valide est prouvable. Démonstration. Supposons que F est une formule de LΣ valide dont les variables libres sont parmi x 1 , ..., x p . Soit Σ$ la sous-signature de Σ formée par les symboles apparaissant dans F. x1 ... ∀x xp (F) de LΣ! . Alors G Alors Σ$ est finie, donc bien ordonnable. Soit G la formule close ∀x est valide, et, par conséquent, la théorie {¬G} n’a pas de modèle, donc, par la proposition 2.5, elle n’est pas consistante. Il résulte alors du corollaire 2.8(i) que G est prouvable, et, de là, que F l’est par particularisation. 3. Applications du théorème de complétude ! On décrit ici deux types d’applications du théorème de complétude pour les logiques du premier ordre, à savoir d’une part la méthode 200 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] sémantique de prouvabilité, et d’autre part les conséquences de la complétude en termes de limitation du pouvoir d’expression. " ! Le théorème de complétude est le point de départ de la théorie des modèles, qui est l’étude des structures du point de vue des formules du premier ordre qu’elles satisfont. A ce titre, un grand nombre de résultats peuvent être qualifiés d’applications de ce théorème. Orienté vers les développements ultérieurs de ce texte, l’aperçu donné ici est extrêmement partiel, et il ne donne qu’une très faible idée de ce qui est aujourd’hui un domaine entier des mathématiques, avec notamment des applications profondes à la théorie des groupes et à la géométrie algébrique. $ 3.1. La méthode sémantique. ! Le théorème de complétude permet de démontrer des résultats de prouvabilité : pour montrer qu’une formule F est prouvable à partir d’une théorie T, il suffit de montrer que F est satisfaite dans tout modèle de T. " ! Les preuves en logique du premier ordre ont été définies en calquant des schémas de démonstration usuels, mais en minimisant les régles et les axiomes. Il en résulte qu’il est difficile ou, au moins, fastidieux de construire des preuves formelles. En rattachant la prouvabilité à la validité, le théorème de complétude fournit un moyen alternatif souvent beaucoup plus commode. Ce schéma, qui sera à la base du développement de la théorie axiomatique des ensembles dans la partie suivante de ce texte, est illustré ici sur des énoncés simples d’arithmétique. $ Le point de départ est une application directe du théorème de complétude : Proposition 3.1. (conséquence) Soit Σ une signature bien ordonnable, T une théorie de LΣ , et F une formule close de LΣ . Alors F est prouvable à partir de T si et seulement si tout modèle de T satisfait F. Démonstration. (La démonstration est la même que dans le cas propositionnel). Soit M un modèle de T, s’il en existe. Comme les axiomes sont valides, ils sont satisfaits dans M, et, inductivement, il en est de même de toute formule prouvable par coupure et généralisation à partir de T et des axiomes. Inversement, supposons que tout modèle de T satisfait F. Alors T ∪ {¬F} n’est pas satisfaisable, donc, par le théorème de complétude, cette théorie n’est pas consistante. Par le corollaire 2.8(i), on déduit que T prouve F. Définition 3.2. (système PA−Ind) On note PA−Ind le sous-système du système de Peano PA obtenu en otant l’axiome d’induction 15 . Par hypothèse, la structure (N, 0, S, +, ·) est un modèle de PA−Ind, mais, ainsi qu’on le verra dans la suite de cette section, il existe de nombreux autres modèles de PA−Ind. On se propose, à titre d’illustration de la méthode sémantique, de montrer le résultat suivant, où, pour n entier non nul, on note S n0 le terme S (00))...), n symboles S . S (...(S Lemme 3.3. Pour tous entiers p, q, r satisfaisant p + q = r, le système PA−Ind prouve la formule S p0 + S q0 = S r0 . Noter que PA−Ind se compose de six formules, et donc est équivalent à l’unique formule qui en est la conjonction. 15 VII.3. Applications du théorème de complétude 201 Démonstration syntaxique du lemme 3.3. On montre PA−Ind 1 S r0 = S p0 + S q0 simultanément pour tout p en utilisant une récurrence sur q. Pour q = 0, les formules à prouver sont PA−Ind 1 S p0 + 0 = S p0 . Voici une telle preuve : x(x x + 0 = x) F1 : ∀x (axiome de PA−Ind) x(x x + 0 = x ) ⇒ S p0 + 0 = S p0 F2 : ∀x (axiome de Larith puisque S p0 est libre pour x dans F1 ) p p F3 : S 0 + 0 = S 0 (coupure à partir de F1 et F2 ) Supposons maintenant q > 0. Soit q$ = q − 1, et r$ = r − 1. Pour tout p, on a r$ = p + q$ , donc, ! ! par hypothèse d’induction, PA−Ind prouve S r 0 = S p0 + S q 0 . Il s’agit de construire une preuve ! ! S r 0 = S p0 + S q 0 }. Voici une telle preuve : de S r0 = S p0 + S q0 à partir de PA−Ind ∪ {S S (x x1 ) = S (x x2 ) F1 : x 1 = x 2 ⇒S (axiome de Larith ) x1 (x x1 = x 2 ⇒S S (x x1 ) = S (x x2 )) F2 : ∀x (généralisation à partir de F1 ) ! ! x1 (x x1 = x 2 ⇒S S (x x1 ) = S (x x2 )) ⇒ (S S r 0 = x 2 ⇒S S (S S r 0 ) = S (x x2 )) F3 : ∀x ! (axiome de Larith , puisque S r 0 est libre pour x 1 dans F2 ) ! ! S (S S r 0 ) = S (x x2 ) F4 : S r 0 = x 2 ⇒S (coupure à partir de F2 et F3 ) ! ! x2 (S S r 0 = x 2 ⇒S S (S S r 0 ) = S (x x2 )) F5 : ∀x (généralisation à partir de F4 ) ! ! ! ! ! ! x2 (S S r 0 = x 2 ⇒S S (S S r 0 ) = S (x x2 )) ⇒ (S S r 0 = S p0 + S q 0 ⇒S S (S S r 0 ) = S (S S p0 + S q 0 )) F6 : ∀x ! (axiome de Larith , puisque S p0 + S q 0 est libre pour x 2 dans F5 ) ! ! r! p q! S (S S r 0 ) = S (S S p0 + S q 0 ) F7 : S 0 = S 0 + S 0 ⇒S (coupure à partir de F5 et F6 ) ! ! F8 : S r 0 = S p 0 + S q 0 (hypothèse) ! ! ! ! S r 0 ) = S (S S p0 + S q 0 ), soit encore S r0 = S (S S p0 + S q 0 ) puisque S (S S r 0 ) est S r0 F9 : S (S (coupure à partir de F8 et F9 ) x1 ∀x x2 (x x1 + S (x x2 ) = S (x x1 + x 2 )) F10 : ∀x (axiome de PA−Ind) x1 ∀x x2 (x x1 + S (x x2 ) = S (x x1 + x 2 )) ⇒ ∀x x2 (S S p0 + S (x x2 ) = S (S S p0 + x 2 )) F11 : ∀x (axiome de Larith , puisque S p0 est libre pour x 1 dans F10 ) p x2 (S S 0 + S (x x2 ) = S (S S p0 + x 2 )) F12 : ∀x (coupure à partir de F10 et F11 ) ! p0 + S x p0 + x p 0 + S S q! 0 x S S S S S p0 + S q 0) F13 : ∀x 2 (S (x 2 ) = (S (S ) = S (S 2 )) ⇒ ! (axiome de Larith , puisque S q 0 est libre pour x 2 dans F12 ) ! ! p q p S 0 ) = S (S S 0 + S q 0) F14 : S 0 + S (S (coupure à partir de F12 et F13 ) x1 = x 3 ∧x 2 = x 3 )⇒x x1 = x 2 (qui n’est et on tire S r0 = S p0 + S q0 de F9 et F14 : la formule (x pas un axiome) est valide, donc prouvable dans Larith , donc a fortiori à partir de PA−Ind (le faire!). Démonstration sémantique du lemme 3.3. Soit M un modèle de PA−Ind. On montre par récurrence sur q que p + q = r entraı̂ne M |= S p0 + S q0 = S r0 . On suppose d’abord q = 0. x1 (x x1 + 0 = x 1 ), on a S p0 + 0 = S p0 . Supposons ensuite q > 0. Soit Comme M satisfait l’axiome ∀x ! ! q$ := q − 1, et r$ := r − 1. On a alors p + q$ = r$ , donc M |= S p0 + S q 0 = S r 0 par hypothèse de ! ! S p0 + S q 0 ) = S p0 + S (S S q 0) = récurrence. Comme M satisfait l’axiome Add2 , on obtient M |= S (S ! S r 0 ) = S r0 . Par le théorème de complétude, PA−Ind S p0 + S q0 , donc M |= S p0 + S q0 = S (S p q r prouve donc S 0 + S 0 = S 0 . ! La démonstration est la même dans les deux cas, seule diffère la façon de la rédiger ; pour ce qui est de la lisibilité et de l’intelligibilité, la comparaison devrait être éloquente — mais, d’un autre côté, il y a un certain prix à payer en termes de contexte métamathématique (cf. section 4.5), et, d’autre part, rien ne dit qu’un choix plus avisé des règles et des conventions ne pourrait pas améliorer significativement l’approche syntaxique. $ 3.2. Extensions par définition. 202 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] ! Comme application de la méthode sémantique, on montre l’inocuité des extensions par définition consistant à enrichir la signature à l’aide de symboles additionnels représentant des notions définissables. " ! Dans les chapitres I et III, on a plusieurs fois enrichi la signature Σens de la théorie des ensembles de nouveaux symboles représentant diverses opérations et relations définissables, en présence des axiomes de Zermelo, à partir de l’unique relation d’appartenance. Il est facile de vérifier que, ce faisant, on ne modifie en rien la force logique de la théorie, c’est-à-dire les formules pouvant être prouvées. $ Proposition 3.4. (extension par définition 1) Supposons que T est une théox1 , ..., x k ) est une formule de LΣ . Soit Σ+ la signature obtenue rie de LΣ et que D(x en ajoutant à Σ un nouveau symbole de relation k-aire r , et T+ la théorie obtenue en ajoutant à T la formule Intror : x1 , ..., x k ) ⇔ D(x x1 , ..., x k )). x1 , ..., x k (rr (x ∀x Pour F formule de LΣ+ , on note elimr (F) la formule de LΣ obtenue en remplaçant dans F toutes les sous-formules atomiques de la forme r (t1 , ..., tk ) par D(t1 , ..., tk ). (i) Tout modèle M de T s’enrichit de façon unique en un modèle M+ de T+ , et, pour toute formule F de LΣ+ , il y a équivalence entre M+ |= F et M |= elimr (F). (ii) Pour F formule de LΣ+ , il y a équivalence entre T+ 1 F et T 1 elimr (F). Démonstration. (i) On enrichit la structure M en une structure M+ de type Σ+ en ajoutant comme interprétation de r la relation r définie par r(&a) ⇔ M |= D(&a). Alors la formule Intror est satisfaite dans M+ , qui est donc modèle de T+ . Inversement, si M+ est une structure de type Σ+ enrichissant M et satisfaisant Intror , l’interprétation de r dans M ne peut être que celle définie ci-dessus. Dans les conditions précédentes, et pour toute formule F de LΣ+ , les formules F et elimr (F) sont simultanément vraie ou fausses dans M+ puisque M+ |= r (&a) équivaut à M+ |= D(&a). Enfin, puisque, par construction, elimr (F) est une formule de LΣ , il est équivalent de dire qu’elle est satisfaite dans M+ et dans M. (ii) Supposons T+ 1 F, et soit M un modèle quelconque de T. Par (i), il existe un unique enrichissement M+ de M en un modèle de T+ . Par hypothèse, M+ satisfait F, donc, par (i), M satisfait elimr (F). Par le théorème de complétude, on déduit que T prouve elimr (F). Inversement, supposons que T prouve elimr (F), et soit M un modèle quelconque de T+ . Puisque T est inclus dans T+ , la formule elimr (F) est a fortiori prouvable à partir de T+ , donc elle est satisfaite dans M. Par (ii), il en résulte que F est satisfaite dans M, et donc, par le théorème de complétude, F est prouvable à partir de T+ . Sous les hypothèses précédentes, on déduit en particulier que, si F est une formule de LΣ , alors F est prouvable à partir de T si et seulement si elle est prouvable à partir de T+ — ce qu’on traduit en disant que T+ est une extension conservative de T. Le cas des symboles d’opérations est similaire, mais sa formulation requiert un peu plus de soin, car on ne peut pas purement et simplement remplacer le symbole nouveau par sa définition, comme dans le cas des relations. Proposition 3.5. (extension par définition 2) Supposons que T est une théox1 , ..., x k ∃!yy (D(x x1 , ..., x k , y )). Soit Σ+ la signature rie de LΣ prouvant la formule ∀x VII.3. Applications du théorème de complétude 203 obtenue en ajoutant à Σ un nouveau symbole d’opération k-aire s , et T+ la théorie obtenue en ajoutant à T la formule Intros : x1 , ..., x k , y (yy = s (x x1 , ..., x k ) ⇔ D(x x1 , ..., x k , y )). ∀x Pour F formule de LΣ+ contenant au moins une occurrence de s , on note elims1 (F) xi (D(t1 , ..., tk , x i ) ∧ F# ) où x i est la variable de plus petit indice la formule ∃x n’apparaissant pas dans F, où p est la dernière occurrence de s dans F, où s (t1 , ..., tk ) est le sous-terme de F commençant à la position p, et où F# est obtenue en remplaçant dans F ledit sous-terme par x i ; enfin, pour F contenant m fois s , on note elims (F) la formule obtenue en appliquant m fois l’opération elims1 . (i) Tout modèle M de T s’enrichit de façon unique en un modèle M+ de T+ , et, pour toute formule F de LΣ+ , il y a équivalence entre M+ |= F et M |= elims (F). (ii) Pour F formule de LΣ+ , il y a équivalence entre T+ 1 F et T 1 elims (F). + Démonstration. On définit la structure M+ en ajoutant à M l’interprétation s M définie comme associant à tout k-uplet &a du domaine de M l’unique élément b tel que M satisfasse D(&a, b) : l’hypothèse que M est modèle de T garantit l’existence et l’unicité d’un tel élément b. Alors la formule Intros est satisfaite dans M+ , qui est donc un modèle de T+ . Inversement, si M+ est une structure de type Σ+ enrichissant M et satisfaisant Intros , l’interpréta+ tion s M de s dans M ne peut être que celle définie ci-dessus puisque, par hypothèse, M satisfait x1 , ..., x k ∃!yy (D(x x1 , ..., x k , y )). Le reste de la démonstration est exactement semblable à celui ∀x de la proposition 3.4. ! Ainsi se trouve formellement établi le fait intuitivement naturel que l’introduction de symboles aussi nombreux soient-ils ne change rien, ni dans un sens, ni dans l’autre, aux énoncés prouvables dans une théorie — et donc en particulier en théorie des ensembles où cette introduction est spécialement fréquente. $ 3.3. Le théorème de compacité. ! Le théorème de compacité relie la satisfaisabilité d’un ensemble de formules à celle de ses sous-ensembles finis ; il entraı̂ne des limitations au pouvoir d’expression des logiques du premier ordre. " ! Le théorème de complétude fournit un critère syntaxique caractérisant la satisfaisabilité, à savoir la consistance. Ce faisant, il entraı̂ne que la satisfaisabilité a un caractère finitiste qui a priori n’était pas visible, et qui s’exprime dans le théorème de compacité. On pourra noter que, dans le cas propositionnel, on a établi un théorème de compacité similaire indépendamment du théorème de complétude, par un argument direct. Une démonstration directe existe aussi dans le cas du premier ordre (voir les exercices du chapitre ??). $ Proposition 3.6. (théorème de compacité) Supposons que Σ est une signature bien ordonnable et que T est une théorie de LΣ dont tout sous-ensemble fini est satisfaisable. Alors T est satisfaisable. Démonstration. Supposons T non satisfaisable. Par le théorème de complétude, T est non consistante, donc, par l’adaptation à LΣ du lemme VI.3.12(iii), il existe un sous-ensemble fini T0 de T qui est non consistant (mettre dans T0 toutes les formules apparaissant dans la preuve d’une contradiction à partir de T). Alors T0 ne peut être satisfaisable. 204 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] Proposition 3.7. (taille des modèles) Soit T une théorie du premier ordre. Alors ou bien il existe un entier naturel n tel que tous les modèles de T ont une taille bornée par n, ou bien T a des modèles infinis. Démonstration. Supposons que T est un ensemble de formules de LΣ . Le résultat est trivialement vrai si T n’a pas de modèle fini. Supposons donc que T possède des modèles finis de taille arbitrairement grande. Soit Σ$ la signature obtenue en ajoutant à Σ une suite (ccn )n∈N de symboles de constante, et T$ la théorie de LΣ! obtenue en ajoutant à T toutes les formules c i -= c j pour i < j. Soit T0 une sous-famille finie de T$ . Par construction, T0 consiste en des formules de T, plus un nombre fini de formules du type c i -= c j . Supposons que n constantes c i distinctes apparaissent dans ces formules, et soit M un modèle de T de taille au moins n. On enrichit M en une structure M$ de type Σ$ en interprétant les constantes c i par n éléments du domaine de M distincts deux à deux. Par construction, M$ est modèle de T0 , et donc T0 est satisfaisable. Par le théorème de compacité, on déduit que T$ est satisfaisable. Or un modèle de T$ est un modèle de T, et il est nécessairement infini, puisque les interprétations des symboles c i doivent y être deux à deux distinctes. Corollaire 3.8. La finitude ne s’exprime pas au premier ordre : quelle que soit la signature Σ, il n’existe pas de théorie de LΣ dont les modèles soient exactement les structures finies de type Σ. Démonstration. Il existe des structures finies de taille arbitrairement grande, mais pas de structure finie infinie. ! La propriété d’être infini est exprimable au premier 'ordre, ( par exemple par la famille infinie des x1 , ..., x n (x x1 -= x 2 ∧ ... ∧ x n−1 -= x n ) (avec 2n inégalités). On déduit du corollaire 3.8 formules ∃x que cette propriété n’est pas finiment exprimable car, si une unique formule F exprimait le caractère infini, alors ¬F exprmierait le caractère fini, ce qui ne se peut. Il est facile d’adapter l’argument précédent pour obtenir une réponse négative aux questions laissées ouvertes dans la section 1.3 : ni la propriété pour un groupe d’être de torsion, ni celle pour un ordre total d’être un bon ordre, ne sont exprimables au premier ordre ; dans le même ordre d’idée, la propriété pour un corps d’être de caractéristique nulle, qui est exprimable au premier ordre, n’est pas finiment exprimable au premier ordre (cf. exercice 3). $ 3.4. Le théorème de Lowenheim–Skolem. ! Autre conséquence du théorème de complétude, le théorème de Lowenheim–Skolem fournit des indications sur la taille possible des modèles d’une théorie du premier ordre. On déduit en particulier l’existence, pour toute structure infinie même non dénombrable, d’une structure dénombrable qui en est indiscernable du point de vue des formules du premier ordre. " On appelle cardinal d’une structure le cardinal de son domaine. Proposition 3.9. (théorème de Lowenheim-Skolem) Soit Σ une signature bien ordonnable, et soit κ := max(ℵ0 , card(Σ)). Alors, pour tout cardinal λ $ κ, il y a équivalence entre (i) T possède un modèle de cardinal κ ; (ii) T possède un modèle de cardinal λ; En particulier, pour Σ finie ou dénombrable, toute théorie de LΣ possédant un modèle infini possède un modèle de n’importe quelle cardinalité infinie. VII.3. Applications du théorème de complétude 205 Démonstration. Supposons (i), et soit λ $ κ quelconque. Alors T, possédant un modèle, est consistante. Soit Σ$ la signature bien ordonnable obtenue en ajoutant à Σ une suite (ccα )α<λ de symboles de constantes, et T$ comme la théorie de LΣ! obtenue en ajoutant à T la suite des formules c α -= c β pour α < β < λ. Alors T$ est consistante, car une sous-famille finie T0 de T$ est composée d’une sous-famille de T et d’un nombre fini de formules c α -= c β . Par hypothèse, T possède un modèle de cardinal κ, qu’on peut enrichir en un modèle de T0 en interprétant les constantes c α intervenant dans T0 par des éléments du domaine deux à deux distincts. Par le théorème de complétude, T$ possède un modèle dont le cardinal est max(ℵ0 , card(Σ$ )), soit λ. Lorsqu’on oublie les interprétations des constantes c α , il reste un modèle de T de cardinal λ. Supposons maintenant (ii). A nouveau, T est consistante puisque possédant un modèle. Par le théorème de complétude, T possède un modèle de cardinal κ. On en déduit de nouveaux résultats de non-exprimabilité au premier ordre. Corollaire 3.10. (AC) Soit κ un cardinal infini. Le fait d’avoir un cardinal au plus égal à κ ne s’exprime pas au premier ordre : quelle que soit la signature Σ, il n’existe pas de théorie de LΣ dont les modèles soient exactement les structures de type Σ de cardinalité au plus κ. Démonstration. Soit T une théorie de LΣ , et soit µ := max(ℵ0 , card(Σ)). Si T admet pour modèle les structures de cardinal au plus κ, elle est consistante, et donc admet des modèles de cardinal λ pour tout λ $ µ, donc en particulier des modèles de cardinal plus grand que κ. ! Par contraste, on notera qu’il existe une théorie dont les modèles sont les structures de cardinal au moins κ : il suffit de choisir la signature contenant κ symboles de constante c α distincts, et de considérer la théorie formée par les formules c α -= c β pour α < β < κ. Une autre application du théorème de Lowenheim–Skolem est l’existence, pour toute structure même non dénombrable, d’une structure dénombrable qui en est indiscernable du point de vue des formules du premier ordre, pour autant que la signature soit elle-même finie ou dénombrable. $ Corollaire 3.11. Soit Σ une signature finie ou dénombrable. Alors, pour toute réalisation infinie R de LΣ , il existe une réalisation dénombrable satisfaisant les mêmes formules 16 que R. Démonstration. Soit T l’ensemble des formules closes satisfaites dans R. Alors T est consistant, puisqu’il a au moins un modèle, à savoir R. Par le théorème de Lowenheim-Skolem, T possède un modèle R$ dont le domaine est fini ou dénombrable. Alors R et R$ satisfont les mêmes formules closes, car R |= F entraı̂ne R$ |= F par construction, et, inversement, R -|= F entraı̂ne R |= ¬F, donc R$ |= ¬F, puis R$ -|= F. Par ailleurs, une structure satisfaisant les mêmes formules closes qu’une structure infinie est nécessairement infinie, puisque la propriété d’être infinie ) est exprimable au premier ordre x1 ... ∃x xn ( i<j!n x i -= x j ) pour n $ 1. Donc par la famille des formules (en la signature vide) ∃x l’hypothèse que R et R$ satisfont les mêmes formules implique que le domaine de R$ est infini, puisque c’est le cas de celui de R. ! Le résultat précédent montre par exemple qu’il existe un corps dénombrable satisfaisant les mêmes formules que le corps (R, +, ·), donc indiscernable de celui-ci par rapport à toutes les propriétés exprimables par des formules du premier ordre. Le résultat peut paraı̂tre paradoxal, mais, en fait, il reflète surtout les limitations du pouvoir d’expression au premier ordre : il y 16 ce qu’on exprime aussi en déclarant R$ élémentairement équivalente à R 206 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] a un grand écart entre le fait de satisfaire les mêmes formules du premier ordre et celui d’être isomorphes : deux structures isomorphes satisfont toujours les mêmes formules (closes), mais la réciproque est en général fausse. $ 3.5. Modèles de l’arithmétique. ! Comme illustration de ce qui précède, on considère ici les structures satisfaisant les mêmes formules que la structure (N, 0, S, +, ·), appelées modèles de l’arithmétique. On établit l’existence d’une famille non dénombrable de tels modèles dénombrables deux à deux non isomorphes. " ! Lorsqu’on part d’une théorie T dans LΣ , on a la notion naturelle de modèle pour T, c’est-àdire de réalisation de LΣ satisfaisant toutes les formules de T. En sens inverse, partant d’une structure R de type Σ, on peut considérer l’ensemble des formules closes satisfaites dans cette structure particulière. $ Définition 3.12. (théorie) Si R est une structure de type Σ, on définit la théorie du premier ordre de R comme l’ensemble Th1 (R) de toutes les formules closes de LΣ satisfaites dans R. ! Etant donné que, par définition, une formule F(&x) ayant des variables libres est dite satisfaite dans une réalisation R si et seulement si la formule close ∀& x (F(& x )) l’est, dire que deux structures R, R$ satisfont les mêmes formules équivaut à dire qu’elles satisfont les mêmes formules closes, et donc à dire que R$ est modèle de Th1 (R). Dans la suite, on s’intéresse au cas particulier de la structure (N, 0, S, +, ·), qui jouera un rôle fondamental au chapitre VIII. On appelle usuellement arithmétique du premier ordre l’ensemble Th1 (N, 0, S, +, ·). Il est donc cohérent de poser’arithm la définition suivante : $ Définition 3.13. (modèle de l’arithmétique, standard) On appelle modèle de l’arithmétique tout modèle de Th1 (N, 0, S, +, ·), c’est-à-dire toute structure de type Σarith satisfaisant les mêmes formules closes que (N, 0, S, +, ·) ; un modèle est dit standard s’il est isomorphe à (N, 0, S, +, ·). Le théorème de Lowenheim–Skolem entraı̂ne qu’il existe des modèles nonstandards de l’arithmétique de toute cardinalité infinie, mais ne dit a priori rien sur d’éventuels modèles non-standards dénombrables. Proposition 3.14. (modèles non-standards) Il existe 2ℵ0 modèles non-standards dénombrables de l’arithmétique deux à deux non isomorphes. Démonstration. Soit κ le nombre de classes d’isomorphisme de modèles dénombrables de l’arithmétique. Comme tout modèle dénombrable est isomorphe à un modèle de domaine N, et que spécifier une structure de type Σarith de domaine N consiste à choisir un élément de N, une fonction de N dans N, et deux fonctions de N2 dans N, on a κ # 2ℵ0 . Soit P l’ensemble des nombres premiers. Pour chaque modèle (dénombrable) de l’arithmétique M et chaque a dans Dom(M), on note DivM (a) l’ensemble des nombres premiers p dix) est la formule ∃yy (x x = S p0 · y ). On visant a dans M , c’est-à-dire {p ∈ P ; M |= Fp (a)}, où Fp (x note D l’ensemble de toutes les parties de P qui sont de la forme DivM (a) pour au moins un modèle dénombrable M et un a. Supposons que M, M$ sont des modèles de l’arithmétique et que f est un isomorphisme de M sur M$ . L’entier 0 est l’unique élément de N n’appartenant pas à l’image de S, donc (N, 0, S, +, ·) VII.3. Applications du théorème de complétude 207 x ∀yy (S S (yy ) -= x ) et ∀yy (S S (yy ) -= 0 ). Ces formules sont donc dans Th1 (N, 0, S, +, ·), et satisfait ∃!x par conséquent elles sont satisfaites dans M et dans M$ . L’interprétation 0 M de 0 dans M est donc le seul élément du domaine de M qui n’est pas dans l’image de S M , et de même pour M$ . Puisque f est un isomorphisme, il envoie les éléments de l’image de S M sur les éléments de ! ! l’image de S M et, par conséquent, il envoie nécessairement 0 M sur 0 M . De là, par récurrence, ! S p0 )M sur (S S p0 )M pour chaque entier f , étant un homomorphisme vis-à-vis de S , envoie (S naturel p. Enfin, f est un homomorphisme vis-à-vis de la multiplication, donc, pour tout a S p0 )M divise a dans M sont les mêmes que ceux qui dans Dom(M), les entiers p tels que (S ! p M S 0) sont tels que (S divise f (a) dans M$ . On a donc DivM (a) = DivM! (f (a)) pour tout a dans Dom(M), et, par conséquent les contributions des modèles M et M$ à D sont les mêmes. Il en résulte qu’on a card(D) # κ · ℵ0 , puisqu’un modèle dénombrable ne peut contribuer que pour (au plus) ℵ0 éléments à D. Or D est P(P) tout entier. En effet, soit Σ la signature obtenue en ajoutant à Σarith un nouveau symbole de constante c . Soit X une partie quelconque (finie ou infinie) de P. On définit TX comme la théorie de LΣ obtenue en ajoutant à Th1 (N, 0, S, +, ·) les formules Fp (cc) pour p dans X et ¬Fp (cc) pour p dans le complémentaire de X. Un sous-ensemble fini de TX consiste en un sous-ensemble fini de Th1 (N, 0, S, +, ·) plus un nombre fini de formules Fp (cc) et ¬Fq (cc) : un tel ensemble de formules est satisfaisable dans (N, 0, S, +, ·), car il existe toujours un entier naturel satisfaisant un nombre fini de contraintes de divisibilité et de non-divisibilité par des nombres premiers. Donc TX a au moins un modèle dénombrable. Or dire que M est modèle de TX signifie qu’il existe a dans Dom(M) vérifiant DivM (a) = X. Par conséquent, on a D = P(P), d’où 2ℵ0 # κ · ℵ0 , qui entraı̂ne κ = 2ℵ0 en présence de κ # 2ℵ0 . ! On notera l’importance du théorème de compacité dans la démonstration précédente. Le résultat lui-même n’a rien de surprenant : il montre simplement que la théorie du premier ordre d’une structure ne capture qu’une partie des propriétés de celle-ci. Noter que, par hypothèse, la structure (N, 0, S, +, ·) est un modèle de la théorie de Peano du premier ordre PA1 , et on a donc PA1 ⊆ Th1 (N, 0, S, +, ·). Par conséquent, tout modèle non-standard de l’arithmétique est en particulier un modèle de la théorie PA1 , et donc il satisfait toutes les formules closes prouvables à partir de PA1 . Toute une étude des modèles non-standards de l’arithmétique a été développée. On se bornera ici au fait que tout modèle non-standard prolonge en un certain sens les entiers naturels. Jusqu’à présent, on n’a pas pris en compte l’ordre des entiers dans la description de l’arithmétique. Il est loisible de le rajouter, car il est définissable à partir de l’addition. De là, on déduit l’existence d’un ordre semblable sur tout modèle de l’arithmétique. On rappelle que Σarith+ désigne la signature obtenue en ajoutant à Σarith un symbole de relation binaire # . $ Lemme 3.15. Soit Intro! la formule x, y (x x # y ⇔ ∃zz (yy = z + x )). ∀x Alors tout modèle de l’arithmétique M s’enrichit de façon unique en une structure M+ de type Σarith+ satisfaisant Intro! , et, alors, les structures (N, 0, S, +, ·, #) + et M+ satisfont les mêmes formules de Larith+ ; en particulier, # M est un ordre total sur le domaine de M. Démonstration. Le résultat découle immédiatement de la proposition 3.4. On remarque que (N, 0, S, +, ·, #) est la structure (N, 0, S, +, ·)+ . Soit F une formule quelconque de Larith+ . Alors, avec les notations de la section 3.2, la formule F est satisfaite dans le modèle M+ si et seulement si la formule elim! (F) est satisfaite dans M, donc si et seulement si elle est satisfaite dans (N, 0, S, +, ·), donc si et seulement si F est satisfaite dans (N, 0, S, +, ·)+ , c’est-à+ dire dans (N, 0, S, +, ·, #). Le fait que # M soit un ordre total résulte du fait qu’être un ordre 208 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] total est exprimable au premier ordre, ainsi qu’on l’a vu dans l’exemple 1.22. Par contre, rien + ne garantit a priori que # M soit un bon ordre. Ainsi, lorsqu’on parle de modèles de l’arithmétique, on peut toujours supposer que l’ordre fait partie de la structure. Si M est un modèle de l’arithmétique, + l’ordre # M défini comme ci-dessus sera appelé canonique. Proposition 3.16. (segment initial) Soit M un modèle de l’arithmétique. S p0 )M avec p Soit N• le sous-ensemble du domaine de M formé par les éléments (S entier naturel. Alors N• est un segment initial de Dom(M) pour l’ordre canonique, il est stable pour les opérations de M, et la sous-structure M• de M induite sur N• est isomorphe à (N, 0, S, +, ·) (cf. figure 2). x(00 # x ) est Démonstration. On note % l’ordre canonique de M. La formule close ∀x satisfaite dans (N, 0, S, +, ·, #), donc dans (M, %), et donc 0 M est élément minimum de (M, %). De même, pour chaque entier naturel p, il existe une formule close exprimant que S p+10 est le successeur immédiat de S p0 , et cette formule, vraie dans (N, 0, S, +, ·, #), l’est aussi dans (M, %). Par conséquent, N• est un segment initial de (Dom(M), %). Par construction, 0 M est dans N• , et N• est stable par S M . Ensuite, chacune des formules p S 0 + S q0 = S p+q0 et S p0 · S q0 = S pq0 est satisfaite dans (N, 0, S, +, ·, #), donc dans M, ce qui montre que N• est stable par + M et · M . Donc on obtient une structure M• bien définie en munissant N• des opérations induites par celles de M. Enfin, par construction, l’application p +→ S p0 est un isomorphisme de (N, 0, S, +, ·) sur M• . * copie N• de N +, S 0 )M(S S 20 )M . . . 0 M (S éléments standards - (M, %) éléments non-standards Figure 2. Tout modèle de l’arithmétique est un ensemble totalement ordonné commençant par une copie des entiers, suivie d’éventuels éléments dits nonstandards. Corollaire 3.17. Le modèle standard de l’arithmétique est le seul dont l’ordre canonique soit un bon ordre. Démonstration. Soit M un modèle de l’arithmétique quelconque. Si tout élément du S p0 )M avec p dans N, alors M est isomorphe à (N, 0, S, +, ·), domaine de M est de la forme (S donc standard par définition. Sinon, il existe un élément a0 du domaine de M qui n’est pas S p0 )M . On a alors (S S p0 )M ≺ a0 pour tout entier naturel p. Puisque a0 n’est pas de la forme (S M 0 , il existe a1 vérifiant a0 = S M (a1 ), donc a1 ≺ a0 . A son tour, a1 n’est pas de la forme S p0 )M , sans quoi a0 le serait. De proche en proche, on obtient une suite infinie décroissante (S dans (M, %). ! L’argument montre qu’en tant qu’ensemble ordonné, un modèle non-standard de l’arithmétique commence par une copie de N, puis est composé de copies de Z puisque chaque élément a un successeur et un précédesseur immédiats ; on peut vérifier que les copies de Z forment un ordre dense sans point extrémal, donc isomorphe à Q dans le cas dénombrable. VII.4. La logique du premier ordre comme modèle 209 Par définition, tout modèle de l’arithmétique est un modèle de la théorie de Peano PA1 . Par contre, il n’est pas clair que tout modèle de PA1 soit un modèle de l’arithmétique, et ceci mène aux questions suivantes. $ Question 3.18. Toute formule du premier ordre satisfaite dans (N, 0, S, +, ·) est-elle prouvable à partir du système de Peano PA1 ? On rappelle (définition 2.9) qu’une théorie T de LΣ est dite complète si, pour chaque formule close F de LΣ , on a T 1 F ou T 1 ¬F, autrement dit si T est assez forte pour prouver ou réfuter toute propriété. Question 3.19. Le système PA1 est-il complet? ! Moyennant l’hypothèse que la structure (N, 0, S, +, ·) existe et est un modèle de PA1 , les deux questions 3.18 et 3.19 sont équivalentes, puisqu’on sait que la théorie d’une structure est toujours un ensemble complet. Une réponse positive à la question 3.18 entraı̂nerait que tout modèle de PA1 satisfait toutes les formules de Th1 (N, 0, S, +, ·), donc satisfait les mêmes formules que (N, 0, S, +, ·). Inversement, une réponse négative entraı̂nerait qu’il existe au moins une formule F satisfaite dans (N, 0, S, +, ·) et non prouvable à partir de PA1 , donc telle que PA1 ∪ {¬F} soit consistant. Il résulterait alors du théorème de complétude que PA1 ∪ {¬F} aurait un modèle dénombrable, lequel serait un modèle de PA1 ne satisfaisant pas les mêmes formules que (N, 0, S, +, ·). Ce sera un des objets du chapitre VIII que d’apporter une réponse — négative — aux questions 3.18 et 3.19. $ 4. La logique du premier ordre comme modèle ! On discute brièvement l’adoption de la logique du premier ordre comme formalisation du raisonnement mathématique. " ! Suivant le schéma général esquissé dans la section VI.1, adopter une logique consiste à la fois à fixer une famille de formules et adopter une notion de preuve adaptée. Dans le cas de la logique du premier ordre, les choix ont été faits pour calquer au mieux l’usage mathématique, et il n’est donc pas surprenant que la logique obtenue apparaisse comme la meilleure approximation formelle possible du discours mathématique. Néanmoins, comme pour toute modélisation, il est au moins naturel d’examiner l’adéquation du modèle à la réalité (?) qu’il copie et les bénéfices qu’on peut attendre de la modélisation. $ 4.1. Propriétés et formules. ! Le pouvoir d’expression des logiques du premier ordre est grand mais néanmoins limité, sauf dans le contexte de la théorie des ensembles. " ! La sémantique des logiques du premier ordre a été définie de façon à calquer directement l’usage mathématique 17 . L’équivalence suivante n’est alors que la définition 1.21 de la notion d’exprimabilité : $ Lemme 4.1. Si une propriété P est exprimable par une formule du premier ordre F de LΣ , alors, pour tout objet a, il y a équivalence entre (i) l’objet a a la propriété P ; (ii) la formule F(a) est satisfaite. On a déjà noté certains aspects suspectement circulaires de la définition ; on y reviendra ci-dessous dans la section 4.5 17 210 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] ! Les exemples de la section 1.3 ont montré que de nombreuses propriétés élémentaires de structures mathématiques usuelles pouvaient étaient exprimées par des formules d’une logique du premier ordre convenable. En même temps, une des limitations les plus évidentes des logiques du premier ordre est l’interdiction de référer simultanément dans une même formule à plusieurs types d’objets distincts, et on a vu que ceci induit une forte limitation du pouvoir d’expression, puisque des notions aussi simples que la finitude du domaine considéré sont inexprimables, ou encore puisque, dans le cas de l’arithmétique, il semble impossible d’exprimer le schéma d’induction dans sa forme la plus générale. Il serait donc difficile de prétendre que, pour chaque type d’objet considéré séparément, typiquement les nombres entiers et l’arithmétique, les formules du premier ordre autorisent une formalisation de toutes les propriétés qu’on peut souhaiter étudier. On reviendra plus loin sur le moyen — ou l’absence de moyen — d’échapper aux limitations précédentes. Pour le moment, il est important de noter qu’il existe un cas où les limitations de la logique du premier ordre s’estompent, à savoir celui des théories des ensembles. Dans le contexte des ensembles, et plus précisément en présence des axiomes de Zermelo qui garantissent la possibilité de représenter chaque objet mathématique a par un ensemble pur a, presque toute propriété P de l’objet a peuvent être exprimées comme la satisfaction par l’ensemble a d’une x) qui mime P. On verra une exception au chapitre IX avec certaine formule ensembliste F(x l’axiome dit de modèle standard, mais ces exceptions sont suffisamment mineures pour pouvoir être négligées en pratique, ce qui revient à considérer comme pratiquement illimité le pouvoir d’expression de la logique du premier ordre Lens . Moyennant le lemme 4.1, on peut résumer la situation sous la forme : $ « Proposition » 4.2. (exprimabilité) Pour chaque propriété P, il existe une formule ensembliste du premier ordre F telle que, pour tout objet a, il y ait équivalence entre (i) l’objet a a la propriété P ; (ii) la formule ensembliste F(a) est satisfaite. 4.2. Démonstrations et preuves. ! L’intérêt majeur de la logique du premier ordre tient à l’existence d’une bonne notion de prouvabilité. " ! On peut facilement imaginer des logiques dont le pouvoir d’expression soit plus grand que celui des logiques du premier ordre, par exemple les logiques du second ordre brièvement décrites dans l’appendice, ou des logiques mettant en jeu des conjonctions et des disjonctions infinies, ou encore des logiques mettant en jeu des quantifications plus générales que ∃ et ∀. Ce qui limite drastiquement l’intérêt et, de là l’usage, de telles logiques est l’absence d’une bonne notion de prouvabilité. La logique du premier ordre est munie d’une notion de prouvabilité possédant deux qualités essentielles : d’abord et avant tout, son adéquation avec la logique du bon sens, et, d’autre part, l’existence d’un théorème de complétude par rapport à la sémantique naturelle. Aucune autre logique développée à ce jour ne possède ces qualités : par exemple on montrera au chapitre VIII que les logiques du second ordre ne peuvent satisfaire aucun théorème de complétude. D’une façon générale, G. Lindstrom a démontré qu’en un sens précis les logiques du premier ordre sont les seules qui puissent à la fois vérifier un théorème de compacité et un théorème de complétude [4]. Du point de vue de la modélisation du raisonnement, on peut justifier comme suit le principe d’adopter les preuves de la logique du premier ordre comme modèle de référence. Supposons que H est une famille d’hypothèses s’exprimant par des formules du premier ordre T, et que P est une propriété s’exprimant par une formule du premier ordre F. Dans une direction, on peut argumenter que les régles de déduction et de généralisation, ainsi que les schémas correspondant aux axiomes propositionnels, correspondent à des raisonnements que le bon sens approuve 18 . Il néanmoins au moins un point peut être discuté et ne recueille pas un assentiment totaleX ⇒X X ment unanime, à savoir le principe du tiers exclu exprimé dans l’axiome ¬¬X 18 VII.4. La logique du premier ordre comme modèle 211 en résulte que toute preuve T 1 F fournit une démonstration de P à partir de H. Inversement, la question est de savoir si n’importe quelle démonstration mathématique de P à partir de H peut se formaliser en une preuve, autrement dit si tout argument de démonstration peut se réduire à une utilisation des règles de coupure et de généralisation et des instances des axiomes propositionnels. Il est a priori difficile de répondre à cette question, qui est vague. Mais le théorème de complétude apporte un argument décisif. Il semble naturel que, s’il existe une démonstration de P à partir de H, quelle qu’elle soit, alors toute structure vérifiant H doive aussi vérifier P, donc, moyennant la proposition 4.2, si tout modèle de T satisfait F. En vertu du théorème de complétude, ceci est précisément le cas si (et seulement si) on a T 1 F. Ce type d’argument devrait rendre consensuel l’énoncé suivant : $ « Proposition » 4.3. Supposons que H est une famille d’hypothèses s’exprimant par des formules du premier ordre T, et que P est une propriété s’exprimant par une formule du premier ordre F. Alors il y a équivalence entre (i) la propriété P est démontrable à partir de H ; (ii) la relation T 1 F est vérifiée. ! Adopter la logique du premier ordre comme modèle du raisonnement mathématique signifie accepter l’équivalence de la proposition 4.3, et, donc, fixer comme but aux mathématiques d’établir des relations du type T 1 F. $ 4.3. Le cadre « théorie des ensembles + logique du premier ordre ». ! On parvient à ce qui sera le cadre formel pour toute la suite, à savoir la prouvabilité en logique du premier ordre à partir des axiomes d’une théorie des ensembles. " ! Au chapitre III, on a vu que toute théorie des ensembles incluant la théorie de Zermelo offre un cadre universel permettant d’englober la quasi-intégralité du monde mathématique. Dès lors, un cas particulier important de la proposition 4.3 prend la forme suivante : $ Corollaire 4.4. Supposons que T est un système axiomatique incluant Z et adopté comme base axiomatique de la théorie des ensembles. Alors, pour toute propriété P mettant en jeu des objets a, b, ..., il y a équivalence entre: (i) La propriété P(a, b, ...) est démontrable; (ii) La relation T 1 F(a, b, ...) est satisfaite, où F est la traduction de P en une formule ensembliste, et où a, b, ... sont les contreparties ensemblistes de a, b,... ! Typiquement, le système T proposé peut être le système ZFC de Zermelo–Fraenkel, voire une extension de celui-ci. Il existe à ce jour un large consensus pour accepter ce cadre formel, qu’on peut résumer en « théorie des ensembles + logique du premier ordre ». En tout cas, c’est le cadre qui est adopté dans la suite de ce texte. A ce point, le lecteur devrait être d’accord pour reconnaı̂tre qu’un cadre formel complet est à notre disposition, et, par exemple, ce que pourrait être une réponse aux questions du chapitre I devrait être désormais clair : démontrer l’hypothèse du continu signifie établir la relation ZFC 1 card(R) = ℵ1 , voire T 1 card(R) = ℵ1 où T est une extension de ZFC en faveur de laquelle un consensus suffisant existe. D’une façon générale, ce qu’on cherchera à établir ou réfuter dans la suite sont des énoncés tels que ZFC 1 card(R) = ℵ4 ou ZF 1 AC, ou encore ZFC 1 « tout ensemble de réels est Lebesgue mesurable », où 1 fait référence à la prouvabilité en logique du premier ordre, et où des objets comme les réels interviennent par le biais des ensembles purs qui les représentent. Clairement, l’adoption du cadre « théorie des ensembles + logique du premier ordre » donne une place fondamentale aux deux questions suivantes : $ 212 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] Question 4.5. Le système ZFC est-il consistant, c’est-à-dire est-il impossible d’avoir à la fois ZFC 1 F et ZFC 1 ¬F? Question 4.6. Le système ZFC est-il complet vis-à-vis de la relation de prouvabilité du premier ordre, c’est-à-dire, pour chaque formule ensembliste F, a-t-on nécessairement ZFC 1 F ou ZFC 1 ¬F? Une extension de ce système l’est-elle? ! Tout comme dans le cas de la question 3.18 concernant l’arithmétique de Peano, on verra au chapitre VIII que les réponses à ces questions sont plutôt décevantes — mais, au moins faute d’alternative, pas au point de remettre en cause le choix du cadre formel décrit ici. $ 4.4. Bénéfice de la formalisation en logique du premier ordre. ! Quel est l’intérêt de la proposition 4.3 et, d’une façon générale, quel bénéfice attendre de l’introduction d’une logique formelle? " ! En théorie, seule une formalisation complète semble de nature à garantir la rigueur d’une démonstration. En pratique, que ce soit le cas n’est rien moins que certain, tout au moins tant qu’il s’agit d’interlocuteurs humains, car il est bien clair qu’on ne descend jamais jusqu’au niveau de preuves syntaxiques du genre de celle du lemme 3.3. Quant à l’espoir que le recours à des systèmes automatisés aide à démontrer d’authentiques nouveaux théorèmes ou même à certifier des démonstrations existantes, il apparaı̂t encore lointain — malgré des progrès récents comme la vérification par l’assistant de preuve Coq du théorème des quatre couleurs. Par contre, il est exact que la formalisation peut aider à expliciter des hypothèses qui risqueraient de rester implicites, par exemple des usages de l’axiome de choix. Il existe trois modes par lesquels l’utilisation d’une logique formelle, et en l’occurrence de la logique du premier ordre, apporte une contribution décisive, correspondant précisément à trois directions principales dans lesquelles des résultats non triviaux de logique ont été démontrés, à savoir la théorie de la démonstration, la théorie des ensembles, et la théorie des modèles. Un premier point où l’introduction d’une logique formelle semble indispensable est la logique elle-même. Sans une formalisation convenable, il serait certainement difficile de démontrer des résultats précis, spécialement dans le cas des résultats négatifs. Etablir un résultat positif de prouvabilité peut se faire en décrivant explicitement une preuve, et il n’est pas forcément nécessaire que cela soit fait de façon formelle. Par contre, on voit mal comment établir des résultats négatifs de non-prouvabilité — typiquement le premier théorème d’incomplétude de Gödel du chapitre VIII qui affirme que, pour chaque théorie T, une certaine formule ∆T n’est pas prouvable à partir de T — sans une définition formelle de ce qu’est une preuve : montrer qu’un objet n’existe pas requiert la plupart du temps une description plus formelle que de montrer qu’il existe, car il est nécessaire de délimiter avec précision le champ des possibles. Un deuxième point où l’introduction d’une logique formelle est cruciale est la théorie des ensembles. Encore une fois, aussi longtemps qu’il s’agit d’établir des résultats positifs, par exemple la possibilité de démontrer à partir des axiomes de ZFC le théorème de Silver sur l’hypothèse généralisée du continu en cofinalité non dénombrable (proposition V.4.9), aucun recours à un contexte formel de logique et de preuve n’est nécessaire. Par contre, comme on va le voir à partir du chapitre IX, seul le passage à la logique formelle et à la notion de modèle de ZFC permet d’aller plus loin et de démontrer des résultats négatifs, par exemple le fait que l’hypothèse du continu ne peut pas être démontrée à partir des axiomes de ZFC. C’est précisément cette raison qui a justifié l’insertion d’une introduction à la logique entre les parties A et C de ce texte. Enfin, un troisième point où l’introduction de la logique s’est avérée décisive est la théorie des modèles, qui est l’étude générale des structures définies par des formules du premier ordre. Depuis les années 1960, a été développée autour de la notion de structure stable due à S. Shelah toute une théorie de la classification pour les modèles des théories du premier ordre, à la façon dont on peut classifier les espaces vectoriels ou les surfaces compactes [16]. On se doute qu’il n’y a pas de miracle à escompter : ce n’est pas parce qu’une propriété est exprimable par une formule du premier ordre qu’il devient automatiquement plus facile de la démontrer, et le fait que le théorème de Fermat puisse être exprimé par la suite des formules d’arithmétique du x, y , z $ 1(x xn + y n -= z n ) n’a pas beaucoup aidé à sa démonstration (les résultats premier ordre ∀x VII.4. La logique du premier ordre comme modèle 213 décrits au chapitre X permettront tout au plus de garantir que, vue la forme syntaxiquement simple de l’énoncé, on peut utiliser à loisir l’axiome du choix ou l’hypothèse du continu, un procédé systématique permettant ensuite de les éliminer). Par contre, on peut mentionner ici que ce sont des questions d’exprimabilité et de définissabilité par des formules du premier ordre qui ont été à l’origine de résultats de géométrie algébrique nouveaux et hautement non triviaux, en particulier la démonstration par Ehud Hrushovski des conjectures dites de Mordell–Lang et de Manin–Mumford en toute caractéristique [14, 1]. $ 4.5. Contexte métamathématique. ! Démontrer des énoncés du type T 1 F correspond à son tour à prouver des formules, ce qui conduit à distinguer le niveau des objets mathématiques de celui du discours sur ces objets. " ! Moyennant la modélisation par la logique du premier ordre, le problème générique des mathématiques consiste à démontrer des énoncés du type T 1 F, où F et T sont, respectivement, une formule et un ensemble de formules d’une certaine logique du premier ordre LΣ , typiquement démontrer (ou réfuter) un énoncé tel que ZFC 1 HC. Or une telle démonstration se place à son tour dans le cadre d’une logique ambiante qui précise les points de départ et les règles de démonstration licites, le tout constituant ce qu’on appelle souvent le contexte métamathématique de la démonstration, ou encore le niveau du discours, par opposition au niveau des objets mathématiques sur lesquels porte ce discours. Au départ, l’assertion T 1 F n’est pas une formule d’une logique du premier ordre. Mais il est facile de définir un codage de tels énoncés par des formules du premier ordre. Typiquement, moyennant une numérotation des formules et des preuves, on peut coder les notions logiques, qui au départ mettent en jeu des mots sur un certain alphabet fini, à l’aide de formules d’arithmétique mettant en jeu des entiers. Ceci sera fait de façon explicite au chapitre VIII, mais, pour le moment, il n’est pas nécessaire d’entrer dans les détails, et on notera simplement « T 1 F » pour la formule (d’arithmétique) codant l’énoncé T 1 F. La question est alors d’établir des formules du type « T 1 F », donc de les démontrer à partir d’une certaine base axiomatique T' , au moyen d’une certaine notion de preuve 1' , et ce qu’on vise à établir, ce sont des énoncés dont la forme générale est (4.1) T' 1' « T 1 F ». A supposer que le codage de la logique mette en jeu des entiers et que la formule « T 1 F » soit une formule d’arithmétique, le système T' peut être par exemple le système de Peano PA1 , ou encore le système ZFC qui peut en être vu comme une extension. Par ailleurs, les mêmes arguments qui poussent à adopter les logiques du premier ordre comme outils de formalisation des énoncés mathématiques conduisent également à adopter ces logiques comme outils de formalisation du contexte métamathématique, auquel cas la relation de prouvabilité 1' est la relation 1. Dans ce cas, la forme générale (4.1) devient simplement (4.2) PA1 1 « T 1 F ». ou ZFC 1 « T 1 F ». Evidemment, la mise en abı̂me du passage de T 1 F à T' 1' « T 1 F » pourrait être répétée. Il serait peut-être possible de défendre l’idée que l’itération se stabilise assez vite sur un système qui serait une forme faible du système de Peano PA1 où le schéma d’induction est limité à des formules de forme syntaxique simple ; on pourrait aussi noter que cette régression potentiellement infinie traduit l’absence d’une définition intrinsèque de la sémantique des logiques du premier ordre puisque. Par exemple, et ainsi qu’on l’a déjà observé, la sémantique du ∧ mathématique n’a été introduite qu’en référant à celle du ∧ métamathématique, par une équivalence qu’on peut écrire T' 1' « |= F∧G » ⇐⇒ T' 1' « |= F » ∧ « |= G » — mais une telle discussion n’est pas l’objet de ce texte. Ce qu’on veut souligner ici est simplement la distinction entre le niveau de (T' , 1' ) et celui de (T, 1) dans (4.1), et le fait qu’il n’y a aucune raison de supposer que les logiques mises en jeu soient les mêmes, ni même que l’une inclue l’autre. 214 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] Revenant par exemple au cas de l’assertion du lemme 3.3 PA−Ind 1 S p0 + S q0 = S r0 pour p + q = r, on peut alors comparer les contextes métamathématiques qui sous-tendent les deux démonstrations proposées, l’une syntaxique, l’autre sémantique. Même si l’arithmétisation des formules n’a pas encore été formalisée — ceci sera fait dans la section VIII.2 — il doit apparaı̂tre clair que la démonstration syntaxique n’utilise que des entiers et une induction sur ceux-ci, et donc peut être entièrement menée dans le contexte métamathématique de PA1 (mais pas de PA−Ind). Avec les notations ci-dessus, ce qu’établit la démonstration syntaxique du lemme 3.3 est donc la relation (4.3) PA1 1 p + q = r ⇒ « PA−Ind 1 S p0 + S q0 = S r0 ». Notons qu’une fois distingués clairement le niveau mathématique et le niveau métamathématique — c’est-à-dire le niveau des objets et celui du discours sur ces objets — toute interrogation concernant les entiers qu’on a appelés intuitifs devrait disparaı̂tre : les entiers intuitifs sont simplement ceux de la théorie T' , par opposition à ceux éventuellement présents dans la théorie T qu’on étudie. Dans l’exemple de la démonstration syntaxique du lemme 3.3, on montre des résultats sur les objets dont parle PA−Ind — les entiers mathématiques donc — en utilisant dans T' , ici PA1 , une induction sur les entiers métamathématiques (aussi appelés entiers intuitifs, ou entiers du discours), ce que le formalisme peut-être lourd de (4.4) a au moins l’avantage de rendre explicite. Considérons maintenant la démonstration sémantique du même lemme 3.3. La sémantique de la logique du premier ordre est définie par référence à des structures arbitraires : une structure est un ensemble muni d’opérations et de relations diverses, et, au moins a priori, cette sémantique ne peut être définie que dans un contexte permettant de parler d’ensembles et des notions dérivées. Jusqu’à preuve du contraire, le seul contexte métamathématique pour ce faire est une théorie des ensembles garantissant l’existence et les propriétés des structures alléguées, typiquement Z ou ZF. Ce qu’établit la démonstration sémantique du lemme 3.3 correspond donc à (4.4) ZF 1 p + q = r ⇒ « PA−Ind 1 S p0 + S q0 = S r0 ». Dans l’énoncé ci-dessus, le contexte ZF est certainement suffisant, mais, inversement, on n’affirme pas qu’il soit nécessaire: une théorie des ensembles plus faible pourrait suffire, par exemple Z, ou un fragment de celui-ci. On a souligné le gain d’efficacité apporté par la démonstration sémantique du lemme 3.3 par rapport à la démonstration syntaxique. On voit ici que ce gain a un coup : l’amélioration de l’efficacité est obtenue au prix d’un renforcement du contexte métamathématique, à savoir le passage de l’arithmétique à la théorie des ensembles. Ceci est très naturel : en adoptant des moyens de démonstrations plus puissants, on obtient des démonstrations plus rapides. Par contre, adopter un contexte métamathématique fort affaiblit d’autant le poids d’une démonstration en termes de pouvoir de conviction. On a déjà souligné l’impossibilité de baser sur autre chose qu’un consensus l’adoption d’un système formel, et il paraı̂t clair que, plus un système est faible, plus il est facile d’obtenir un consensus sur la validité des principes qu’il utilise : par exemple, tous les mathématiciens n’acceptent pas la validité d’un énoncé dont la démonstration utilise l’axiome du choix, et il sera certainement plus facile d’obtenir un consensus sur la validité d’une démonstration formalisable dans ZF seul que sur celle d’une démonstration utilisant explicitement AC. De ce point de vue, le système de Peano PA1 , voire un fragment strict de celui-ci, est probablement un socle sur lequel le plus grand nombre pourra s’accorder. La même remarque vaut pour le système de preuve utilisé : si la prouvabilité du premier ordre 1 est le modèle le plus répandu, il existe des versions plus faibles, comme celles fondées sur la logique intuitionniste où le principe du tiers exclu est omis. De ce point de vue, un énoncé T 1 F établi dans le contexte (ZFC, 1) sera moins susceptible de recueillir un consensus que le même énoncé établi dans le contexte (PA1 , 1int ), où 1int désigne la prouvabilité intuitionniste. Notons que la faiblesse du contexte métamathématique ne conditionne en rien celle du système mathématique considéré : ainsi, F étant une formule ensembliste quelconque, établir PA1 1int « ZFC 1 F » fait sens : ceci signifie simplement fournir une démonstration de F à partir des axiomes de ZFC qui soit entièrement formalisable dans l’arithmétique et n’utilise que des arguments syntaxiques de surcroı̂t licites en logique intuitionniste. Là encore, et comme on l’a dit dans la section VII.4. Appendice: logiques du second ordre 215 précédente, l’introduction de formalismes tels que celui de (4.1) n’établit en lui-même aucun résultat nouveau, mais, à tout le moins, il permet de mettre les choses à plat et d’expliciter la place de chaque notion. Une dernière remarque en faveur du cadre « théorie des ensembles + logique du premier ordre » est la suivante. Certains mathématiciens, par exemple ceux qui travaillent sur des domaines proches de l’algorithmique ou de l’informatique théorique, peuvent n’être intéressés que par des objets effectifs et, de ce fait, préférer l’adoption d’un cadre logique plus strict où notamment le principe du tiers exclu n’est pas posé, typiquement adopter la logique intuitionniste. Ce point de vue est très défendable, mais, en pratique, il n’empêche pas de se placer dans le cadre usuel de la logique du premier ordre et, à l’intérieur de ce cadre, d’analyser les preuves pour déterminer si le tiers exclu y est utilisé ou non, à la façon dont on peut analyser si l’axiome du choix l’est. Qu’il s’agisse des axiomes ou des règles de déduction, le cadre libéral « théorie des ensembles + logique du premier ordre » apparaı̂t comme une sorte de cadre maximal à l’intérieur duquel d’autres cadres plus spécifiques peuvent être isolés si on le souhaite. $ Appendice: logiques du second ordre ! On introduit les logiques du second ordre, et on montre que leur pouvoir d’expression est plus grand que celui des logiques du premier ordre, puisqu’on peut y caractériser la structure (N, 0, S, +, ·) ou y exprimer la finitude. Par contre, elles ne vérifient que très peu des résultats positifs obtenus pour les logiques du premier ordre. " ! Constatant les limitations du pouvoir d’expression des logiques du premier ordre, il est naturel d’envisager des logiques plus riches. Un candidat naturel est la logique du second ordre, dont la syntaxe est du même type que la logique du premier ordre, à ceci près qu’on introduit, en plus des variables représentant les éléments du domaine de la structure qu’on veut analyser, de nouvelles variables représentant les sous-ensembles du domaine, ou, de façon synonyme, les relations sur le domaine : autrement dit, on s’autorise à quantifier sur les relations, donc, en particulier, sur les sous-ensembles du domaine vus comme relations unaires. Un exemple typique de formule du second ordre, par rapport à la signature usuelle de l’arithmétique, est l’axiome d’induction du système de Peano (4.5) X ((X X (00) ∧ ∀x x(X X (x x) ⇒ X (S S (x x)))) ⇒ ∀x x(X X (x x))), ∀X où X représente une relation unaire. La sémantique est définie de façon naturelle, par rapport à un contexte supposé spécifié de théorie des ensembles. $ On note Th2 (M) l’ensemble des formules closes du second ordre satisfaites dans une structure M. Proposition. Tout modèle de Th2 (N, 0, S, +, ·) est isomorphe à (N, 0, S, +, ·). Démonstration. Soit M un modèle de Th2 (N, 0, S, +, ·). A fortiori M est modèle de Th1 (N, 0, S, +, ·), et, d’après la proposition 3.16, l’application f : n +→ S n0 est un isomorphisme de (N, 0, S, +, ·) sur une sous-structure de M dont le domaine N• est un segment initial du domaine de M. Or, par hypothèse, la formule (4.5) est satisfaite dans (N, 0, S, +, ·), donc aussi dans M : en l’appliquant à N• , qui est un ensemble contenant 0 M et clos par S M , on conclut que N• est l’intégralité du domaine de M, c’est-à-dire que M est isomorphe à (N, 0, S, +, ·). Proposition. (ACω ) Il existe deux formules closes du second ordre dont les modèles sont respectivement les structures finies et et les structures finies ou dénombrables. 216 Logique (Patrick Dehornoy), VII. Logique du premier ordre [version 2006-07] Démonstration. En présence de ACω , un ensemble M est fini si et seulement si toute injection de M dans M est surjective, c’est-à-dire si, pour toute fonction f : M → M on a x, y (f (x x)=f (yy )⇒x x=yy ) ⇒ ∀yy ∃x x (f (x x)=yy ). ∀x C’est encore dire que toute relation binaire R sur M qui est fonctionnelle, c’est-à-dire qui satisfait G(R) : x, y , z ((R(x x, y ) ∧ R(x x, z )) ⇒ y =zz ), ∀x satisfait aussi G$ (R) : x, y , z ((R(x x, z ) ∧ R(yy , z ) ⇒ x =yy ) ⇒ ∀yy ∃x x (R(x x, y )). ∀x X (G(X X )⇒G$ (X X )). Alors une structure satisfait F si et seulement si son Soit F la formule ∀X domaine est fini. De même, un ensemble M est fini ou dénombrable s’il existe sur M un ordre total dont X ) telle que H(R) est satisfaite si et tout segment initial est fini. Or il existe une formule H(X seulement si R est un ordre total. Soit alors F$ la formule x ∃Y Y (F(Y Y ) ∧ ∀yy (Y Y (yy )⇔X X (yy , x )), X (H(X X ) ∧ ∀x ∃X Y ) est la formule suivante, qui exprime que Y est finie, où F(Y Z ∀x x, y , z (Z Z (x x, y )⇒(Y Y (x x)∧Y (yy )) ∧ (Z Z (x x, y )∧Z (x x, z ))⇒yy =zz ) ⇒ ∀Z x ∀yy ∀zz ((Z Z (x x, z )∧Z (yy , z )⇒x x=yy ) ⇒ ∀yy ∃x x (Z Z (x x, y ))). ∀x Alors une structure satisfait F$ si et seulement si son domaine est fini ou dénombrable. ! On verra au chapitre VIII qu’il ne peut exister de notion de preuve garantissant un théorème de complétude raisonnable en logique du second ordre — et c’est là le point négatif principal. Pour le moment, on se borne à remarquer le résultat suivant. $ Proposition. Les logiques du second ordre ne satisfont ni le théorème de compacité, ni le théorème de Lowenheim–Skolem. Démonstration. Pour chaque entier naturel n, il existe une formule du premier ordre Fn exprimant que le domaine a au moins n éléments. La théorie du second ordre formée par la formule F du lemme 4.5 et de chacune des formules Fn n’est pas satisfaisable, alors que tout sous-ensemble fini l’est. Par conséquent le théorème de compacité est en défaut. Par ailleurs, la formule F$ du lemme 4.5 est un contre-exemple au théorème de Lowenheim– Skolem, puisqu’elle n’a que des modèles dénombrables. Exercices Exercice 1. (axiomes) Montrer que, dans la liste des axiomes pour LΣ , on peut remplacer x)⇔F(yy ) avec x et y sont libres les axiomes pour l’égalité par les formules x = x et x = y ⇒F(x pour z dans F(zz ). Exercice 2. (cycle) Pour R relation binaire sur X, on dit que (a1 , ..., ak ) est un cycle de longueur k pour R si on a à la fois a1 R a2 , ..., ak−1 R ak , et ak R a1 . Que signifie le fait de ne pas avoir de cycle de longueur 1 ? de longueur 2? Montrer que la propriété d’avoir un cycle de longueur finie ne peut pas s’exprimer par une formule du premier ordre en R. Exercice 3. (pouvoir d’expression) Montrer que la propriété pour un groupe d’étre de torsion et la propriété pour un ordre total d’être un bon ordre ne sont pas exprimables au premier ordre. Montrer que la propriété pour un corps d’être de caractéristique zéro n’est pas finiment exprimable au premier ordre. VII.4. Exercices 217 Exercice 4. (définissabilité) (i) On note | la relation de divisibilité sur N; montrer que l’entier 1 est définissable dans (N, |). (ii) Montrer que la relation (unaire) « n est un nombre premier » est définissable dans (N, |). (iii) Montrer que les opérations binaires pgcd et ppcm sont définissables dans (N, |). (iv) On note S l’opération successeur de N. Montrer que S est définissable dans (N, <). (v) Montrer que, pour tous entiers p, q, r il y a équivalence entre S(pr)S(qr) = S(S(pq)r2 ) et la disjonction r = 0 ou p + q = r. En déduire que l’addition est définissable dans (N, ×, <). (vi) Montrer que 0 est définissable dans (Z, +), mais que 1 n’y est pas définissable. Exercice 5. (définissabilité) Montrer que l’ordre usuel est définissable dans (Z, +, ×). Exercice 6. (définissabilité) Montrer que l’ordre usuel des réels est définissable dans la structure (R, +, ×). En déduire que tout réel algébrique y est définissable. Exercice 7. (définissabilité) Montrer que la relation « x ∈ R » est définissable dans la structure (C, +, ×, σ), où σ désigne la conjugaison. Montrer que le nombre complexe i n’est pas définissable dans (C, +, ×, σ), mais que tout nombre complexe algébrique est définissable dans la structure (C, +, ×, σ, i). Comment établir l’implication réciproque ? Exercice 8. (théorie) Montrer que, pour toute structure R de type Σ, la famille Th1 (R) est une théorie complète de LΣ . Montrer que, si, en outre, la signature Σ contient un symbole de constante pour chaque élément du domaine de R, alors Th1 (R) est explicitement complète. x(x x -= Exercice 9. (arithmétique) Soit PA0 la théorie de L{00,SS ,+ +} constituée des formules ∀x x = S (yy ))), ∀x x, y (S(x x) = S(yy )⇒x x = y ), ∀x x(x x + 0 = 0 + x = x ), ∀x x, y (x x + S (yy ) = 0 ⇔ ∃yy (x x + y )). On définit une structure M de domaine N ∪ N × Z en posant 0 M = 0, S M (p) = p + 1, S (x M S ((n, p)) = (n, p + 1), et n1 +M n2 = n1 + n2 , (n1 , p1 ) +M n2 = (n1 , n2 + p1 ), n1 +M (n2 , p2 ) = (n2 , n1 + p2 ), (n1 , p1 ) +M (n1 , p2 ) = (n1 , p1 + p2 ), (n1 , p1 ) +M (n2 , p2 ) = (n1 + 2n2 , p1 + p2 ) pour n1 -= n2 . Montrer que M satisfait PA0 . Vérifier que +M n’est ni commutative, ni associative, et en déduire que la commutativité et l’associativité de l’addition ne peuvent pas se prouver à partir de PA0 .