L’analyse en constituants et les arbres syntagmatiques La phrase ne se limite pas à une suite de mots. Prenons l’exemple de Tesnière avec la phrase « Alfred parle ». Il y a trois choses dans cette phrase : - le mot « Alfred » - le mot « parle » - la connexion entre les deux mots : les mots seuls ne suffisent pas à faire une phrase. Ce troisième élément est caché et pourtant il est indispensable à la compréhension. Il y a un ordre des mots particulier. L’ordre des mots est une donnée majeure en syntaxe. En warlpiri (langue parlée en Australie par les aborigènes) il n’y a pas d’ordre particulier. Il y a très peu de langues qui ne prennent pas en compte l’ordre des mots. L’immense majorité des langues sont des langues configurationnelles, c'est-à-dire qui utilisent l’ordre des mots dans la syntaxe. La connexion est exprimée par l’ordre des mots. L’ordre des mots est une dimension majeure dans l’interprétation des phrases. À chaque mot d’une phrase peut être associée une catégorie grammaticale et les catégories grammaticales n’apparaissent pas dans n’importe quel ordre. Ex : - Mon … mange une pomme. On sait qu’il faut un nom ou un groupe nominal. - Je déteste le … chien de ma voisine. Il faut un adjectif. - Mon petit frère … toutes les nuits. Il faut un verbe. - Les lions ont … une belle crinière. Il faut une adverbe (ou un participe passé). On est capable selon la position d’un mot dans la phrase de déterminer sa catégorie grammaticale la catégorie grammaticale et la fonction. Partie du discours = catégorie grammaticale. Les catégories grammaticales : - N nom - D ou Det déterminant 1 - A ou Adj adjectif V verbe Adv adverbe P préposition Comment les mots s’organisent-ils dans la phrase ? Les mots s’organisent dans la phrase selon leur fonction et leur catégorie grammaticale. Ex : Le garçon mange une pomme verte. C’est une phrase grammaticale (1) Ph Det N V Det N A Utiliser les catégories, ça permet de faire des généralisations. C’est mieux que de travailler avec les mots les uns par rapport aux autres mais ce n’est pas suffisant. On peut regrouper les mots en constituants. Les règles comme (1) manquent de profondeur (arbre de profondeur 1 : cf. ci-dessous). Ph (Det N) (V ((Det N) A) On ne peut pas engendrer toutes les phrases du français avec des arbres de profondeur 1, c’est pourquoi il y a l’analyse en constituants immédiats. Les mots se combinent au sein d’une structure. On va utiliser l’idée qu’il y a des structures internes à la phrase pour générer des règles. Constituant : groupe qui est homogène dans son comportement. Il existe des tests pour déterminer les limites d'un constituant : le test de la substitution : un constituant = une unité syntagmatique, peu importe sa longueur ou sa catégorie. On peut avoir des constituants formés d'un seul mot. Si un seul mot peut être substitué à un groupe de mots, alors le groupe de mots forme un constituant. Ex : [La petite fille] a mangé [le lapin en chocolat] Elle a mangé le lapin en chocolat. Elle l'a mangé. le test du mouvement : s'il est possible de déplacer un groupe de mots dans une autre position au sein de la phrase, on peut en conclure qu'il s'agit d'un constituant. 2 Ex : J'aime les haricots Les haricots, j'aime J'aime les haricots rouges Les haricots rouges, j'aime *Les haricots, j'aime rouges le test du questionnement : si un groupe peut fonctionner comme une réponse à une question, il s'agit probablement d'un constituant. Si le groupe peut être questionné, alors c'est probablement un constituant. Ex : Qu'est-ce que tu manges ? Une pizza le test de la mise en relief (ou construction clivée) : mise en relief d'un constituant au moyen de c'est … que. Ex : Le garçon mange la pizza C'est la pizza que mange le garçon C'est le garçon qui mange la pizza Les groupes qui peuvent être clivés vont être les groupes nominaux, les groupes prépositionnels et les adverbes. Les grammaires syntagmatiques Jusqu'au début des années 1980, les linguistes qui travaillaient dans le cadre de la grammaire générative faisaient état qu'il y a dans le cerveau un module qui permet de manipuler des règles syntagmatiques. Règles de réécriture : P SN SV (P se réécrit SN suivi de SV) SP Ex : P SN Det dans la N rue SP P SN SN Det N P dans Det la N rue 3 Ces règles syntagmatiques sont là pour essayer d'accéder à un degré de généralisation plus élevé. Les règles de réécriture permettent d'identifier les constituants immédiats d'un constituant donné. Dans les règles, en partie gauche on trouve toujours des catégories. Les mots sont des constituants terminaux. Dans les règles, il y a des constituants terminaux et des catégories syntagmatiques. Ces dernières peuvent être à gauche et à droite. Notre grammaire fonctionne avec uniquement des catégories syntagmatiques à gauche et jamais des mots. Quelques définitions : - Chaque point de rencontre entre deux lignes d'un arbre est appelé un nœud. - Chaque ligne qui associe deux nœuds est appelée une branche. - Dominance : un nœud α domine un nœud β s'il existe un chemin descendant de α à β. un constituant α domine immédiatement un constituant β si α domine β et s'il n'existe pas de constituant γ qui est aussi dominé par α. - Constituance : β est un constituant de α si α domine β. β est un constituant immédiat de α si α domine immédiatement β. - Par analogie avec les arbres généalogiques, on parle de mère, fille et sœur. - Une catégorie lexicale domine immédiatement un mot dont elle identifie la catégorie grammaticale. - Une catégorie syntagmatique domine immédiatement une ou plusieurs catégories (soit lexicale, soit syntagmatique). Ce type de grammaire est appelé grammaire indépendante du contexte (contexte free grammar = CFG). Pour avoir une CFG, il faut des règles du type AZ avec A représente un élément unique non nul, Z est non nul et représente une suite d'un ou plusieurs symboles, Z est distinct de A. Ces règles syntagmatiques permettent d'exprimer l'ordre linéaire et des relations de dominance. La notion de dominance permet de faire des généralisations. Les relations de dominance apparaissent dans les arbres mais aussi dans les règles de réécriture : ce qui est à gauche domine immédiatement ce qui est à droite. On utilise ces règles pour décrire un grand nombre de langues. 4 Ex : le quechua (langue parlée en Amérique du Sud) ñuka wasi pi /ma / maison / dans dans ma maison SP P SN SN Det N P pi Det ñuka N wasi P P P SN SN Det N Det pi ñuka wasi pas le bon ordre linéaire pour SP P SN P N ñuka wasi pi pas le bon ordre linéaire Il faut : SP SN P pour avoir le bon ordre linéaire Avec les trois mots, il y a six ordres différents possibles, alors qu'avec les règles il n'y en a que quatre. Cela s'explique par la dominance qui diminue le nombre de possibilités. Il y a restriction de l'ordre possible des mots. On fait donc le pari qu'il n'y a aucune langue qui aurait l'ordre "la dans rue" (Det P N). Cela permet donc des généralisations sur les formes possibles attestées dans les langues. On essaie ainsi de trouver un formalisme qui permette d'analyser les phrases d'un maximum de langues tout en restreignant les possibilités (on fait le pari qu'il y a des formes impossibles à trouver dans les langues, et donc il y a également restriction des langues possibles). Les règles syntagmatiques permettent des généralisations d'une langue donnée et de prédictions sur les langues possibles. On ne peut pas croiser les branches d'un arbre car il y a correspondance avec les règles syntagmatiques et les croisements ne sont pas exprimables dans ces dernières. SN Det (A) N Npropre SN Det N [ SP [P dans] [SN la rue] (= l'adjectif est facultatif) (=choix entre deux alternatives) ] Utilisation des analyseurs informatiques pour : tester les grammaires, la traduction et le traitement automatique des langues. Problème : suivant le modèle d'analyseur (ascendant ou descendant) on obtient des résultats différents. Donc l'ordre des règles conditionne la réponse. 5