L`analyse en constituants et les arbres syntagmatiques La phrase ne

publicité
L’analyse en constituants et les arbres
syntagmatiques
La phrase ne se limite pas à une suite de mots. Prenons l’exemple de Tesnière
avec la phrase « Alfred parle ». Il y a trois choses dans cette phrase :
- le mot « Alfred »
- le mot « parle »
- la connexion entre les deux mots : les mots seuls ne suffisent pas à faire
une phrase.
Ce troisième élément est caché et pourtant il est indispensable à la
compréhension.
Il y a un ordre des mots particulier. L’ordre des mots est une donnée majeure en
syntaxe.
En warlpiri (langue parlée en Australie par les aborigènes) il n’y a pas d’ordre
particulier. Il y a très peu de langues qui ne prennent pas en compte l’ordre des
mots. L’immense majorité des langues sont des langues configurationnelles,
c'est-à-dire qui utilisent l’ordre des mots dans la syntaxe.
La connexion est exprimée par l’ordre des mots.
L’ordre des mots est une dimension majeure dans l’interprétation des phrases. À
chaque mot d’une phrase peut être associée une catégorie grammaticale et les
catégories grammaticales n’apparaissent pas dans n’importe quel ordre.
Ex :
- Mon … mange une pomme.
On sait qu’il faut un nom ou un groupe nominal.
- Je déteste le … chien de ma voisine.
Il faut un adjectif.
- Mon petit frère … toutes les nuits.
Il faut un verbe.
- Les lions ont … une belle crinière.
Il faut une adverbe (ou un participe passé).
On est capable selon la position d’un mot dans la phrase de déterminer sa
catégorie grammaticale la catégorie grammaticale et la fonction.
Partie du discours = catégorie grammaticale.
Les catégories grammaticales :
- N  nom
- D ou Det  déterminant
1
-
A ou Adj adjectif
V  verbe
Adv  adverbe
P  préposition
Comment les mots s’organisent-ils dans la phrase ?
Les mots s’organisent dans la phrase selon leur fonction et leur catégorie
grammaticale.
Ex : Le garçon mange une pomme verte.  C’est une phrase grammaticale
(1) Ph  Det N V Det N A
Utiliser les catégories, ça permet de faire des généralisations. C’est mieux que
de travailler avec les mots les uns par rapport aux autres mais ce n’est pas
suffisant. On peut regrouper les mots en constituants. Les règles comme (1)
manquent de profondeur (arbre de profondeur 1 : cf. ci-dessous).
Ph
(Det
N) (V
((Det
N)
A)
On ne peut pas engendrer toutes les phrases du français avec des arbres de
profondeur 1, c’est pourquoi il y a l’analyse en constituants immédiats. Les mots
se combinent au sein d’une structure.
On va utiliser l’idée qu’il y a des structures internes à la phrase pour générer des
règles.
Constituant : groupe qui est homogène dans son comportement.
Il existe des tests pour déterminer les limites d'un constituant :
 le test de la substitution : un constituant = une unité syntagmatique, peu
importe sa longueur ou sa catégorie. On peut avoir des constituants
formés d'un seul mot. Si un seul mot peut être substitué à un groupe de
mots, alors le groupe de mots forme un constituant.
Ex : [La petite fille] a mangé [le lapin en chocolat]
Elle a mangé le lapin en chocolat.
Elle l'a mangé.
 le test du mouvement : s'il est possible de déplacer un groupe de mots
dans une autre position au sein de la phrase, on peut en conclure qu'il
s'agit d'un constituant.
2
Ex : J'aime les haricots  Les haricots, j'aime
J'aime les haricots rouges  Les haricots rouges, j'aime  *Les haricots, j'aime
rouges
 le test du questionnement : si un groupe peut fonctionner comme une
réponse à une question, il s'agit probablement d'un constituant. Si le
groupe peut être questionné, alors c'est probablement un constituant.
Ex : Qu'est-ce que tu manges ?
 Une pizza
 le test de la mise en relief (ou construction clivée) : mise en relief d'un
constituant au moyen de c'est … que.
Ex : Le garçon mange la pizza
C'est la pizza que mange le garçon
C'est le garçon qui mange la pizza
Les groupes qui peuvent être clivés vont être les groupes nominaux, les
groupes prépositionnels et les adverbes.
Les grammaires syntagmatiques
Jusqu'au début des années 1980, les linguistes qui travaillaient dans le cadre de
la grammaire générative faisaient état qu'il y a dans le cerveau un module qui
permet de manipuler des règles syntagmatiques.
Règles de réécriture :
P  SN SV
(P se réécrit SN suivi de SV)
SP
Ex :
P
SN
Det
dans la
N
rue
SP  P SN
SN  Det N
P  dans
Det  la
N rue
3
Ces règles syntagmatiques sont là pour essayer d'accéder à un degré de
généralisation plus élevé.
Les règles de réécriture permettent d'identifier les constituants immédiats
d'un constituant donné.
Dans les règles, en partie gauche on trouve toujours des catégories.
Les mots sont des constituants terminaux.
Dans les règles, il y a des constituants terminaux et des catégories
syntagmatiques. Ces dernières peuvent être à gauche et à droite.
Notre grammaire fonctionne avec uniquement des catégories syntagmatiques à
gauche et jamais des mots.
Quelques définitions :
- Chaque point de rencontre entre deux lignes d'un arbre est appelé un nœud.
- Chaque ligne qui associe deux nœuds est appelée une branche.
- Dominance :
 un nœud α domine un nœud β s'il existe un chemin descendant de α à β.
 un constituant α domine immédiatement un constituant β si α domine β et
s'il n'existe pas de constituant γ qui est aussi dominé par α.
- Constituance :
 β est un constituant de α si α domine β.
 β est un constituant immédiat de α si α domine immédiatement β.
- Par analogie avec les arbres généalogiques, on parle de mère, fille et sœur.
- Une catégorie lexicale domine immédiatement un mot dont elle identifie la
catégorie grammaticale.
- Une catégorie syntagmatique domine immédiatement une ou plusieurs
catégories (soit lexicale, soit syntagmatique).
Ce type de grammaire est appelé grammaire indépendante du contexte (contexte
free grammar = CFG).
Pour avoir une CFG, il faut des règles du type AZ avec A représente un
élément unique non nul, Z est non nul et représente une suite d'un ou plusieurs
symboles, Z est distinct de A.
Ces règles syntagmatiques permettent d'exprimer l'ordre linéaire et des
relations de dominance.
La notion de dominance permet de faire des généralisations.
Les relations de dominance apparaissent dans les arbres mais aussi dans les
règles de réécriture : ce qui est à gauche domine immédiatement ce qui est à
droite.
On utilise ces règles pour décrire un grand nombre de langues.
4
Ex : le quechua (langue parlée en Amérique du Sud)
ñuka wasi pi
/ma / maison / dans
dans ma maison
SP  P SN
SN  Det N
P  pi
Det  ñuka
N  wasi
P
P
P
SN
SN
Det N
Det
pi ñuka wasi
pas le bon ordre
linéaire pour
SP P SN
P
N
ñuka wasi pi
pas le bon
ordre linéaire
Il faut : SP  SN P pour avoir le bon ordre linéaire
Avec les trois mots, il y a six ordres différents possibles, alors qu'avec les
règles il n'y en a que quatre. Cela s'explique par la dominance qui diminue le
nombre de possibilités. Il y a restriction de l'ordre possible des mots. On fait
donc le pari qu'il n'y a aucune langue qui aurait l'ordre "la dans rue" (Det P N).
Cela permet donc des généralisations sur les formes possibles attestées dans les
langues.
On essaie ainsi de trouver un formalisme qui permette d'analyser les phrases
d'un maximum de langues tout en restreignant les possibilités (on fait le pari
qu'il y a des formes impossibles à trouver dans les langues, et donc il y a
également restriction des langues possibles).
Les règles syntagmatiques permettent des généralisations d'une langue donnée
et de prédictions sur les langues possibles.
On ne peut pas croiser les branches d'un arbre car il y a correspondance avec les
règles syntagmatiques et les croisements ne sont pas exprimables dans ces
dernières.
SN  Det (A) N
Npropre
SN  Det N
[
SP
[P dans] [SN la rue]
(= l'adjectif est facultatif)
(=choix entre deux alternatives)
]
Utilisation des analyseurs informatiques pour : tester les grammaires, la
traduction et le traitement automatique des langues.
Problème : suivant le modèle d'analyseur (ascendant ou descendant) on obtient
des résultats différents. Donc l'ordre des règles conditionne la réponse.
5
Téléchargement