Les Russes disent « tri », les Espagnols « tres » et les

publicité
Les Russes disent « tri », les Espagnols « tres » et les Kashmiris « treh » pour le nombre 3. Ces ressemblances, et
bien d’autres , ne sont pas dues au hasard, mais au fait que ces langues sont cousines et font toutes partie de la
famille des langues Indo-Européennes, qui s’étend de l’Islande au Népal.
Les langues Indo-Européennes descendent toutes d’un ancêtre commun qu’on appelle Proto-Indo-Européen. Les
Proto-Indo-Européens se sont séparés en plusieurs groupes qui ont modifié petit à petit leur langage. Quelques
millénaires plus tard, ces changements accumulés ont abouti aux langues Indo-Européennes actuelles.
Parmi ces langues, certaines sont des cousins proches, comme le français, l’italien et l’espagnol : on sait que leur
ancêtre commun (le latin) existait à la fin de l’Antiquité, et on peut bien suivre le processus de modification de
ces derniers siècles. Mais si on cherche l’ancêtre commun à des langues plus éloignées (par exemple le français,
l’allemand et le breton), on se retrouve à la fin de la Préhistoire et il n’y a donc plus de traces écrites pour
indiquer ce qu’il s’est passé.
Comment alors reconstruire l’histoire de ces langues anciennes ? On aimerait pouvoir savoir quelles langues sont
les plus proches, mais aussi estimer à quelle époque les langues ancestrales existaient. En particulier, l’âge de
l’ancêtre commun à toutes les langues Indo-Européennes présente un intérêt particulier.
En effet, il y a un débat parmi les archéologues sur les débuts de la famille Indo-Européenne. L’opinion
majoritaire soutient qu’aux environs de 4500 av. JC, le peuple Proto-Indo-Européen vivait dans le Caucase et a
réussi à maîtriser le cheval, lui donnant un gros avantage sur ses voisins et lui permettant de s’étendre loin et
rapidement. Une autre hypothèse propose qu’aux environs de 6000 ou 7000 av. JC, le peuple Proto-IndoEuropéen ait vécu en ce qui est aujourd’hui la Turquie et ait inventé l’agriculture, lui donnant là aussi un gros
avantage sur ses voisins.
On sait assez bien quand et où le cheval a été maîtrisé et quand et où l’agriculture a été inventée, mais on ne sait
pas laquelle de ces deux inventions a été déterminante dans l’expansion des Indo-Européens. Si on pouvait dater
l’ancêtre commun des langues Indo-Européennes, cela permettrait de répondre à cette question.
Depuis longtemps, des linguistes reconstruisent des langues anciennes à la main, en étudiant les similarités entre
langues. Mais quand il s’agit d’estimer des âges et de chiffrer l’incertitude de nos estimations, seule une
approche mathématique est valable. Depuis le début de la décennie, un mouvement s’est donc amorcé pour
apporter une réponse quantitative à des questions de linguistique historique.
On se concentrera ici sur des données lexicales qu’on appelle le « vocabulaire de base » : il s’agit de mots qui
existent dans quasiment toutes les langues, comme aile, année, animal, arbre… Ces données présentent des
facilités de modélisation ; d’autres données (notamment grammaticales et phonologiques) ont aussi été soumises
à des analyses.
Le premier problème est de transformer les données linguistiques en un format facile à analyser. On utilise pour
cela les classes de cognats. Deux mots sont cognats s’ils ont le même sens et proviennent d’une origine
commune. Déterminer quels mots sont cognats est un processus complexe, qui demande l’expertise de linguistes
spécialisés. En gros, cela revient à repérer les similitudes entre mots, et à montrer que les différences sont
systématiquement les mêmes. Par exemple, le mot anglais milk et le mot allemand Milch sont cognats. Il est
certain que ces deux mots descendent d'un ancêtre commun. De même, le français lait et l’espagnol leche sont
cognats entre eux, mais ils n'appartiennent pas à la même classe de cognats que milk et Milch. Dans certains cas,
les ressemblances sont beaucoup moins évidentes : lait et leche sont également cognats avec le mot grec γάλα
(gala), ce qui ne se voit pas au premier abord (l’origine commune se voit mieux en comparant le génitif latin
lactis avec l’ancien grec γάλακτος – galactos). Dans d’autres cas, des mots qui se ressemblent ne sont pas
cognats pour autant : certaines ressemblances sont dues au hasard.
Les données lexicales sont alors encodées en une matrice D, comme dans le tableau ci-dessous. À chaque rangée
correspond une langue, et à chaque colonne une classe de cognats. Pour chaque langue L et chaque classe de
cognats c, on pose la question « est-ce que la classe c apparaît dans la langue L ? » Si oui, la matrice contient un
1 ; sinon, c'est un 0. Dans certains cas, on ne sait pas répondre à la question (par exemple parce qu'on ne connaît
pas tout le vocabulaire de la langue) : il peut donc aussi y avoir des points d'interrogation dans la matrice.
Français
lait
trois
animal
Espagnol
leche
tres
animale
Anglais
milk
three
animal
Allemand
Milch
drei
Tier
Reste à analyser ces données. Ici, une comparaison avec des données génétiques est de rigueur. Darwin déjà
remarquait dans l’Origine des espèces que les langues et les espèces biologiques évoluent de manière
comparable : une espèce biologique connaît des modifications de son génome ; ces modifications s’accumulent,
et peuvent mener à plusieurs espèces cousines, qui descendent du même ancêtre commun. On peut ensuite
reconstruire l’arbre généalogique représentant ce processus de diversification. De même, le vocabulaire d’une
langue connaît des modifications qui s’accumulent et peuvent donner naissance à plusieurs langues cousines
avec un ancêtre commun ; là aussi, on peut chercher à reconstruire un arbre généalogique. Pour les langues, un
autre processus est en jeu : les emprunts. Par exemple, le mot algèbre en français ne provient pas du latin, mais a
été emprunté à l’arabe. Pour de tels mots, le modèle d’arbre ne convient donc pas. Néanmoins, pour le
vocabulaire de base qui no us intéresse, les emprunts sont très rares et peuvent donc être ignorés ; le modèle
d’arbre convient bien. On connaît déjà l’âge de certaines langues dans l’arbre : ces âges peuvent être utilisés pour
estimer les paramètres du modèle ainsi que les âges inconnus.
Russell Gray et Quentin Atkinson, puis Geoff Nicholls et moi-même, avons donc appliqué à ces données
lexicales des modèles inspirés par la biologie et adaptés à la linguistique. L’analyse par des méthodes statistiques
présente un double avantage sur l’analyse traditionnelle « à la main » : d’une part, elle facilite nettement le calcul
des dates ; d’autre part, elle permet d’évaluer l’incertitude de toutes les estimations, tant dans la structure de
l’arbre que dans l’âge des langues ancestrales.
Les premières tentatives de linguistique historique quantitative ont été effectuées dès les années 1950 par Morris
Swadesh mais se sont soldées par un échec retentissant, ce qui fait que la communauté des linguistes est parfois
réticente aux méthodes statistiques plus récentes. Heureusement, de nombreux tests montrent que les nouvelles
méthodes sont très robustes et fournissent des estimations fiables.
La figure montre une reconstruction possible de l’arbre généalogique de 24 langues Indo-Européennes. (Cette
figure ne montre pas les zones d’incertitude ; certaines parties de l’arbre sont très peu certaines et d’autres ne
laissent aucun doute.) De nombreuses parties de la structure étaient déjà connues des linguistes, et sont bien
reconstruites ici. Des informations supplémentaires sur la partie la plus profonde de l’arbre sont également
apportées. Surtout, ces méthodes fournissent la première estimation fiable de l’âge du Proto-Indo-Européen :
toutes les analyses, sur plusieurs jeux de données et sous plusieurs modèles, donnent un âge aux alentours de
6000 av. JC, en faveur donc de l’hypothèse du développement par l’agriculture en Anatolie. Ces méthodes
commencent également à être appliquées à d’autres familles de langues ailleurs dans le monde, de l’Austronésie
au Sud de l’Afrique.
Références
R.D. Gray and Q.D. Atkinson, Language-tree divergence times support the Anatolian theory of Indo-European
origin (2003), Nature.
G.K. Nicholls, Horses or farmers ? The tower of Babel and confiendence in trees (2008), Significance.
R.J. Ryder and G.K. Nicholls, Missing data in a stochastic Dollo model for cognate data, and its application to
the dating of Proto-Indo-European (2010), Journal of the Royal Statistical Society Series C.
Téléchargement