Les Russes disent « tri », les Espagnols « tres » et les

Les Russes disent « tri », les Espagnols « tres » et les Kashmiris « treh » pour le nombre 3. Ces ressemblances, et
bien d’autres , ne sont pas dues au hasard, mais au fait que ces langues sont cousines et font toutes partie de la
famille des langues Indo-Européennes, qui s’étend de l’Islande au Népal.
Les langues Indo-Européennes descendent toutes d’un ancêtre commun qu’on appelle Proto-Indo-Européen. Les
Proto-Indo-Européens se sont séparés en plusieurs groupes qui ont modifié petit à petit leur langage. Quelques
millénaires plus tard, ces changements accumulés ont abouti aux langues Indo-Européennes actuelles.
Parmi ces langues, certaines sont des cousins proches, comme le français, l’italien et l’espagnol : on sait que leur
ancêtre commun (le latin) existait à la fin de l’Antiquité, et on peut bien suivre le processus de modification de
ces derniers siècles. Mais si on cherche l’ancêtre commun à des langues plus éloignées (par exemple le français,
l’allemand et le breton), on se retrouve à la fin de la Préhistoire et il n’y a donc plus de traces écrites pour
indiquer ce qu’il s’est passé.
Comment alors reconstruire l’histoire de ces langues anciennes ? On aimerait pouvoir savoir quelles langues sont
les plus proches, mais aussi estimer à quelle époque les langues ancestrales existaient. En particulier, l’âge de
l’ancêtre commun à toutes les langues Indo-Européennes présente un intérêt particulier.
En effet, il y a un débat parmi les archéologues sur les débuts de la famille Indo-Européenne. L’opinion
majoritaire soutient qu’aux environs de 4500 av. JC, le peuple Proto-Indo-Européen vivait dans le Caucase et a
réussi à maîtriser le cheval, lui donnant un gros avantage sur ses voisins et lui permettant de s’étendre loin et
rapidement. Une autre hypothèse propose qu’aux environs de 6000 ou 7000 av. JC, le peuple Proto-Indo-
Européen ait vécu en ce qui est aujourd’hui la Turquie et ait inventé l’agriculture, lui donnant là aussi un gros
avantage sur ses voisins.
On sait assez bien quand et où le cheval a été maîtrisé et quand et où l’agriculture a été inventée, mais on ne sait
pas laquelle de ces deux inventions a été déterminante dans l’expansion des Indo-Européens. Si on pouvait dater
l’ancêtre commun des langues Indo-Européennes, cela permettrait de répondre à cette question.
Depuis longtemps, des linguistes reconstruisent des langues anciennes à la main, en étudiant les similarités entre
langues. Mais quand il s’agit d’estimer des âges et de chiffrer l’incertitude de nos estimations, seule une
approche mathématique est valable. Depuis le début de la décennie, un mouvement s’est donc amorcé pour
apporter une réponse quantitative à des questions de linguistique historique.
On se concentrera ici sur des données lexicales qu’on appelle le « vocabulaire de base » : il s’agit de mots qui
existent dans quasiment toutes les langues, comme aile, année, animal, arbre… Ces données présentent des
facilités de modélisation ; d’autres données (notamment grammaticales et phonologiques) ont aussi été soumises
à des analyses.
Le premier problème est de transformer les données linguistiques en un format facile à analyser. On utilise pour
cela les classes de cognats. Deux mots sont cognats s’ils ont le même sens et proviennent d’une origine
commune. Déterminer quels mots sont cognats est un processus complexe, qui demande l’expertise de linguistes
spécialisés. En gros, cela revient à repérer les similitudes entre mots, et à montrer que les différences sont
systématiquement les mêmes. Par exemple, le mot anglais milk et le mot allemand Milch sont cognats. Il est
certain que ces deux mots descendent d'un ancêtre commun. De même, le français lait et l’espagnol leche sont
cognats entre eux, mais ils n'appartiennent pas à la même classe de cognats que milk et Milch. Dans certains cas,
les ressemblances sont beaucoup moins évidentes : lait et leche sont également cognats avec le mot grec γάλα
(gala), ce qui ne se voit pas au premier abord (l’origine commune se voit mieux en comparant le génitif latin
lactis avec l’ancien grec γάλακτος galactos). Dans dautres cas, des mots qui se ressemblent ne sont pas
cognats pour autant : certaines ressemblances sont dues au hasard.
Les données lexicales sont alors encodées en une matrice D, comme dans le tableau ci-dessous. À chaque rangée
correspond une langue, et à chaque colonne une classe de cognats. Pour chaque langue L et chaque classe de
cognats c, on pose la question « est-ce que la classe c apparaît dans la langue L ? » Si oui, la matrice contient un
1 ; sinon, c'est un 0. Dans certains cas, on ne sait pas répondre à la question (par exemple parce qu'on ne connaît
pas tout le vocabulaire de la langue) : il peut donc aussi y avoir des points d'interrogation dans la matrice.
Français
lait
trois
animal
Espagnol
leche
tres
animale
Anglais
milk
three
animal
Allemand
Milch
drei
Tier
Reste à analyser ces données. Ici, une comparaison avec des données génétiques est de rigueur. Darwin déjà
remarquait dans l’Origine des espèces que les langues et les espèces biologiques évoluent de manière
comparable : une espèce biologique connaît des modifications de son génome ; ces modifications s’accumulent,
et peuvent mener à plusieurs espèces cousines, qui descendent du même ancêtre commun. On peut ensuite
reconstruire l’arbre généalogique représentant ce processus de diversification. De même, le vocabulaire d’une
langue connaît des modifications qui s’accumulent et peuvent donner naissance à plusieurs langues cousines
avec un ancêtre commun ; là aussi, on peut chercher à reconstruire un arbre généalogique. Pour les langues, un
autre processus est en jeu : les emprunts. Par exemple, le mot algèbre en français ne provient pas du latin, mais a
été emprunté à l’arabe. Pour de tels mots, le modèle d’arbre ne convient donc pas. Néanmoins, pour le
vocabulaire de base qui no us intéresse, les emprunts sont très rares et peuvent donc être ignorés ; le modèle
d’arbre convient bien. On connaît déjà lâge de certaines langues dans larbre : ces âges peuvent être utilisés pour
estimer les paramètres du modèle ainsi que les âges inconnus.
Russell Gray et Quentin Atkinson, puis Geoff Nicholls et moi-même, avons donc appliqué à ces données
lexicales des modèles inspirés par la biologie et adaptés à la linguistique. L’analyse par des méthodes statistiques
présente un double avantage sur lanalyse traditionnelle « à la main » : dune part, elle facilite nettement le calcul
des dates ; dautre part, elle permet dévaluer lincertitude de toutes les estimations, tant dans la structure de
larbre que dans lâge des langues ancestrales.
Les premières tentatives de linguistique historique quantitative ont été effectuées dès les années 1950 par Morris
Swadesh mais se sont soldées par un échec retentissant, ce qui fait que la communauté des linguistes est parfois
réticente aux méthodes statistiques plus récentes. Heureusement, de nombreux tests montrent que les nouvelles
méthodes sont très robustes et fournissent des estimations fiables.
La figure montre une reconstruction possible de larbre généalogique de 24 langues Indo-Européennes. (Cette
figure ne montre pas les zones dincertitude ; certaines parties de larbre sont très peu certaines et dautres ne
laissent aucun doute.) De nombreuses parties de la structure étaient déjà connues des linguistes, et sont bien
reconstruites ici. Des informations supplémentaires sur la partie la plus profonde de larbre sont également
apportées. Surtout, ces méthodes fournissent la première estimation fiable de lâge du Proto-Indo-Européen :
toutes les analyses, sur plusieurs jeux de données et sous plusieurs modèles, donnent un âge aux alentours de
6000 av. JC, en faveur donc de lhypothèse du développement par lagriculture en Anatolie. Ces méthodes
commencent également à être appliquées à dautres familles de langues ailleurs dans le monde, de lAustronésie
au Sud de lAfrique.
Références
R.D. Gray and Q.D. Atkinson, Language-tree divergence times support the Anatolian theory of Indo-European
origin (2003), Nature.
G.K. Nicholls, Horses or farmers ? The tower of Babel and confiendence in trees (2008), Significance.
R.J. Ryder and G.K. Nicholls, Missing data in a stochastic Dollo model for cognate data, and its application to
the dating of Proto-Indo-European (2010), Journal of the Royal Statistical Society Series C.
1 / 3 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !