Les Russes disent « tri », les Espagnols « tres » et les Kashmiris « treh » pour le nombre 3. Ces ressemblances, et
bien d’autres , ne sont pas dues au hasard, mais au fait que ces langues sont cousines et font toutes partie de la
famille des langues Indo-Européennes, qui s’étend de l’Islande au Népal.
Les langues Indo-Européennes descendent toutes d’un ancêtre commun qu’on appelle Proto-Indo-Européen. Les
Proto-Indo-Européens se sont séparés en plusieurs groupes qui ont modifié petit à petit leur langage. Quelques
millénaires plus tard, ces changements accumulés ont abouti aux langues Indo-Européennes actuelles.
Parmi ces langues, certaines sont des cousins proches, comme le français, l’italien et l’espagnol : on sait que leur
ancêtre commun (le latin) existait à la fin de l’Antiquité, et on peut bien suivre le processus de modification de
ces derniers siècles. Mais si on cherche l’ancêtre commun à des langues plus éloignées (par exemple le français,
l’allemand et le breton), on se retrouve à la fin de la Préhistoire et il n’y a donc plus de traces écrites pour
indiquer ce qu’il s’est passé.
Comment alors reconstruire l’histoire de ces langues anciennes ? On aimerait pouvoir savoir quelles langues sont
les plus proches, mais aussi estimer à quelle époque les langues ancestrales existaient. En particulier, l’âge de
l’ancêtre commun à toutes les langues Indo-Européennes présente un intérêt particulier.
En effet, il y a un débat parmi les archéologues sur les débuts de la famille Indo-Européenne. L’opinion
majoritaire soutient qu’aux environs de 4500 av. JC, le peuple Proto-Indo-Européen vivait dans le Caucase et a
réussi à maîtriser le cheval, lui donnant un gros avantage sur ses voisins et lui permettant de s’étendre loin et
rapidement. Une autre hypothèse propose qu’aux environs de 6000 ou 7000 av. JC, le peuple Proto-Indo-
Européen ait vécu en ce qui est aujourd’hui la Turquie et ait inventé l’agriculture, lui donnant là aussi un gros
avantage sur ses voisins.
On sait assez bien quand et où le cheval a été maîtrisé et quand et où l’agriculture a été inventée, mais on ne sait
pas laquelle de ces deux inventions a été déterminante dans l’expansion des Indo-Européens. Si on pouvait dater
l’ancêtre commun des langues Indo-Européennes, cela permettrait de répondre à cette question.
Depuis longtemps, des linguistes reconstruisent des langues anciennes à la main, en étudiant les similarités entre
langues. Mais quand il s’agit d’estimer des âges et de chiffrer l’incertitude de nos estimations, seule une
approche mathématique est valable. Depuis le début de la décennie, un mouvement s’est donc amorcé pour
apporter une réponse quantitative à des questions de linguistique historique.
On se concentrera ici sur des données lexicales qu’on appelle le « vocabulaire de base » : il s’agit de mots qui
existent dans quasiment toutes les langues, comme aile, année, animal, arbre… Ces données présentent des
facilités de modélisation ; d’autres données (notamment grammaticales et phonologiques) ont aussi été soumises
à des analyses.
Le premier problème est de transformer les données linguistiques en un format facile à analyser. On utilise pour
cela les classes de cognats. Deux mots sont cognats s’ils ont le même sens et proviennent d’une origine
commune. Déterminer quels mots sont cognats est un processus complexe, qui demande l’expertise de linguistes
spécialisés. En gros, cela revient à repérer les similitudes entre mots, et à montrer que les différences sont
systématiquement les mêmes. Par exemple, le mot anglais milk et le mot allemand Milch sont cognats. Il est
certain que ces deux mots descendent d'un ancêtre commun. De même, le français lait et l’espagnol leche sont
cognats entre eux, mais ils n'appartiennent pas à la même classe de cognats que milk et Milch. Dans certains cas,
les ressemblances sont beaucoup moins évidentes : lait et leche sont également cognats avec le mot grec γάλα
(gala), ce qui ne se voit pas au premier abord (l’origine commune se voit mieux en comparant le génitif latin
lactis avec l’ancien grec γάλακτος – galactos). Dans d’autres cas, des mots qui se ressemblent ne sont pas
cognats pour autant : certaines ressemblances sont dues au hasard.
Les données lexicales sont alors encodées en une matrice D, comme dans le tableau ci-dessous. À chaque rangée
correspond une langue, et à chaque colonne une classe de cognats. Pour chaque langue L et chaque classe de
cognats c, on pose la question « est-ce que la classe c apparaît dans la langue L ? » Si oui, la matrice contient un