Les Russes disent « tri », les Espagnols « tres » et les

Téléchargement

Les Russes disent « tri », les Espagnols « tres » et les Kashmiris « treh » pour le nombre 3. Ces ressemblances, et

bien d’autres , ne sont pas dues au hasard, mais au fait que ces langues sont cousines et font toutes partie de la

famille des langues Indo-Européennes, qui s’étend de l’Islande au Népal.

Les langues Indo-Européennes descendent toutes d’un ancêtre commun qu’on appelle Proto-Indo-Européen. Les

Proto-Indo-Européens se sont séparés en plusieurs groupes qui ont modifié petit à petit leur langage. Quelques

millénaires plus tard, ces changements accumulés ont abouti aux langues Indo-Européennes actuelles.

Parmi ces langues, certaines sont des cousins proches, comme le français, l’italien et l’espagnol : on sait que leur

ancêtre commun (le latin) existait à la fin de l’Antiquité, et on peut bien suivre le processus de modification de

ces derniers siècles. Mais si on cherche l’ancêtre commun à des langues plus éloignées (par exemple le français,

l’allemand et le breton), on se retrouve à la fin de la Préhistoire et il n’y a donc plus de traces écrites pour

indiquer ce qu’il s’est passé.

Comment alors reconstruire l’histoire de ces langues anciennes ? On aimerait pouvoir savoir quelles langues sont

les plus proches, mais aussi estimer à quelle époque les langues ancestrales existaient. En particulier, l’âge de

l’ancêtre commun à toutes les langues Indo-Européennes présente un intérêt particulier.

En effet, il y a un débat parmi les archéologues sur les débuts de la famille Indo-Européenne. L’opinion

majoritaire soutient qu’aux environs de 4500 av. JC, le peuple Proto-Indo-Européen vivait dans le Caucase et a

réussi à maîtriser le cheval, lui donnant un gros avantage sur ses voisins et lui permettant de s’étendre loin et

rapidement. Une autre hypothèse propose qu’aux environs de 6000 ou 7000 av. JC, le peuple Proto-Indo-

Européen ait vécu en ce qui est aujourd’hui la Turquie et ait inventé l’agriculture, lui donnant là aussi un gros

avantage sur ses voisins.

On sait assez bien quand et où le cheval a été maîtrisé et quand et où l’agriculture a été inventée, mais on ne sait

pas laquelle de ces deux inventions a été déterminante dans l’expansion des Indo-Européens. Si on pouvait dater

l’ancêtre commun des langues Indo-Européennes, cela permettrait de répondre à cette question.

Depuis longtemps, des linguistes reconstruisent des langues anciennes à la main, en étudiant les similarités entre

langues. Mais quand il s’agit d’estimer des âges et de chiffrer l’incertitude de nos estimations, seule une

approche mathématique est valable. Depuis le début de la décennie, un mouvement s’est donc amorcé pour

apporter une réponse quantitative à des questions de linguistique historique.

On se concentrera ici sur des données lexicales qu’on appelle le « vocabulaire de base » : il s’agit de mots qui

existent dans quasiment toutes les langues, comme aile, année, animal, arbre… Ces données présentent des

facilités de modélisation ; d’autres données (notamment grammaticales et phonologiques) ont aussi été soumises

à des analyses.

Le premier problème est de transformer les données linguistiques en un format facile à analyser. On utilise pour

cela les classes de cognats. Deux mots sont cognats s’ils ont le même sens et proviennent d’une origine

commune. Déterminer quels mots sont cognats est un processus complexe, qui demande l’expertise de linguistes

spécialisés. En gros, cela revient à repérer les similitudes entre mots, et à montrer que les différences sont

systématiquement les mêmes. Par exemple, le mot anglais milk et le mot allemand Milch sont cognats. Il est

certain que ces deux mots descendent d'un ancêtre commun. De même, le français lait et l’espagnol leche sont

cognats entre eux, mais ils n'appartiennent pas à la même classe de cognats que milk et Milch. Dans certains cas,

les ressemblances sont beaucoup moins évidentes : lait et leche sont également cognats avec le mot grec γάλα

(gala), ce qui ne se voit pas au premier abord (l’origine commune se voit mieux en comparant le génitif latin

lactis avec l’ancien grec γάλακτος – galactos). Dans d’autres cas, des mots qui se ressemblent ne sont pas

cognats pour autant : certaines ressemblances sont dues au hasard.

Les données lexicales sont alors encodées en une matrice D, comme dans le tableau ci-dessous. À chaque rangée

correspond une langue, et à chaque colonne une classe de cognats. Pour chaque langue L et chaque classe de

cognats c, on pose la question « est-ce que la classe c apparaît dans la langue L ? » Si oui, la matrice contient un

1 ; sinon, c'est un 0. Dans certains cas, on ne sait pas répondre à la question (par exemple parce qu'on ne connaît

pas tout le vocabulaire de la langue) : il peut donc aussi y avoir des points d'interrogation dans la matrice.

Français

lait

trois

animal

Espagnol

leche

tres

animale

Anglais

milk

three

animal

Allemand

Milch

drei

Tier

Reste à analyser ces données. Ici, une comparaison avec des données génétiques est de rigueur. Darwin déjà

remarquait dans l’Origine des espèces que les langues et les espèces biologiques évoluent de manière

comparable : une espèce biologique connaît des modifications de son génome ; ces modifications s’accumulent,

et peuvent mener à plusieurs espèces cousines, qui descendent du même ancêtre commun. On peut ensuite

reconstruire l’arbre généalogique représentant ce processus de diversification. De même, le vocabulaire d’une

langue connaît des modifications qui s’accumulent et peuvent donner naissance à plusieurs langues cousines

avec un ancêtre commun ; là aussi, on peut chercher à reconstruire un arbre généalogique. Pour les langues, un

autre processus est en jeu : les emprunts. Par exemple, le mot algèbre en français ne provient pas du latin, mais a

été emprunté à l’arabe. Pour de tels mots, le modèle d’arbre ne convient donc pas. Néanmoins, pour le

vocabulaire de base qui no us intéresse, les emprunts sont très rares et peuvent donc être ignorés ; le modèle

d’arbre convient bien. On connaît déjà l’âge de certaines langues dans l’arbre : ces âges peuvent être utilisés pour

estimer les paramètres du modèle ainsi que les âges inconnus.

Russell Gray et Quentin Atkinson, puis Geoff Nicholls et moi-même, avons donc appliqué à ces données

lexicales des modèles inspirés par la biologie et adaptés à la linguistique. L’analyse par des méthodes statistiques

présente un double avantage sur l’analyse traditionnelle « à la main » : d’une part, elle facilite nettement le calcul

des dates ; d’autre part, elle permet d’évaluer l’incertitude de toutes les estimations, tant dans la structure de

l’arbre que dans l’âge des langues ancestrales.

Les premières tentatives de linguistique historique quantitative ont été effectuées dès les années 1950 par Morris

Swadesh mais se sont soldées par un échec retentissant, ce qui fait que la communauté des linguistes est parfois

réticente aux méthodes statistiques plus récentes. Heureusement, de nombreux tests montrent que les nouvelles

méthodes sont très robustes et fournissent des estimations fiables.

La figure montre une reconstruction possible de l’arbre généalogique de 24 langues Indo-Européennes. (Cette

figure ne montre pas les zones d’incertitude ; certaines parties de l’arbre sont très peu certaines et d’autres ne

laissent aucun doute.) De nombreuses parties de la structure étaient déjà connues des linguistes, et sont bien

reconstruites ici. Des informations supplémentaires sur la partie la plus profonde de l’arbre sont également

apportées. Surtout, ces méthodes fournissent la première estimation fiable de l’âge du Proto-Indo-Européen :

toutes les analyses, sur plusieurs jeux de données et sous plusieurs modèles, donnent un âge aux alentours de

6000 av. JC, en faveur donc de l’hypothèse du développement par l’agriculture en Anatolie. Ces méthodes

commencent également à être appliquées à d’autres familles de langues ailleurs dans le monde, de l’Austronésie

au Sud de l’Afrique.

Références

R.D. Gray and Q.D. Atkinson, Language-tree divergence times support the Anatolian theory of Indo-European

origin (2003), Nature.

G.K. Nicholls, Horses or farmers ? The tower of Babel and confiendence in trees (2008), Significance.

R.J. Ryder and G.K. Nicholls, Missing data in a stochastic Dollo model for cognate data, and its application to

the dating of Proto-Indo-European (2010), Journal of the Royal Statistical Society Series C.

1 / 3 100%

Documents connexes

Paul, notre ancêtre - Lumen Vitae Online

Travail de recherche sur ma généalogie

LA BATAILLE FINALE

L`arbre d`évolution - Mon annee au college

Activité : établir des liens de parenté entre les espèces

6sc3 bio evol 4.key

3ème Chapitre 2 bilan 3

Evolution et phylogénétique

impossible classification du vivant

Chapitre 6 : mécanismes de l`évolution et

6sc3 bio evol 1.key

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Les Russes disent « tri », les Espagnols « tres » et les

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Les Russes disent « tri », les Espagnols « tres » et les

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib