
Chapitre 2 : Approche Methodologique
Introduction
La technique du Retrieval-Augmented Generation (RAG) constitue une avancée majeure
dans le domaine du traitement du langage naturel (NLP). Elle permet d’enrichir les
capacités des modèles de langage (LLM) en les connectant à des sources de données
externes pertinentes, structurées ou non.
Dans le cadre de notre projet, qui vise à développer un chatbot d’assistance étudiante
dans un environnement universitaire, les modèles LLM présentent certaines limites. En
effet, ces modèles sont entraînés sur des corpus généraux et statiques, ce qui les empêche
d’accéder à des données actualisées ou spécifiques à un domaine précis. Cela peut entraîner
des réponses erronées, incomplètes ou trop génériques.
L’approche RAG permet de dépasser ces limites en intégrant dynamiquement au modèle des
informations extraites à la volée depuis une base documentaire locale. Cette base
comprend ici des documents administratifs universitaires, utilisés pour guider les
réponses du modèle avec plus de précision et de contextualisation.
1. Demarche utilisée
Le développement du système RAG s’est appuyé sur une démarche structurée, comportant
plusieurs étapes essentielles décrites ci-dessous :
La collecte de données
La donnée constitue le socle de tout système RAG. Dans notre cas, il s’agit de documents
officiels issus du milieu universitaire (règlements, descriptions de formations,
procédures administratives, etc.). Ces documents ont été obtenus auprès des
établissements partenaires et serviront de base de connaissances pour guider les
réponses du chatbot.
Segmentation des documents
Une fois collectés, les documents sont segmentés en petits blocs d’information
homogènes. Ce découpage permet de :
Faciliter l’indexation et la recherche,
Éviter d’intégrer des passages non pertinents dans les réponses,