rapport chapitre2-3 chatbot

Telechargé par Simon Thiombiano

Téléchargement

Chapitre 2 : Approche Methodologique

Introduction

La technique du Retrieval-Augmented Generation (RAG) constitue une avancée majeure

dans le domaine du traitement du langage naturel (NLP). Elle permet d’enrichir les

capacités des modèles de langage (LLM) en les connectant à des sources de données

externes pertinentes, structurées ou non.

Dans le cadre de notre projet, qui vise à développer un chatbot d’assistance étudiante

dans un environnement universitaire, les modèles LLM présentent certaines limites. En

effet, ces modèles sont entraînés sur des corpus généraux et statiques, ce qui les empêche

d’accéder à des données actualisées ou spécifiques à un domaine précis. Cela peut entraîner

des réponses erronées, incomplètes ou trop génériques.

L’approche RAG permet de dépasser ces limites en intégrant dynamiquement au modèle des

informations extraites à la volée depuis une base documentaire locale. Cette base

comprend ici des documents administratifs universitaires, utilisés pour guider les

réponses du modèle avec plus de précision et de contextualisation.

1. Demarche utilisée

Le développement du système RAG s’est appuyé sur une démarche structurée, comportant

plusieurs étapes essentielles décrites ci-dessous :

La collecte de données

La donnée constitue le socle de tout système RAG. Dans notre cas, il s’agit de documents

officiels issus du milieu universitaire (règlements, descriptions de formations,

procédures administratives, etc.). Ces documents ont été obtenus auprès des

établissements partenaires et serviront de base de connaissances pour guider les

réponses du chatbot.

Segmentation des documents

Une fois collectés, les documents sont segmentés en petits blocs d’information

homogènes. Ce découpage permet de :

 Faciliter l’indexation et la recherche,

 Éviter d’intégrer des passages non pertinents dans les réponses,

 Améliorer la vitesse de traitement du système.

Chaque segment est ainsi plus facilement exploitable pour répondre de manière précise

à une question ciblée de l’utilisateur.

L’image represente le decoupage du document

Conversion des données

Les blocs textuels sont ensuite convertis en représentations vectorielles à l’aide du

modèle sentence-transformers/all-mpnet-base-v2 de HuggingFace. Cette opération

permet de capturer le sens sémantique des textes et de les rendre comparables

mathématiquement.

La base vectorielle est ensuite construite avec Faiss, un moteur performant conçu par

Facebook pour la recherche rapide de similarité entre vecteurs. Cela permettra, plus

tard, de retrouver les segments les plus proches d'une question donnée.

L’image suivante represente la vectoririsation des données des documents en

representation numerique

Traitement des demandes de l’utilisateur

Lorsqu’un utilisateur soumet une question, celle-ci est également vectorisée selon le

même modèle que celui utilisé pour les documents. Cela garantit une cohérence dans les

représentations.

Le système recherche ensuite, dans la base Faiss, les segments les plus proches de la

requête selon une mesure de similarité (cosinus, distance euclidienne, etc.). Les

passages retrouvés sont alors utilisés pour construire un contexte pertinent. Les

documents fournies proviennent d’une page web oreille du campus ne contenant que

les informations sur l’UFR/SEA .Nous retrouvons donc les passages les plus pertinants à

la requete de l’utilistaur.L’image suivante nous montre une partie des passages. Plus la

requete de l’utilisateur est plus precis plus la reponse est plus coherent.

Générer les reponses avec un LLM

Enfin, les segments extraits, accompagnés de la question de l’utilisateur, sont injectés

dans un modèle de langage (LLM) tel que LLaMA 3 via l’API Groq. Ce modèle génère

alors une réponse formulée naturellement, en prenant en compte le contexte

fourni.L’image suivante represente la reponse du model.

2. Approche et Architecture proposé pour traiter la problematique

Afin de répondre efficacement à la problématique posée – fournir une assistance

contextualisée aux étudiants – une architecture RAG a été conçue. Celle-ci repose sur une

chaîne de traitement articulée autour des étapes suivantes :

Étape 1 : Réception de la requête utilisateur

L’utilisateur interagit avec le chatbot via une interface web. Sa question constitue le point de

départ du pipeline.

Étape 2 : Traitement initial de la requête

Le backend vérifie si une réponse générique peut être fournie. Si ce n’est pas le cas, la

requête est envoyée au moteur de recherche contextuelle.

Étape 3 : Récupération des données

Une recherche est effectuée dans la base documentaire vectorielle locale construite à

partir des documents administratifs. Les blocs les plus pertinents sont extraits pour enrichir

le contexte.

Étape 4 : Construction du contexte

Les segments retrouvés sont organisés et combinés pour former un contexte cohérent

autour de la question posée.

Étape 5 : Génération de la réponse

Ce contexte est ensuite transmis à un LLM qui génère une réponse complète, pertinente et

formulée naturellement. Celle-ci est renvoyée à l’utilisateur via l’interface.

Cette architecture permet de tirer pleinement profit :

 de la puissance de généralisation des LLM,

 de la précision documentaire du système de récupération,

 et de la flexibilité offerte par une base documentaire modifiable à tout moment.

1 / 18 100%

Documents connexes

Planification du progrmme d'études (long terme) EDUC5912-2016

ANNEXE 13 : Résultats d`apprentissage spécifiques

regr4 ann13

ANNEXE 12 : Résultats d`apprentissage spécifiques

LA LUMIÈRE ANNEXE 19 : Résultats d’apprentissage spécifiques 4-2-01

ANNEXE 19 : Résultats d`apprentissage spécifiques

Plan du cours

Annexe 25 : Résultats d`apprentissage spécifiques

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

rapport chapitre2-3 chatbot

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

rapport chapitre2-3 chatbot

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib