Khadija Chakir Resumé de l'article

Telechargé par Chakir Khadija
Résumé de l’article Réseaux de
neurones récurrents et mémoire :
Application à la musique
Réalisé par : Khadija CHAKIR
Supervisé par : Pr. Jamal EL KAFI
Master : BIBDA
Année Scolaire :2022 /2023
UNIVERSITE CHOUAIB DOUKKALI
FACULTE DES SCIENCES - EL JADIDA
DEPARTEMENT INFORMATIQUE
L’article qui fait l’objet de mon résumé est le suivant : Réseaux de neurones
récurrents et mémoire : application à la musique, écrit par Tristan Sterin. Cet
article propose d’étudier la modélisation et la génération de partitions musicales
par apprentissage. A cette fin, nous trouverons des explications sur les enjeux
théoriques, musicologiques et mathématiques de cette discipline.
Il part du principe que Les réseaux de neurones récurrents sont des modèles
aptes à apprendre et à générer des séquences temporelles.et il étudie ce modèle
en utilisant deux variantes pour pouvoir les comparer et voir le modèle le plus
performant. L’article est devisé en trois parties, une première qui est théorique
puisque nous trouverons des définitions des réseaux neurones, des Réseaux de
neurones récurrents (RNNs) en exposant les deux variantes Vanilla RNNs et
LSTM, GRU, puis il explique le mode d’apprentissage de séquences et le
modèle génératif.
Dans la deuxième partie il jette la lumière sur les RNNs et les mémoires, il
signale que dans les RNNs il y a deux types de mémoires, mémoire à court
terme et mémoire à long terme. Et que la première est celle qui évolue au court
du traitement, sa couche de contexte informe sur le passé récent qu’il vient de
traiter, et La seconde est celle issue de lapprentissage, ancrée dans les poids du
réseau. la mémoire étudiée dans ce projet est la mémoire à court terme,
puisqu’elle détient les éléments de contexte.
Il a évalué les deux modèles sur différentes grammaires artificielles (grammaire
de Reber et ses variations) au niveau de l’apprentissage, de leurs capacités de
généralisation de celui-ci et leur gestion de dépendances quentielles.
Finalement,
A travers des expérimentations et des exemples il conclut que le modèle LSTM
est plus puissant que le modèle RNNs.
Il passe ensuite à l’approche Echo State Networks qui est à la croisée de l’étude
des systèmes dynamiques et du traitement du signal. Elle propose notamment
une manière de concevoir des RNNs sans entrainement de la couche cachée.
Cette méthode s’inscrit dans le cadre du réservoir learning qui considère que
selon certaines conditions un RNN non entraine fournit un réservoir de
dynamiques suffisamment riche pour être exploite tel quel.
L’auteur poursuit une étude approfondie de la capacité de mémoire des RNNs
vus avec L’approche ESN. Son approche est la suivante : il sagit de quantifier
la capacité d’un ESN à recomposer un signal d’entrée délayé. Plus précisément
il se donne un signal scalaire aléatoire stationnaire i.i.d(t) et il fait apprendre à
chaque neurone de sortie yi le signal v(t-i). il ny a pas dapprentissage au niveau
de la couche cachée. Le réseau est simplement entraine par régression linéaire
sur sa couche de sortie. Ainsi le nième neurone de sortie doit correspondre au
signal v délayé de i.
Dans la dernière partie il explique comment les RNNs peuvent être exploités en
musique en l’appliquant que Les chorals de Bach ,
Le choral est une pièce courte, polyphonique qui est découpée en différentes
périodes cadentielles finissant chacune par un point d’orgue.
.
Pour rester très proche du cadre décrit en partie 1 , le chercheur se contente de
générer des lignes de sopranos de chorals. C’est à dire la voix la plus aigües des
quatre. Cela a du sens musicalement puisque historiquement c’est le travail du
musicien que d’inférer les trois voix inferieurs étant donne le soprano.
Il extrait donc les soprani de tous les chorals de Bach, à cette fin, il a utilisé la
transcription lilypond .puis il transpose tous les chorals dans la même tonalite de
référence do majeur/mineur et il les convertit dans un format très simplifie,
enfin ,
il entraine Vanilla et LSTM avec un nombre de paramètres équivalent environ
30:000 –à l’aide des codes fournis en annexe.
Les résultats montrent la capacité des deux modèles à appréhender la structure
globale des chorals comme la découpe en période. Cependant la musique
proposée n’est pas toujours ts cohérente. Apres optimisation il arrive à une
erreur moyenne de 660 pour Vanilla contre 134 pour LSTM. Donc, il remarque
que le LSTM propose une forme d’ensemble plus cohérente qui respecte
certaines règles d’harmonie .et que Vanilla reste plus obscure.
Réalisé par :
khadija Chakir
1 / 4 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !