Étude des processus d'adaptation dans le cortex visuel primaire par un modèle structurel des champs récepteurs Mémoire de Master 2 Margot Larroche Directeur de stage : Cyril Monier Équipe Cognisciences - Intégration et plasticité synaptique dans le cortex visuel (Yves Frégnac) Unité de Neurosciences, Information et Complexité, CNRS, Gif-sur-Yvette Master Recherche en Sciences Cognitives Université Paris Descartes, École Normale Supérieure, École des Hautes Études en Sciences Sociales Année 2014-2015 1/35 Déclaration de contribution Ont participé à ces travaux : Yves Frégnac, Cyril Monier, Jan Antolik, Yannick Passarelli, Luc Foubert, Jonathan Vacher, Gérard Sadoc, Guillaume Hucher, Aurélie Daret et moi-même - Définition de la problématique : CM, YF, JA, moi-même - Recherche bibliographique permettant de cerner la problématique : CM, JA, moi-même - Mise au point et première validation du modèle à l'occasion d'une précédente étude: JA - Implémentation du modèle à l'occasion d'une précédente étude: JA - Implémentation des stimuli «motion clouds»: JV, CM - Acquisition des données : CM, YP, LF, GH, AD, moi-même - Ajustement du modèle sur les données : moi-même - Implémentation de fonctions annexes à l'ajustement du modèle : moi-même - Résolution des difficultés techniques liées à l'ajustement du modèle : JA, GS, moi-même - Interprétation et discussion des résultats : CM, JA, moi-même - Rédaction du mémoire, production de figures: CM, moi-même - Relecture et correction du mémoire : CM, YF Déclaration d'originalité La présente étude utilise un modèle précédemment développé par un membre du laboratoire (Jan Antolik) mais non encore publié qui, en combinant les avantages de plusieurs modèles précédents des champs récepteurs neuronaux dans le cortex visuel primaire, obtient une performance de prédiction supérieure à celle des modèles classiques de la littérature. L'originalité de la présente étude est d'une part de valider ce modèle avec une technique (enregistrement extracellulaires multiples) et sur un modèle animal (chat anesthésié) différents de ceux initialement utilisés par Jan Antolik (imagerie calcique chez la souris), et d'autre part d'envisager ce modèle comme la première étape de l'incorporation des phénomènes adaptatifs dans la modélisation des champs récepteurs, afin de proposer un changement de paradigme dans l'étude du codage neuronal de l'information sensorielle. Remerciements Je remercie Yves Frégnac de m'avoir accueillie au sein de son laboratoire et pour ses conseils sur le projet. Merci à Cyril Monier et Jan Antolik de m'avoir encadrée et conseillée tout au long de ce stage. Merci à Yannick et Luc pour leurs explications et leur encadrement sur le protocole expérimental. Merci à Gérard pour son aide précieuse sur le logiciel Elphy. Merci à Jonathan pour ses explications sur les stimuli «motion clouds» Merci à Aurélie, Christophe et Benoît pour leur aide technique pendant les expériences. Enfin, merci à tous les membres de l'UNIC pour leur accueil chaleureux. 2/35 Résumé L'approche classique du codage neuronal des informations visuelles consistant à calculer un champ récepteur prévaut encore largement dans la littérature, mais ne permet pourtant souvent de prédire qu'une faible fraction de l'activité neuronale évoquée, en particulier lorsque les contenus statistiques respectifs des ensembles de stimuli utilisés pour le calcul du champ récepteur et la prédiction diffèrent. Les phénomènes d'adaptation neuronale au contexte statistique de stimulation constituent une des causes probables de cette limitation. Le but à long terme du projet démarré dans le cadre de ce stage est d'incorporer ces phénomènes adaptatifs dans la description classique des fonctions de transfert neuronales, afin d'obtenir un nouveau type de modèle, intermédiaire entre la description fonctionnelle classique et les modèles de réseaux dynamiques, qui permette de rendre compte de façon satisfaisante de la réponse neuronale dans toutes les conditions de stimulation. Pour cela nous avons utilisé comme point de départ le modèle structural LSCSM (Antolik et al), qui s'inscrit dans la lignée des modèles classiques en banque de filtres (type STC) tout en présentant la particularité de modéliser explicitement la hiérarchie simplifiée du réseau feedforward reliant le noyau géniculé latéral du thalamus (LGN) à l'aire visuelle primaire (V1), et donc en particulier de modéliser la réponse simultanée de plusieurs neurones de V1 et du LGN. En effet, cette structure inspirée de la biologie facilite l'incorporation future de mécanismes adaptatifs tels que la modulation activité-dépendante des poids synaptiques. Dans le cadre du stage a été réalisée la première partie de ce projet, à savoir la validation du modèle LSCSM sur des enregistrements extracellulaires multiples chez le chat anesthésié, alors qu'il avait été développé au départ sur des données d'imagerie calcique chez la souris. Nous avons constaté que le LSCSM présentait une performance égale ou supérieure, selon le type de stimulus utilisé, à celle d'un modèle classique utilisé pour comparaison: la décomposition de Volterra de 2e ordre diagonale. Ce modèle est donc pertinent pour le modèle animal et la technique d'enregistrement utilisés. Une comparaison avec la décomposition de Volterra de deuxième ordre complète, qui correspond à un modèle classique en banque de filtres et possède donc une structure plus proche du LSCSM, restera néanmoins à faire dans la suite du projet. D'autre part, une première observation des effets du contexte de stimulation sur les paramètres du modèle a été réalisée dans la continuité d'une étude précédente de l'équipe (Fournier et al. 2011), qui avait établi que le ratio des composantes "simple" (linéaire) et "complexe" (non-linéaire de 2e ordre diagonal) de la fonction de transfert d'un neurone de V1 était ajusté en fonction des statistiques de la stimulation (en l'occurrence type "sparse noise" ou "dense noise") de manière à maintenir le ratio de leurs contributions respectives à la réponse neuronale constant. Ces résultats ont été reproduits ici, et des différences nettes entre ces deux contextes de stimulation ont été constatées dans les paramètres obtenus pour le LSCSM. Mais un travail préalable sur la stabilité des solutions obtenues par ajustement reste à réaliser avant de pousser la comparaison plus en détail. 3/35 Table des matières Introduction..............................................................................................................................................4 Méthodes..................................................................................................................................................7 Protocole des enregistrements sur chat anesthésié..............................................................................7 Histologie.............................................................................................................................................8 Stimulation...........................................................................................................................................9 Stimuli de sparse et dense noise......................................................................................................9 Motion clouds.................................................................................................................................9 Acquisition et prétraitement des données..........................................................................................10 Méthodes standard de calcul de champ récepteur : décomposition de Volterra................................11 Ajustement du modèle LSCSM........................................................................................................12 Calcul de la performance du modèle.................................................................................................13 Résultats.................................................................................................................................................13 Données analysées.............................................................................................................................13 Détermination du nombre d'itérations nécessaires à l'ajustement du LSCSM..................................13 Exploration des méta-paramètres......................................................................................................14 Détermination du délai de réponse neuronal.....................................................................................17 Ajustement du LSCSM : caractéristiques et performances...............................................................18 Comparaison de données en sparse et en dense noise pour un même groupe de cellules.................22 Discussion..............................................................................................................................................30 Résolution temporelle des fonctions de transfert calculées...............................................................31 Spike sorting......................................................................................................................................31 Fiabilité des réponses visuelles..........................................................................................................31 Fiabilité des paramètres obtenus par l'ajustement.............................................................................32 Gain de performance du LSCSM par rapport aux modèles classiques de champ récepteur.............32 Adéquation de la comparaison sparse noise – dense noise à l'étude de l'adaptation.........................33 Bibliographie..........................................................................................................................................34 4/35 Introduction Le principe général d'organisation de la voie visuelle ventrale est une une hiérarchie de zones de traitement allant de la rétine aux aires visuelles corticales supérieures, par lesquelles l'information visuelle transite successivement via des connexions feed-forward, et dans chacune desquelles elle est représentée de façon rétinotopique, selon un code neuronal qui se complexifie d'étape en étape. Pour comprendre comment ce processus peut finalement aboutir à une représentation conceptuelle des objets, il est donc nécessaire de déterminer, à chacune de ces étapes, le code utilisé par les neurones pour représenter l'information visuelle. L'approche fonctionnelle classique de ce codage neuronal consiste à calculer pour chaque neurone un champ récepteur, c'est-à-dire une relation mathématique statique entre stimulus et réponse neuronale. Dans sa forme la plus simple, cette fonction est un filtre linéaire convolué avec le stimulus, suivi éventuellement d'une rectification (modèle linéaire - non linéaire, LN), pour produire la réponse neuronale. Elle a plus récemment été étendue à plusieurs filtres en parallèle combinés non linéairement (décomposition de Volterra de second ordre (Fournier et al. 2014), Spike Triggered Covariance (Rust et al. 2005), ou encore Maximum Noise Entropy model (Fitzgerald et al. 2011) ). Cette approche prévaut encore largement dans la littérature, mais montre pourtant ses limites face aux nombreux phénomènes d'adaptation des réponses neuronales aux statistiques de stimulation, c'est-àdire au fait que la réponse à un même stimulus local varie en fonction du contexte spatial et temporel de stimulation (David et al 2004). Cela inclut des phénomènes d'homéostasie tels que le contrôle de gain (Fairhall et al 2001) et la diminution de l'intensité de réponse à un trait visuel sur-représenté (par exemple une orientation donnée) (Benucci et al 2013), mais aussi des phénomènes d'interactions nonlinéaires au niveau spatial comme la modulation par le pourtour ou la suppression cross-orientée. Par exemple, une précédente étude de l'équipe (Fournier et al 2011) a montré que le champ récepteur d'un neurone donné calculé avec une stimulation de bruit épars (« sparse noise ») devenait plus « simple », c'est-à-dire plus linéaire, une fois calculé avec une stimulation de bruit dense (« dense noise »), de telle manière que le ratio des contributions respectives de la partie linéaire et non linéaire du champ récepteur à la réponse neuronale reste stable au cours du temps. Cette étude a donc révélé une forme jusqu'ici inconnue de contrôle homéostatique se produisant à la fois au niveau temporel et spatial. Les phénomènes adaptatifs se produisent à différentes échelles de temps et à tous les étages de la hiérarchie du traitement visuel. Les principaux mécanismes proposés sont des modulations activitédépendantes des poids synaptiques et de l'excitabilité neuronale, mais également les entrées synaptiques contexte-dépendantes, c'est-à-dire la connectivité latérale (intrinsèque à V1) et feedback (provenant d'aires visuelles supérieures). Mais la dynamique temporelle de ces différents mécanismes et la manière dont ils interagissent entre eux pour produire l'adaptation des fonctions de transfert neuronales restent globalement inconnues. Une façon de s'affranchir de cette complexité est de se placer dans un contexte statistique de stimulation stable, afin de calculer un champ récepteur valable uniquement dans ce contexte. Mais cette solution est insatisfaisante puisqu'en conditions naturelles les statistiques de stimulation fluctuent, et l'adaptation se produit donc en permanence. Les fonctions de transfert neuronales n'atteignent donc probablement jamais un état stable, contrairement à ce qui est supposé implicitement par l'approche classique. De plus, alors que ces phénomènes ont pu être considérés comme des défaillances non informatives du système (concept de "fatigue neuronale"), nous pensons qu'ils sont une caractéristique centrale du codage neuronal. Notre hypothèse de travail est qu'ils correspondent à un mécanisme actif de prédiction des stimuli d'après leur contexte, conduisant à la réduction des redondances entre les informations portées par les différents neurones, et donc à une optimisation du codage. Plus en détails, nous pensons que les phénomènes adaptatifs permettent la transition d'un 5/35 stimulus local (par exemple un segment orienté) à une perception globale (par exemple un contour), en étant par exemple à l'origine des phénomènes de complétion de contour (Bartels 2014). C'est pourquoi nous proposons une remise en cause du concept de champ récepteur au profit d'une vision dynamique du codage neuronal. Une précédente tentative d'incorporer les phénomènes adaptatifs dans une description de type champ récepteur a été la normalisation des réponses neuronales par celles des neurones voisins (“divisive normalization”, Heeger 1992, Carandini et al 2007). Cette description rend compte de plusieurs phénomènes adaptatifs, mais il est difficile de l'interpréter en termes de mécanismes biologiques. La présente étude se concentre sur l'aire visuelle primaire (V1), qui est la première région corticale à traiter l'information visuelle, qu'elle reçoit du noyau géniculé latéral du thalamus (LGN). En première approximation et comme initialement proposé par Hubel et Wiesel (Hubel & Wiesel 1962), les neurones y extraient les contours locaux orientés, de façon linéaire pour les cellules dites "Simples" (situées majoritairement dans la couche 4) et phase invariante pour les cellules dites "Complexes" (situées majoritairement dans la couche 2/3). Des études plus récentes sont allées au-delà de cette description classique en montrant que les neurones de V1, y compris "Simples", étaient en fait sensibles à plusieurs traits visuels (« features ») distincts combinés non-linéairement pour produire la réponse (Fournier et al 2014). Notre projet à long terme est organisé en deux temps: nous souhaitons d'abord aller jusqu'au bout de l'approche fonctionnelle du codage neuronal dans V1 en utilisant une méthode parmi les plus performantes de la littérature computationnelle, et en explorant méthodiquement ses limites en termes de prédiction des réponses neuronales. Puis nous souhaitons faire évoluer cette approche vers un modèle dynamique de réseau neuronal, rendant compte d'un nombre croissant de phénomènes adaptatifs et faisant le lien entre ces deux cadres théoriques. Nous avons donc choisi une approche adaptée à cette transition: le modèle LSCSM (LGN Simple Complex Structural Model), développé par Jan Antolik et collègues (Antolik et al, soumis). En effet, des études précédentes (McFarland et al. 2013) ont montré que la prédiction de la réponse d'un neurone donné à une séquence rapide d’images naturelles flashées (absence de corrélations temporelles) pouvait être significativement améliorée par, d'une part, la prise en compte de l'activité des neurones voisins (Pillow et al. 2008), et d'autre part, la réduction du nombre de paramètres libres du modèle par l'incorporation de contraintes biologiquement plausibles (en l'occurrence par l'utilisation d'une banque de filtres orientés (Willmore et al. 2010) ). Le modèle LSCSM se propose de combiner ces deux avantages en se basant sur une architecture simplifiée et donc paramétrable du réseau neuronal aboutissant à la construction des champs récepteurs de V1. Il consiste en effet à considérer les neurones enregistrés dans la couche 2/3 de V1 comme faisant partie d'un même réseau feed-forward convergeant du noyau géniculé latéral du thalamus (LGN) vers la couche 4 puis la couche 2/3 de V1, aboutissant à la construction de champs récepteurs simples en couche 4 et simples ou complexes en couche 2/3 conformément au modèle hiérarchique proposé par Hubel et Wiesel (Hubel & Wiesel 1962). En particulier, la seule source de non-linéarité dans le modèle est la rectification appliquée par les neurones des deux dernières couches à leurs entrées synaptiques, correspondant à leur seuil de décharge. Cette non-linéarité peut donc être reliée directement à un phénomène biologique, contrairement aux non-linéarités quadratiques habituellement utilisées dans les modèles à plusieurs sous-unités. En effet, d'une part, contraindre un modèle d'après ce que l'on suppose de l'architecture corticale permet de ne conserver qu'un nombre réduit de paramètres libres. D'autre part, le fait que les neurones voisins d'une même région aient de nombreuses entrées synaptiques en commun rend leurs champs récepteurs interdépendants: les réponses sensorielles d'un neurone donné contribuent à contraindre les champs récepteurs de ses voisins au cours de l'ajustement du modèle. La présence d'inputs partagés semble d'ailleurs cruciale pour la performance du modèle, comme l'ont vérifié Antolik et al lors d'une étude préliminaire. Notons que cette description reste 6/35 certes un modèle très simplifié, en particulier parce qu'elle ne prend pas en compte le rôle connu des connexions latérales et feedback dans la réponse des neurones, et ne peut donc pas être formellement assimilée à l'architecture réelle du réseau sous-jacent. Mais elle constitue néanmoins une première tentative de mise en correspondance des fonctions de transfert neuronales avec la dynamique du réseau sous-jacent. V1 - 2/3 V1 - 4 LGN Figure 1: schéma du modèle LSCSM. Source: Jan Antolik, Sonja Hofer, James A. Bednar, Tom Mrsic-Flogel (soumis) Dans les détails, le modèle est construit de la manière suivante (Figure 1): le stimulus visuel est d'abord filtré par le champ récepteur de chacune des cellules du LGN, modélisé par une différence de gaussiennes dont la position, la taille et le rapport centre sur pourtour sont des paramètres libres. Les réponses respectives de ces cellules sont ensuite sommées puis rectifiées pour donner les réponses des cellules simples de la couche 4 de V1, puis ces dernières sont à leur tour sommées puis rectifiées dans les neurones de la couche 2/3, les poids synaptiques et les seuils de rectification à chacun de ces deux étages étant des paramètres libres. La réponse des cellules 2/3 est celle qui est enregistrée expérimentalement, tandis que les paramètres sont ajustés aux données. Quant au nombre de neurones à l'étage du LGN ainsi que celui de la couche 4, dite "couche cachée", ils sont choisis a posteriori comme les plus faibles valeurs pour lesquelles la performance maximale est atteinte. Une première validation de ce modèle a été réalisée par Antolik et al (soumis) en ajustant celui-ci à des données d'activité calcique enregistrées en microscopie biphotonique dans le cortex visuel primaire de la souris anesthésiée pendant la présentation d'images naturelles. Ils ont constaté que la description obtenue surpassait en performance les deux méthodes classiques qu'ils avaient appliquées aux mêmes données pour comparaison (une caractérisation linéaire, et une banque de filtres en ondelettes (Willmore et al. 2010 )). Ce modèle relève donc de l'approche fonctionnelle classique tout en constituant un modèle de réseau dont les paramètres ont une signification biologique. Il est donc particulièrement adapté à une étude de l'adaptation neuronale et à une transition progressive vers un modèle dynamique. En effet, contrairement aux caractérisations précédentes, les phénomènes adaptatifs vont s'y manifester comme 7/35 la modulation de paramètres biologiques et donc facilement interprétables. De plus, sa forme se prête à l'incorporation progressive de mécanismes dynamiques tels que la modulation activité-dépendante des poids synaptiques, afin de rendre compte d'un nombre croissant de phénomènes adaptatifs. Dans le cadre de ce stage, nous nous sommes concentrés sur la validation de ce modèle pour notre modèle animal, le chat anesthésié et paralysé, et notre technique d'enregistrement des activités neuronales, les enregistrements extracellulaires multiples. En effet, l'aire visuelle primaire (ou aire 17) du chat présente une organisation fonctionnelle plus complexe et plus proche de l'humain que celle du rongeur, à savoir des cartes de préférences à l'orientation. De plus, nous allons réaliser des enregistrements extracellulaires, qui permettent une bien meilleure résolution temporelle dans l'enregistrement des réponses neuronales que l'imagerie calcique: la fonction de transfert des neurones sera donc évaluée l'échelle de temps réelle des fluctuations des taux de décharges neuronaux, à savoir la dizaine de millisecondes, alors que l'imagerie calcique ne permet qu'une résolution de l'ordre de la centaine de millisecondes. La pertinence du LSCSM pour ce modèle animal et ce type de données neuronales reste donc à confirmer. En pratique, nous nous sommes concentrés dans un premier temps sur l'analyse de données précédemment acquises dans l'équipe pour la validation et l'exploration des propriétés du modèle. Pour une première approche de l'effet de l'adaptation sur les paramètres du modèle, nous avons ensuite comparé les modèles obtenus respectivement par l'ajustement à des données de stimulation « sparse noise » et « dense noise » pour un même groupe de cellules enregistré. En effet, l'utilisation de ce type stimuli nous a permis de nous appuyer sur les résultats précédents de l'équipe sur l'adaptation des composantes linéaire et non-linéaire des fonctions de transfert neuronales, mentionnés plus haut (Fournier et al 2011). Dans un second temps, nous avons également réalisé de nouveaux enregistrements avec une nouvelle classe de stimuli récemment développée dans l'équipe, les motion clouds. Ceux-ci consistent en un bruit coloré dont le spectre spatio-temporel est contrôlé paramétriquement. Ils permettent de moduler le degré de corrélation spatio-temporelle au cours d'une même stimulation pour observer son impact sur les champs récepteurs. Mais les résultats de cette session d'acquisition ne seront pas présentés ici car le temps a manqué pour les analyser. Méthodes Deux séquences d'acquisition, dont une ayant produit des données exploitables, ont été réalisées au cours du stage. Mais ces nouvelles données n'ont pu être analysées par manque de temps, et les résultats présentés ici ont été obtenus sur d'anciennes données de l'équipe. Le protocole expérimental présenté ici réunit donc les protocoles respectifs des anciennes et des nouvelles données, qui sont en effet identiques à l'exception de l'électrode utilisée et de la nature des stimuli présentés. Protocole des enregistrements sur chat anesthésié Les enregistrements sont réalisés dans le cortex visuel primaire d'un chat anesthésié et paralysé. Préalablement à la chirurgie, l'animal est anesthésié par une injection intramusculaire d'alfaxolone (1mL/kg). Puis sont réalisés une canulation de la veine fémorale pour l'injection de paralysant, et une trachéotomie pour la ventilation artificielle. L'animal est ensuite placé dans un appareil stéréotaxique permettant de fixer sa tête dans une position standard face à l'écran de stimulation. Afin d'éviter tout mouvement des yeux, il est alors paralysé par la perfusion continue d'un curarisant de synthèse 8/35 (bromure de rocuronium, 2mg/kg/h), dilué dans du glucose et du chlorure de sodium pour maintenir l'hydratation de l'organisme. En conséquence, la respiration est assurée par une ventilation artificielle (25 c/pm, PCO2 alvéolaire maintenue entre 3.8 et 4.2% par ajustement du volume inspiratoire), en même temps que l'anesthésie par un mélange d'isofluorane et de protoxyde d'azote. La température de l'animal est maintenue à 37°C par une couverture chauffante. Une large craniotomie et une duratomie sont ensuite réalisées au niveau de l'aire 17 (équivalent de l'aire V1 humaine), qui s'étend des coordonnées -2 mm à +2 mm en antéropostérieur par rapport au repère stéréotaxique AP0. L'électrode utilisée pour les enregistrements analysés dans cette étude est une électrode laminaire de type « silicon probe » (Neuronexus) comprenant 32 contacts répartis sur 8 branches (Figure 2). Celle des enregistrements réalisés au cours du stage mais non analysés est une électrode laminaire de 64 contacts sur une seule branche, ce qui permet d'enregistrer simultanément dans toutes les couches du cortex tout en ayant un nombre suffisant de cellules par couche. Figure 2: Schéma des 8 branches de l'électrode utilisée pour les expériences analysées dans cette étude. La numérotation des canaux correspond à celle des 32 unités mentionnées dans la suite de l'étude. Histologie Après 48 à 72h d'enregistrement (selon l'état physiologique de l'animal), l'animal est sacrifié, son cerveau est extrait et fixé dans le paraformaldéhyde. Des coupes sont réalisées au niveau du site d'insertion de l'électrode. Les cellules sont marquées au DAPI tandis qu'un colorant fluorescent (Dye I) dont l'électrode avait été enduite avant insertion permet de localiser la trajectoire de celle-ci dans le tissu. On vérifie ainsi que l'insertion a bien été réalisée dans l'aire 17, et on détermine approximativement la localisation des différents contacts de l'électrode par rapport aux différentes couches corticales. Celles-ci peuvent en effet être différenciées par un marquage au rouge neutre. 9/35 Stimulation Figure 3: Simuli utilisés pour les données analysées dans cette étude : sparse noise (gauche) et dense noise (droite) La stimulation est délivrée monoculairement, l'autre œil étant masqué par un cache, de manière à s'affranchir d'une éventuelle complexification des propriétés de réponse due au codage de la disparité binoculaire. Stimuli de sparse et dense noise Le stimulus est affiché sur une matrice de n x n pixels (n=10 ou 15 selon les séquences d'acquisition analysées ici) positionnée à l'endroit de l'écran où semblent se concentrer les champs récepteurs des neurones enregistrés. Cette position est déterminée en calculant un premier champ récepteur (linéaire) de l'activité moyennée sur toutes les électrodes. Les deux types de stimuli qui ont été présentés successivement au même groupe de neurones pour comparaison sont respectivement du « sparse noise » (bruit épars) et du « dense noise » (bruit dense) ternaires (trois valeurs possibles de luminance). Dans le sparse noise, seul un pixel prend une valeur non nulle (-1: noir ou 1: blanc) à chaque instant, et la position de ce pixel change aléatoirement à la période de rafraîchissement du stimulus DtON, choisie pour être un multiple de la période de rafraîchissement de l'écran (DtON = 27 ou 53 ms selon les séquences d'acquisition analysées ici). Dans le dense noise, chaque pixel prend aléatoirement la valeur 0 (gris), 1 (blanc) ou -1 (noir) à chaque rafraîchissement du stimulus (Figure 3). Pour l'analyse, ces deux stimuli sont mis sous la forme d'une matrice 2 dimensions: nombre de pixels (n x n) x nombre de pas de temps. Les matrices de stimulation S et de réponse R sont ainsi importées dans Python pour l'ajustement du modèle. L'analyse consiste donc à ajuster les paramètres de la fonction de réponse f du modèle LSCSM de manière à se rapprocher de f(S)=R. Motion clouds Les motion clouds (Figure 4) constituent un ensemble de stimuli visant à explorer de manière systématique la réponse fonctionnelle d'un système sensoriel à un stimulus en mouvement de type naturel. Ils consistent en un bruit visuel dont on contrôle le spectre spatio-temporel. Pour l'implémentation, ils sont formulés mathématiquement comme une texture composée de patchs de Gabor locaux, paramétrée par la moyenne et l'écart-type sur l'ensemble des Gabors des paramètres de vitesse, direction et orientation. Le but est de tester systématiquement un système en variant continûment ces paramètres au cours de la stimulation. Pour l'expérience réalisée dans le cadre du stage, nous avons ainsi fait varier continûment le paramètre d'orientation dans un premier stimulus, puis créé un second stimulus en randomisant l'ordre des valeurs prises par l'orientation dans le premier. Les deux stimuli différaient donc uniquement sur leur degré de corrélation temporelle. 10/35 Figure 4: Deux exemples de motion clouds. Droite: spectres spatial et spatio-temporel Acquisition et prétraitement des données Les données sont acquises via un amplificateur Blackrock ainsi que le logiciel Elphy développé par Gérard Sadoc au sein du laboratoire. Le signal électrique brut enregistré sur chaque canal de l'électrode est séparé en une composante basse fréquence (filtrage passe-bande de 1 à 250 Hz) correspondant au potentiel de champ local (LFP) et une composante haute fréquence (filtrage passebande de 251 à 1000 Hz) contenant les potentiels d'action des neurones situés à proximité immédiate de l'électrode. Les données enregistrées pour la partie haute fréquence sont, pour chaque contact de l'électrode, une succession de valeurs de temps correspondant aux instants où le signal d'acquisition a détecté un franchissement de seuil, associé aux formes d'ondes correspondantes (potentiels d'actions putatifs). Les différentes formes d'onde pour un canal donné peuvent provenir de plusieurs neurones distincts et/ou être artéfactuelles (franchissement de seuil dû au bruit électrique). On les classe donc par neurone émetteur grâce au logiciel de spike sorting Plexon. En pratique, nous avons réalisé une décomposition en composantes principales de l'ensemble des formes d'onde, puis nous avons considéré comme des unités séparées les groupes de forme d'ondes qui formaient des agglomérats distincts dans le plan formé par les deux premières composantes principales. Une fois le spike sorting effectué, on obtient des trains de potentiels d'action pour chaque unité. On les convertit en un vecteur de nombres de potentiels d'action par unité de temps, à la fréquence de rafraîchissement du stimulus DTon. Une résolution temporelle plus élevée aurait pu être conservée dans la réponse pour la phase d'ajustement du modèle bien que celle du stimulus soit limitée, mais nous avons choisi la manière la plus simple de faire correspondre stimulus et réponse pour cette étude préliminaire. Le LSCSM a été initialement conçu pour être ajusté uniquement à des neurones de la couche 2/3 de V1. Il est possible de déterminer dans quelle couche se trouvait chaque neurone enregistré grâce à une analyse en current source density (CSD) sur les signaux de potentiel de champ local (LFP). Mais pour cette première étude préliminaire, toutes les unités ont été incluses. Dans le cas ou des unités enregistrées en couche 4 auraient ainsi été ajustées à la couche 2/3 du LSCSM, on s'attend simplement à ce que celles-ci soient plus "simples" (linéaires) que celles qui provenaient réellement de la couche 2/3, c'est-à-dire n'aient qu'un très petit nombre voire une seule entrée en provenance de la couche 4 du modèle. Mais cela ne remet pas en cause la pertinence du modèle pour ce cas de figure. 11/35 Méthodes standard de calcul de champ récepteur : décomposition de Volterra Le but de cette étude préliminaire étant de valider l'utilisation modèle LSCSM pour nos données, il nous faut comparer la qualité des prédictions qu'il produit avec celle d'autres types de caractérisation classiquement utilisés dans la littérature. Nous avons donc choisi d'utiliser une décomposition standard dont beaucoup de ces méthodes dérivent: la décomposition de Volterra. Celle-ci constitue une manière très générale et intuitive de décrire la relation entre une entrée multidimensionnelle (par exemple les valeurs du stimulus en différentes positions de l'espace et à différents instants en arrière) et une sortie unidimensionnelle (par exemple la réponse du neurone). Elle consiste à décomposer la réponse du système en une composante constante assortie des contributions respectives des statistiques d'ordres successifs du stimulus. Elle est donnée par la formule suivante, pour laquelle les deux premiers ordres ont été détaillés: r(t) = h0 +∫h1(x,y,τ) × s(x,y,t-τ) dxdydτ +∫h2(x1, y1,τ1,x2, y2,τ2) × s(x1, y1,t-τ1) × s(x2,y2,t-τ2) dx1dy1dτ1dx2dy2dτ2 + ... s(x,y,t) est la valeur du stimulus à la position (x,y) et à l'instant t, et r(t) est la réponse du système à l'instant t. La fonction hk, qui contient l'ensemble des coefficients de pondération appliqués par le système aux statistiques d'ordre k du stimulus, est appelée kernel d'ordre k. Caractériser le système consiste à estimer ses différents kernels. Le kernel d'ordre 0 h0 correspond au taux de décharge de base du neurone. Le kernel de premier ordre h1 est un simple filtre linéaire convolué à l'image: s'arrêter au terme de premier ordre pour décrire la fonction de transfert d'un neurone consiste à postuler que celle-ci est linéaire. Il s'agit d'une première approximation de la fonction de transfert des neurones très utilisée dans la littérature. En particulier, la méthode de Spike Triggered Average (STA) constitue une manière de calculer ce kernel dans le cas d'un stimulus non corrélé (bruit blanc). Le kernel de second ordre h2 correspond à la dépendance de la réponse neuronale à la covariance entre les pixels du stimulus pris deux à deux. Il constitue un raffinement couramment utilisé de la description de premier ordre. En particulier, la méthode de Spike Triggered Covariance (STC) constitue une manière de calculer ce kernel dans le cas d'un stimulus non corrélé et gaussien. Par diagonalisation de la matrice de second ordre obtenue, ce kernel peut être exprimé sous la forme d'un ensemble de filtres (appelés sous-unités de champ récepteur) appliqués en parallèle au stimulus et dont les sorties sont mises au carré et sommées pour donner la réponse neuronale. C'est pourquoi la décomposition de Volterra de deuxième ordre (kernels d'ordre 0, 1 et 2) constitue l'approche classique la plus proche du modèle LSCSM: il serait donc judicieux de comparer leurs prédictions respectives. Enfin, il est possible de ne conserver que les termes diagonaux du kernel de deuxième ordre, c'est-àdire les coefficients appliqués au stimulus élevé au carré. On récupère alors, de même que pour le kernel de premier ordre, un filtre h2diag de même dimension que l'image. Cette simplification est en particulier indiquée pour une stimulation par sparse noise. En effet, ce stimulus ne permet pas d'évaluer les termes non diagonaux de h2 puisqu'une seule position sur l'écran est stimulée à la fois. Quel que soit l'ordre choisi pour la décomposition, le système d'équations (une par valeur de temps t) associant les différents coefficients des kernels de Volterra aux valeurs prises par le stimulus et la réponse neuronale est linéaire par rapport aux coefficients de Volterra. On se place généralement dans 12/35 un cas de figure ou le système est sur-déterminé (plus de valeurs de t que de coefficients de Volterra à estimer). Le système admet donc une unique solution au sens des moindres carrés (somme sur tous les pas de temps des carrés des différences entre prédiction de Volterra et réponse enregistrée). Cette solution peut théoriquement être facilement obtenue par un algorithme de régression linéaire tel qu'il en existe déjà dans les librairies du langage Python. Mais en pratique, nous avons constaté que dans certains cas de figure, en particulier pour des résolutions du deuxième ordre, la solution était numériquement instable et divergeait donc vers des valeurs aberrantes. C'est pourquoi nous n'avons malheureusement pu calculer que les kernels de premier ordre et de deuxième ordre diagonal dans cette étude préliminaire. Une réflexion sera menée dans les développements futurs de ce projet pour trouver un algorithme de résolution stable. Dans la suite de l'étude, le terme de « décomposition de Volterra de premier ordre » correspondra à l'utilisation des kernels h0 et h1, et le terme de « décomposition de Volterra de deuxième ordre diagonale » à l'utilisation des kernels h0, h1 et h2diag. Ajustement du modèle LSCSM L'algorithme d'ajustement du modèle a été précédemment implémenté en langage Python par Jan Antolik. L'optimisation s'effectue par descente de gradient d'une fonction d'erreur par rapport aux différents paramètres, c'est-à-dire par itérations successives modifiant légèrement les paramètres dans le sens de ce gradient. La fonction d'erreur en question est le logarithme de la vraisemblance (likelihood) du modèle, c'est-à-dire la probabilité d'observer les données neuronales sachant la valeur des paramètres du modèle. Les méta-paramètres du modèle, c'est-à-dire les degrés de liberté additionnels qui ne sont pas ajustés aux données et doivent être choisis préalablement à l'ajustement, sont: - Le nombre de cellules dans la couche du LGN (nLGN) - Le nombre de cellules dans la couche cachée ou couche 4 (nHid) - Les bornes des différents paramètres à ajuster: en effet, l'algorithme d'optimisation n'effectue la recherche de paramètres optimaux qu'à l'intérieur de bornes qui lui sont spécifiées au départ Les paramètres qui sont ajustés aux données sont: - L'amplitude et la largeur des deux gaussiennes entrant dans la fonction de différence de gaussiennes qui constitue les champs récepteurs du LGN (4 x nLGN paramètres) - La position des champs récepteurs du LGN (2 x nLGN paramètres) - Les poids synaptiques entre la couche du LGN et la couche cachée et entre cette dernière et la couche de sortie, ou couche 2/3 (nLGN x nHid + nHid x nOut paramètres, nOut étant le nombre de cellules enregistrées en couche de sortie) - Les seuils de rectification dans la couche cachée et la couche de sortie (nHid x nOut) Les méta-paramètres sont à choisir préalablement à l'ajustement, et on constate qu'ils jouent un rôle important sur la performance finale du modèle (voir Résultats). Dans le cadre de cette étude, nous nous sommes restreints à un jeu de paramètres parmi les plus performants de ceux testés, mais une recherche plus systématique d'un jeu de paramètres optimal à utiliser pour tous les jeux de données sera à faire à l'avenir (voir Résultats/Discussion). Préalablement à l'ajustement, on réserve une partie des données (qu'on appellera données de validation) pour le calcul de la performance de prédiction en fin d'ajustement: ainsi cette mesure de performance n'est pas biaisée par le phénomène de sur-ajustement. 13/35 Calcul de la performance du modèle Pour mesurer la qualité de la prédiction fournie par le LSCSM ainsi que par les autres techniques de caractérisation utilisées (décompositions de Volterra), on calcule la réponse prédite par le modèle pour les données de validation, puis le coefficient de corrélation de Pearson entre cette prédiction et la réponse neuronale enregistrée. Dans la suite de l'étude, la notion de performance d'un modèle fera référence à cette mesure. Résultats Données analysées Plusieurs fichiers de données correspondant à des séquences d'enregistrements distinctes ont été analysés au cours de cette étude. Leurs caractéristiques sont récapitulées ici : Fichier n° Résolution du stimulus Période de rafraîchissement du stimulus (DtON) Type de stimulus Nombre d'unités Spike sorting effectué 1 10 x 10 53 ms Sparse noise 17 oui 2 15 x 15 53 ms Sparse noise 32 non 3 15 x 15 27 ms Sparse noise 32 non 4 15 x 15 27 ms Dense noise 32 non Les trois fichiers surlignés ont été acquis au cours de la même expérience à quelques heures d'intervalle, l'électrode n'ayant pas été déplacée une fois insérée dans l'aire visuelle primaire. De plus, les réponses fonctionnelles des différents canaux, analysées lors de précédentes études, étaient similaires. On considère donc qu'ils contiennent les mêmes unités, même si cela devra être vérifié plus précautionneusement par la suite. Ces trois fichiers n'ont pas subi de spike sorting pour cette analyse préliminaire, car les réponses fonctionnelles des signaux bruts étaient déjà de bonne qualité, alors que pour plusieurs canaux le rapport signal sur bruit des formes d'ondes était faible. Les signaux analysés pour ces trois fichiers sont donc multi-unitaires (voir Discussion). Détermination du nombre d'itérations nécessaires à l'ajustement du LSCSM Dans un premier temps, le nombre d'itérations réalisées au cours de l'ajustement est simplement choisi comme suffisant pour atteindre un plateau dans la performance du modèle. Dans certains cas d'ajustement de modèle de la littérature, les performances de validation (c'est-à-dire calculées sur les données de validation) se mettent à chuter une fois le plateau atteint à cause du phénomène de surajustement (overfitting). Mais un tel comportement n'a pas été observé dans le cas des fichiers de données analysés ici: une fois le plateau atteint les performances de validation restaient stables (Figure 14/35 5). La question du nombre d'itérations au bout duquel arrêter l'ajustement ne semble donc pas cruciale. Nous avons donc utilisé pour la suite de l'étude la valeur de 5000 itérations, située longtemps après l'établissement du plateau. Figure 5: Evolution de la performance du LSCSM ajusté aux données du fichier 1 au cours des itérations successives de l'ajustement. Rouge: corrélation entre réponse prédite et mesurée moyennée sur l'ensemble des unités. Bleu: Negative log-likelihood du modèle. Pointillés: performance calculée sur les données d'ajustement. Traits pleins: performance calculée sur les données de validation. Exploration des méta-paramètres Nous avons constaté que le choix des méta-paramètres influençait grandement la performance finale du modèle. C'est pourquoi nous avons conduit, sur les données du fichier 1 (stimulation sparse noise), une exploration de l'effet de chacun de ces paramètres sur la performance. Nous avons exploré systématiquement un espace de 6 paramètres en répétant l'ajustement pour chaque combinaison de valeurs, puis comparé les performances obtenues (Figure 6). Les méta-paramètres explorés sont les suivants : - Nombre de cellules dans la couche du LGN (nLGN) - Nombre de cellules dans la couche 4, ou couche cachée (nHid) - Borne supérieure sur les poids synaptiques entre la couche du LGN et la couche cachée (maxW1) - Borne supérieure sur les poids synaptiques entre la couche cachée et la couche de sortie (maxW2) - Bornes sur l'amplitude des champs récepteurs du LGN (bndLGN) - Bornes sur le seuil de décharge dans les couches cachée et de sortie (bndThr) 15/35 Il s'agit donc de paramètres affectant la structure du modèle (nLGN et nHid), mais également des bornes imposées par l'algorithme d'ajustement sur les paramètres du modèle. En effet, on aurait pu s'attendre à ce qu'il suffise de choisir les bornes les plus larges possibles pour optimiser la performance, puisque cela autorise l'algorithme d'ajustement à explorer un espace de paramètres plus grand. Mais en pratique, nous avons constaté que le choix de bornes trop larges pouvait parfois dégrader la performance finale du modèle. En effet, il s'agit d'un problème d'optimisation non convexe, c'est-à-dire qu'il existe des optima locaux : on peut donc imaginer que le choix de bornes trop larges favorise des solutions suboptimales. Figure 6: Performance (corrélation) finale du modèle ajusté sur les données du fichier 1 pour différentes valeurs de méta-paramètres. Chaque bloc correspond à l'exploration de deux méta-paramètres, les valeurs affichées correspondant à la performance moyenne sur toutes les valeurs prises par les quatre autres métaparamètres explorés. L'axe des abscisses est le même pour tous les blocs d'une même colonne, celui des ordonnées est le même pour tous les blocs d'une même ligne. On constate un effet sur la performance finale du nombre de cellules dans la couche cachée (nHid) mais également de certaines bornes : celles de l'amplitude des champs récepteurs du LGN (bndLGN), des poids synaptiques entre le LGN et la couche cachée (maxW1), des poids synaptiques entre la couche cachée et la couche de sortie (maxW2), et du seuil de rectification aux deux étages supérieurs (bndThr). On constate notamment une interaction peu intuitive entre bndThr, d'une part, et nHid et maxW2, d'autre part : si le seuil de rectification est autorisé à être négatif (bndThr = [-20,20]), la performance est d'autant meilleure que nLGN et maxW2 sont faibles. Mais si ce seuil est forcé à être positif (bndThr = [0,20]), ces deux relations s'inversent. Il n'est pas évident de comprendre d'où vient cette interaction. La possibilité d'avoir des seuils de décharge négatifs nous avait semblé au départ une bonne manière de rendre compte d'éventuels taux de décharge de base non nuls pour certains neurones : en effet, un seuil de décharge négatif implique qu'à une valeur nulle pour les entrées synaptiques corresponde une valeur strictement positive pour le taux de décharge. De plus, il semble également y avoir une interaction entre ces deux derniers paramètres eux-mêmes (nHid et maxW2): les faibles valeurs de maxW2 sont favorisées pour nHid élevé mais défavorisées pour nHid faible. 16/35 Enfin, la relation entre le nombre de cellules dans la couche du LGN (nLGN) et la performance n'est pas claire sur cette première exploration, mais une deuxième exploration se concentrant sur les petites valeurs de ce paramètre (Figure 7) montre qu'il y a bien une relation croissante comme on pouvait le supposer (puisque augmenter le nombre de cellules augmente le nombre total de paramètres et donc la flexibilité du modèle), mais que celle-ci sature dès 4 à 5 cellules. Figure 7: Evolution avec le nombre de cellules dans la couche du LGN (nLGN) de la performance du LSCSM moyennée sur un ensemble de valeurs des autres méta-paramètres La dépendance de la performance du LSCSM aux valeurs des différents méta-paramètres est donc complexe: plusieurs interactions entre méta-paramètres font qu'il ne suffit pas de faire varier chaque méta-paramètre un par un puis d'additionner leurs effets pour comprendre la globalité du phénomène. Seule une exploration méthodique de tout l'espace multi-dimensionnel des méta-paramètres peut permettre d'identifier une combinaison de méta-paramètres optimale. Pour la suite de l'étude, nous avons choisi le jeu de méta-paramètres suivant qui faisait partie des combinaisons de méta-paramètres les plus performantes parmi celles testées: - nHid: 20 - nLGN: 10 - maxW1: 1 - maxW2: 1 - bndLGN: [0, 10] - bndThr: [-20, 20] Néanmoins, une optimisation du nombre de cellules dans les deux couches inférieures (nHid et nLGN) reste à faire afin de minimiser le nombre de paramètres du modèle tout en conservant une performance maximale (voir Discussion). De plus, il n'est pas certains que tous les phénomènes observés ici se généralisent à tous les fichiers de données, et en particulier à un autre type de stimulus, en l'occurrence le dense noise. Cette hypothèse devra également être testée par la suite. 17/35 Détermination du délai de réponse neuronal Le modèle ne comportant pour l'instant pas de dimension temporelle, la dépendance de la réponse au stimulus ne pouvait être caractérisée que pour une valeur de temps. Les neurones du cortex visuel primaire ayant habituellement un délai de réponse de quelques dizaines de millisecondes, il n'était pas évident a priori de savoir de combien d'intervalles de temps décaler stimulus et réponse pour maximiser la dépendance entre ces signaux. Pour déterminer la valeur optimale de ce décalage, nous avons calculé sur le fichier 2 (stimulation sparse noise) le kernel de Volterra de premier ordre spatiotemporel (Figure 8), c'est-à-dire que le stimulus utilisé pour l'ajustement comprenait non seulement 225 dimensions spatiales (nombre total de pixels) mais également 5 dimensions temporelles (nombre de valeurs passées de stimulation influençant la réponse à un instant donné), donc 1125 dimensions en tout. 18/35 Figure 8: Kernels de Volterra spatiotemporels d'ordre 1 (lissés) pour les 32 unités analysées dans le fichier 2. Tau=i correspond à la valeur du kernel à i intervalles de temps en arrière. La taille des intervalles de temps est celle de la période de rafraîchissement du stimulus : 53 ms. On constate que l'amplitude maximale des kernels pour les cellules qui en possèdent se situe aux alentours d'un intervalle de temps en arrière (de 53 à 106 ms avant la réponse neuronale, autrement dit la réponse intervient de 53 à 106 ms après le début de la stimulation). Pour l'analyse de ce fichier, nous avons donc choisi un décalage d'un intervalle de temps entre stimulus et réponse. La même opération a été répétée pour les autres fichiers : la valeur de tau optimale s'est révélée être de 1 pour les deux fichiers (1 et 2) ayant pour période de rafraîchissement du stimulus 53 ms, et de 2 pour les deux autres fichiers (3 et 4) ayant pour période de rafraîchissement du stimulus 27 ms. Il est à noter que l'absence de kernel linéaire pour une unité ne signifie pas une absence de réponse visuelle : l'unité pourrait répondre d'une manière entièrement non linéaire. Dans la suite de l'étude, le calcul de la décomposition de Volterra de deuxième ordre diagonale pourrait permettre de capturer en partie ce type de réponse. Ajustement du LSCSM : caractéristiques et performances Un ajustement du modèle a été réalisé sur le fichier 2 (stimulation sparse noise) (Figure 9). Pour obtenir une première intuition des propriétés du modèle obtenu, on calcule la réponse prédite par le modèle pour chacune des unités, et on applique la décomposition de Volterra de deuxième ordre diagonale sur cette prédiction (Figures 12, 13). On calcule d'autre part cette même décomposition sur les données elles-mêmes (Figures 10, 11). 19/35 Figure 9: modèle LSCSM ajusté aux données du fichier 2. Seules 20 parmi les 30 unités enregistrées sont représentées pour plus de lisibilité. Ligne du bas : champs récepteurs du LGN. Ligne du milieu : champs récepteurs de la couche cachée (couche 4 de V1), qui sont des combinaisons linéaires des précédents (car il n'y a pas de rectification à l'étage du LGN). Ligne du haut : kernel de Volterra de premier ordre appliqué à la sortie du modèle pour chacune des cellules de la couche de sortie (couche 2/3 de V1). Il ne s'agit pas à proprement parler de la représentation de leur fonction de transfert car, du fait de l'étape de rectification, celle-ci est une combinaison nonlinéaire des champs récepteurs de la couche cachée et ne peut donc pas être représentée sous la forme d'un unique filtre. Les poids synaptiques entre la couche cachée et la couche de sortie ont été représentés uniquement pour l'une des cellules de la couche de sortie pour plus de lisibilité (rouge : positif, bleu : négatif, l'épaisseur correspond à la valeur absolue). 20/35 Figure 10: Kernels de Volterra spatiaux d'ordre 1 (lissés) des 32 unités du fichier 2. L'échelle est la même pour toutes les unités. Il est a noter que certains kernels (comme celui de l'unité 24) présentent une structure spatiale claire mais d'amplitude trop faible pour être visible à cette échelle. Figure 11: Kernels de Volterra spatiaux d'ordre 2 diagonal (lissés) des 32 unités du du fichier 2. L'échelle est la même que celle de la figure précédente. 21/35 Figure 12: Kernels de Volterra spatiaux d'ordre 1 (lissés) calculés sur la prédiction du LSCSM pour les 32 unités du fichier 2. L'échelle est la même que celle de la figure précédente. Figure 13: Kernels de Volterra spatiaux d'ordre 2 diagonal (lissés) calculés sur la prédiction du LSCSM pour les 32 unités du fichier 2. L'échelle est la même que celle de la figure précédente. On observe tout d'abord que la plupart des unités présentent une forte composante non-linéaire (Figure 11). Il s'agit donc de cellules de type « complexe » dont les réponses seront probablement peu prédites par une description linéaire. En particulier, certaines unités ne présentant quasiment aucune composante de premier ordre (Figure 10) ont une composante de deuxième ordre diagonal très marquée (Figure 11) (exemple : unité 3). Par ailleurs, on constate que le LSCSM reproduit presque parfaitement la forme et l'amplitude des kernels de premier (Figure 12) et deuxième ordre diagonal (Figure 13) des cellules. Il pourrait néanmoins posséder également des propriétés qui ne sont pas capturées par cette décomposition. 22/35 On calcule maintenant la performance de prédiction du modèle, c'est-à-dire le coefficient de corrélation entre les réponses prédites et mesurées pour chaque unité. Pour comparaison, on calcule également celles de la décomposition de Volterra de premier ordre et de deuxième ordre diagonal (Figure 14). Figure 14: Corrélation entre réponse prédite et mesurée sur les données de validation pour le LSCSM, le kernel de Volterra spatial de premier ordre et la combinaison des kernels de Volterra spatiaux de premier et deuxième ordre diagonal, pour chacune des 32 unités analysées, classées par corrélation moyenne croissante. On constate que le kernel de Volterra de premier ordre seul prédit très peu les réponses neuronales, ce qui était prévisible compte tenu de l'amplitude des kernels de second ordre diagonal pour ces cellules. Par contre les performances du LSCSM d'une part, et de la décomposition de Volterra de second ordre diagonale d'autre part, sont nettement meilleures et quasiment identiques. Ce constat constitue une validation de la pertinence du modèle LSCSM pour nos données. En effet, le modèle avec les paramètres choisis contenait 952 paramètres à ajuster en tout donc moins de 30 paramètres par unité, contre 451 paramètres par unité (deux fois le nombre de pixels dans le stimulus, et un paramètre pour le taux de décharge de base) pour la décomposition de Volterra de deuxième ordre diagonale. Ce rapport aurait d'ailleurs pu être encore plus favorable si la résolution du stimulus avait été supérieure, car la structure du LSCSM est indépendante de la taille du stimulus. De plus, il aurait probablement été possible de réduire le nombre de cellules dans les deux premières couches et donc le nombre de paramètres dans le LSCSM sans impacter notablement la performance (voir « Exploration des métaparamètres »). Cela signifie que les contraintes introduites dans le LSCSM par rapport aux descriptions classiques afin de réduire le nombre de paramètres (principalement la paramétrisation de la forme des champs récepteurs et le partage d'entrées synaptiques entre les neurones) capturent des propriétés réelles des données, comme le recouvrement important entre les champs récepteurs des unités voisines le laissait d'ailleurs présager. Comparaison de données en sparse et en dense noise pour un même groupe de cellules Le modèle avec les mêmes méta-paramètres a été ajusté successivement aux fichiers 3 et 4 qui 23/35 constituent deux enregistrements des mêmes cellules, l'un avec une stimulation sparse noise, l'autre avec une stimulation dense noise. La période de rafraîchissement (27 ms), la position sur l'écran et la résolution spatiale du stimulus (15x15 pixels) étaient les mêmes dans les deux cas. A nouveau, on commence par calculer les kernels de Volterra spatiaux d'ordre 1 (Figures 15, 17) et d'ordre 2 diagonal (Figures 16, 18) pour chaque unité. Figure 15: Kernels de Volterra spatiaux d'ordre 1 (lissés) des 32 unités du groupe en sparse noise (fichier 3). L'échelle est la même pour toutes les unités. Il est a noter que certains champ récepteurs (comme celui de l'unité 17) présentent une structure spatiale claire mais d'amplitude trop faible pour être visible à cette échelle. Figure 16: Kernels de Volterra spatiaux d'ordre 2 diagonal (lissés) des 32 unités du groupe en sparse noise (fichier 3). L'échelle est la même que celle de la figure précédente. 24/35 Figure 17: Kernels de Volterra spatiaux d'ordre 1 (lissés) des 32 unités du groupe en dense noise (fichier 4). L'échelle est la même pour toutes les unités, et d'amplitude environ 10 fois inférieure à celle de la figure précédente. Figure 18: Kernels de Volterra spatiaux d'ordre 2 diagonal (lissés) des 32 unités du groupe en dense noise (fichier 4). L'échelle est la même que celle de la figure précédente. On constate une forte réduction (d'un facteur 10 environ) de l'amplitude des kernels aussi bien linéaires que non-linéaire entre sparse noise (Figures 15, 16) et dense noise (Figures 17, 18). Il s'agit d'un phénomène d'adaptation et plus particulièrement d'un effet de contrôle de gain déjà documenté par Fournier et al 2011 : le gain de réponse se réduit lorsque l'énergie du stimulus augmente. De plus, l'extension spatiale des kernels non linéaires est nettement réduite en dense noise, et le rapport d'amplitude entre kernels non-linéaires et linéaires semble se réduire également : ces résultats sont similaires à ceux de Fournier et al 2011, obtenus en enregistrements intracellulaires, selon lesquels le ratio des composantes non-linéaires et linéaires de la réponse diminue lorsque la complexité du 25/35 stimulus augmente. De plus, on constate que les kernels de premier ordre en dense noise (Figure 17) ont une forme bipolaire (partie positive, ou « on » et partie négative, ou « off »), alors qu'ils ne présentent qu'une région « on » en sparse noise (Figure 15). Une explication possible est que les effets inhibiteurs du stimulus ne peuvent pas être mis en évidence en sparse noise, du fait de la rareté des stimulations tombant sur le champ récepteur et de la rectification appliquée par les neurones: une inhibition par le stimulus conduit simplement à une absence de réponse. En dense noise au contraire, le champ récepteur est stimulé en permanence, donc une inhibition par une partie du stimulus va avoir un effet soustractif sur l'excitation produite simultanément par une autre partie du stimulus, et donc réduire la réponse neuronale résultante. 26/35 Figure 19: modèle LSCSM pour les 32 unités du fichier 3 (sparse noise). Seules 20 unités sont représentées pour plus de lisibilité. 27/35 Figure 20: modèle LSCSM pour les 32 unités du fichier 4 (dense noise). Seules 20 unités sont représentées pour plus de lisibilité. 28/35 On constate que les paramètres obtenus pour le LSCSM diffèrent entre les deux types de stimulus (Figures 19, 20). Cela était prévisible puisqu'on vérifie à nouveau (données non présentées) que le modèle reproduit presque parfaitement les kernels linéaires et non-linéaires dans ces deux cas de figure, or ceux-ci diffèrent entre les deux stimuli. Une comparaison plus détaillée des deux modèles obtenus nécessiterait un travail préalable de réduction des degrés de liberté superflus dans le modèle (voir Discussion). Figure 21: Corrélation entre réponse prédite et mesurée sur les données de validation pour le LSCSM, la décomposition de Volterra spatiale de premier ordre et la décomposition de Volterra spatiale de deuxième ordre diagonale, pour chacune des 32 unités analysées classées par corrélation moyenne croissante, pour les données de sparse noise du fichier 3 (traits pleins) et de dense noise du fichier 4 (traits pointillés). 29/35 Figure 22: Performance de prédiction (corrélation entre réponse prédite et mesurée) de la décomposition de Volterra de premier ordre (bleu) et de second ordre diagonal (rouge) en fonction de celle du LSCSM pour les 32 unités du fichier 3 (sparse noise). Les étoiles représentent les valeurs moyennes sur toutes les cellules. Figure 23: Performance de prédiction (corrélation entre réponse prédite et mesurée) de la décomposition de Volterra de premier ordre (bleu) et de second ordre diagonal (rouge) en fonction de celle du LSCSM pour les 32 unités du fichier 4 (dense noise). Les étoiles représentent les valeurs moyennes sur toutes les cellules. 30/35 Pour les données de sparse noise (fichier 3), on constate le même pattern de performances (Figures 21, 22) que pour le fichier 2 (voir « Ajustement du LSCSM : caractéristiques et performances ») : le LSCSM et la décomposition de Volterra de deuxième ordre diagonale sont pratiquement équivalents, tandis que la décomposition de Volterra de premier ordre présente des performances nettement inférieures. En revanche pour les données de dense noise (fichier 4), la performance (Figures 21, 23) devient pratiquement identique entre les deux décompositions de Volterra alors que celle du LSCSM reste légèrement supérieure. Cet avantage du LSCSM vient probablement du fait que ce modèle soit théoriquement capable de capturer des interactions spatiales non-linéaires dans la réponse, contrairement au kernel de deuxième ordre diagonal qui ne capture que les non-linéarités locales (insensibilité à la polarité du stimulus). L'absence de supériorité du LSCSM dans le cas du sparse noise viendrait alors du fait que ces non-linéarités spatiales ne soient pas stimulées (présentation d'un seul pixel à la fois). Il aurait donc été intéressant de comparer la performance du LSCSM à celle de la décomposition de Volterra de deuxième ordre complète (ajout des termes d'interactions spatiales) dans le cas du dense noise, mais cette comparaison n'a pas été possible pour des raisons techniques (voir Discussion/Méthodes). Enfin, on constate également que la performance décroît globalement de sparse à dense noise pour les trois modèles (Figure 21). Nous pouvons affirmer que cela ne provenait pas d'une dégradation des unités enregistrées, car les réponses fonctionnelles observées dans le fichier 2 se retrouvaient à l'identique dans un cinquième fichier de sparse noise enregistré après le fichier 4, non présenté ici. Cela suggère que la forme des non-linéarités de réponse mises à jour par ce stimulus n'est pas entièrement capturée même par le plus performant des trois modèles, le LSCSM. Discussion Dans cette étude, nous avons appliqué avec succès un modèle innovant des champs récepteurs de V1, inspiré de l'architecture du réseau sous-jacent (Antolik et al, soumis), à un autre modèle animal, une autre technique d'enregistrement et une autre classe de stimuli que ceux avec lesquels il a été initialement développé. Nous avons confirmé la validité de ce modèle pour nos données en constatant sa supériorité sur une caractérisation classique de la littérature, la décomposition de Volterra de premier ordre, mais également sur une autre caractérisation plus performante car capturant certaines non-linéarités de réponse, la décomposition de Volterra de deuxième ordre diagonale, qui n'avait pas été utilisée dans l'étude initiale. De plus, en comparant l'ajustement de ce modèle à des données enregistrées respectivement en sparse noise et en dense noise, nous nous sommes placés dans la continuité d'une précédente étude de l'équipe mettant à jour un phénomène d'adaptation du ratio entre composantes linéaires et non-linéaires du champ récepteur neuronal à la complexité du stimulus (Fournier et al. 2011). Nous avons ainsi d'une part retrouvé qualitativement ces résultats, qui avaient initialement été obtenus sur des enregistrements intracellulaires, dans nos données extracellulaires. D'autre part, nous avons observé un effet important de la différence entre ces deux stimuli sur les performances respectives du modèle LSCSM et des autres caractérisations testées, le LSCSM devenant supérieur aux deux autres caractérisations pour une stimulation de type dense noise. Mais il convient d'être prudent avant d'interpréter ces différences en termes adaptatifs (voir «Adéquation de la comparaison sparse noise - dense noise à l'étude de l'adaptation»). De plus, nous n'avons pas pu aller aussi loin dans la comparaison des modèles obtenus respectivement pour ces deux stimuli que nous l'avons initialement envisagé, car un travail préalable reste à faire sur l'ajustement du modèle (voir «Fiabilité des paramètres obtenus par l'ajustement»). Enfin, plusieurs éléments ont pu nous conduire à sous-estimer les performances du modèle (voir «Spike sorting» et «Fiabilité des réponses visuelles»). Ces limitations constituent autant de réflexions à mener pour la suite du projet, avant d'aborder l'étape 31/35 centrale de celui-ci: l'incorporation progressive de mécanismes adaptatifs dans le modèle, afin de converger vers un modèle unique capable de prédire les réponses neuronales à tout type de stimulus. Résolution temporelle des fonctions de transfert calculées Le modèle LSCSM, initialement développé pour une technique d'enregistrement à faible résolution temporelle (l'imagerie calcique), n'inclut pas de dimension temporelle dans la description des champs récepteurs neuronaux. Les enregistrements extracellulaires en revanche pourraient permettre d'évaluer précisément le décours temporel des champs récepteurs. Dans cette étude, nous avons fait l'approximation que ce décours était un simple moyennage du stimulus sur la durée de l'intervalle de discrétisation utilisé (27 ou 53 ms selon les fichiers). Mais en observant ce décours avec une meilleure résolution temporelle, nous aurions peut-être constaté qu'il incluait pour certaines cellules une inversion de la polarité du champ récepteur. Dans ce cas, faire une simple moyenne du stimulus est suboptimal, car cela implique de moyenner ensemble des dimensions du stimulus ayant des contributions opposées. Les performances du LSCSM pourraient donc sans doute être améliorées par l'ajout d'une dimension temporelle aux champs récepteurs du LGN. Cet ajout pourrait être réalisé sans augmenter notablement le nombre de paramètres en utilisant une version paramétrisée du décours temporel classiquement observé dans les cellules du LGN, telle que celle proposée par Cai et al. 1997. Cette amélioration constitue une des directions envisagées pour la suite de l'étude. Spike sorting Pour les fichiers 2, 3 et 4, aucun spike sorting n'a été réalisé car pour plusieurs canaux, malgré la présence de réponses visuelles reproductibles, la faible amplitude des formes d'ondes enregistrées par rapport à celle du bruit électrique ne permettait pas de séparer convenablement les formes d'ondes réelles des formes d'ondes artéfactuelles, ou les formes d'ondes d'unités distinctes les unes des autres. Les conséquences probables de ce choix sont, d'une part, la complexification artificielle des propriétés de réponses des unités apparentes dues à la présence de plusieurs unités réelles, et d'autre part, la dégradation artificielle de la fiabilité des réponses visuelles du fait de la contamination des trains de potentiel d'action par du bruit électrique. Ces éventualités ne constituent pas a priori une contreindication à l'ajustement du LSCSM à nos données en l'état, mais la contamination par du bruit en particulier a pu dégrader artificiellement les performances de prédiction des différents modèles et peut-être atténuer les différences de performances entre ceux-ci. Fiabilité des réponses visuelles Certaines unités semblaient n'avoir ni kernel de Volterra de premier ordre, ni kernel de Volterra de deuxième ordre diagonal, et leur réponse n'était prédite par aucun des modèles testés. Plusieurs explications sont possibles. Premièrement, en l'absence de spike sorting, il est possible que ces unités apparentes n'aient été constituées que de bruit électrique. Deuxièmement, il pouvait s'agir d'unités réelles ne présentant pas de réponses visuelles pour ce type de stimuli. Troisièmement, il pouvait s'agir d'unités réelles présentant des réponses visuelles non capturées par les modèles utilisés. Dans ce dernier cas de figure, l'existence de ces unités révèle une limitation des capacités de prédiction des modèles utilisés, alors que dans les deux cas précédents, leur inclusion dans l'analyse dégrade artificiellement la mesure des performances de prédiction. C'est pourquoi il aurait été souhaitable de distinguer ce troisième cas de figure des deux premiers. Pour cela, au cours des prochaines sessions d'enregistrement, nous avons l'intention d'enregistrer les réponses neuronales au même stimulus répété plusieurs fois: la corrélation entre les réponses d'un même neurone aux différentes répétitions permettra de mesurer leur reproductibilité, c'est-à-dire le degré auquel l'activité du neurone est influencée par la stimulation visuelle. Il sera ainsi possible de fixer une limite de reproductibilité en 32/35 dessous de laquelle les neurones ne seront pas inclus dans l'étude, afin de ne pas sous-estimer la capacité du LSCSM à rendre compte des réponses visuelles. Fiabilité des paramètres obtenus par l'ajustement Le problème d'optimisation des paramètres du LSCSM est non convexe, c'est-à-dire qu'il existe des optima locaux dans l'espace des paramètres qui risquent d'empêcher le processus d'ajustement de parvenir à l'optimum global. En conséquence, la solution trouvée dépend des paramètres initiaux. Plusieurs jeux de paramètres initiaux ont été testés pour l'ajustement d'un même fichier de données (fichier 1) afin d'évaluer l'impact de ce phénomène. Sur trois jeux de paramètres initiaux successifs, on constate que la performance finale est très proche mais que le détail des paramètres obtenus n'est pas le même. Cela pose la question de savoir si celui-ci est vraiment caractéristique des données analysées, et donc s'il est pertinent de comparer ces paramètres entre deux stimulations différentes pour les mêmes neurones. Néanmoins, plusieurs solutions pourraient être envisagées pour augmenter la fiabilité des paramètres obtenus: - Augmenter la fiabilité des cellules utilisées par les deux solutions évoquées précédemment (meilleur rapport signal sur bruit et restriction aux cellules montrant une réponse visuelle claire) - Réduire le nombre de paramètres dans le modèle en choisissant le nombre minimal nécessaire de cellules dans le LGN et la couche cachée pour atteindre la performance maximale. Ainsi il y aura probablement moins de redondance dans les paramètres - Modifier le modèle pour s'affranchir de la redondance intrinsèque entre certains paramètres, par exemple entre la polarité des champs récepteurs du LGN et le signe des poids synaptiques entre cette couche et la couche cachée. Toute la difficulté sera cependant de maintenir un bon comportement du processus d'optimisation malgré les changements induits dans la formalisation mathématique du modèle. - Éventuellement, ajouter une contrainte de faible densité (« sparseness ») sur les poids synaptiques entre les différentes couches, c'est-à-dire une contrainte qui minimise le nombre de poids synaptiques non nuls. En effet, pour l'instant le modèle produit un grand nombre de poids synaptiques non nuls, dont certains sont néanmoins très faibles. Or les entrées synaptiques associées aux poids les plus faibles n'ont sans doute pas beaucoup d'impact sur les propriétés de réponse des neurones, et constituent donc probablement un degré de liberté superflu dans le modèle. Mais là encore, il n'est pas certain qu'une telle modification du modèle n'affecte pas le processus d'optimisation. Gain de performance du LSCSM par rapport aux modèles classiques de champ récepteur Comme expliqué en partie Résultats, les prédictions du LSCSM sont aussi bonnes voire meilleures que celles de la décomposition de Volterra de second ordre diagonale pour un nombre de paramètres moindre, ce qui constitue déjà une validation de sa pertinence pour nos données. Mais parmi les décompositions classiques de la littérature, celle dont la structure est la plus proche de celle du LSCSM est la décomposition de Volterra de deuxième ordre complète. Il aurait donc été intéressant de comparer les prédictions de ces deux modèles, du moins pour une stimulation dense noise, d'autant plus qu'il est probable que la prise en compte des interactions spatiales, qui fait défaut au kernel d'ordre 2 diagonal mais fait partie du kernel d'ordre 2 complet, est probablement ce qui permet le gain de performance du LSCSM par rapport au kernel d'ordre 2 diagonal. 33/35 Cette comparaison n'a pu être faite dans le cadre de cette étude car nous avons rencontré des problèmes d'instabilité numérique des algorithmes de régression linéaire en langage Python lors du calcul de ce kernel. L'identification d'un mode de calcul numériquement stable sera une réflexion à part entière à mener dans la suite de ce projet. Adéquation de la comparaison sparse noise – dense noise à l'étude de l'adaptation Les stimuli de sparse et dense noise ont été choisis ici pour cette étude préliminaire de l'effet de l'adaptation au contexte de stimulation pour leur simplicité et parce que l'équipe a déjà mis en évidence un effet d'adaptation des kernels de Volterra de premier et second ordre diagonal entre ces deux stimuli lors d'une précédente étude (Fournier et al 2011). Mais plusieurs éléments suggèrent qu'ils ne sont peut-être pas les stimuli les plus appropriés pour ce type d'étude, ou en tout cas doivent être pris avec précaution. D'une part le sparse noise est un stimulus très pauvre: avec une résolution de 15 x 15 pixels, il ne peut prendre que 15 x 15 x 2= 450 valeurs différentes. Or pour cette résolution spatiale de stimulation, les décompositions de Volterra de premier ordre et de second ordre diagonal et le LSCSM avec les métaparamètres choisis dans cette étude comportent respectivement 226, 451 et 952 paramètres. Le LSCSM n'est donc pas suffisamment contraint par une stimulation en sparse noise : il risque de comporter plusieurs solutions mathématiquement équivalentes pour prédire les réponses à ce type de stimulus. Il ne semble donc pas très pertinent d'ajuster le LSCSM à des données en sparse noise. D'autre part, d'une manière générale il est plus que probable qu'un modèle ajusté aux données, aussi proche soit-il de l'architecture réelle des réseaux, ne soit pas en correspondance parfaite avec la forme réelle de la fonction de transfert sous-jacente. Or dans ce cas de figure, il n'est absolument pas certain, même en supposant que cette fonction de transfert reste la même d'un type de stimulus à l'autre, que les paramètres optimaux du modèle soient les mêmes pour les deux types de stimuli. C'est pourquoi d'une manière générale, quels que soient les deux types de stimuli comparés, il conviendra à l'avenir d'être très précautionneux dans l'interprétation des différences observées dans les paramètres du LSCSM, de façon à ne pas interpréter un simple artefact mathématique comme un phénomène adaptatif. D'ailleurs, pour certaines des différences entre sparse noise et dense noise observées dans nos résultats, nous avons effectivement proposé une explication de type mathématique, en particulier liée à la pauvreté du stimulus de sparse noise, plutôt qu'en termes de phénomènes adaptatifs. Une manière d'éviter à l'avenir une attribution abusive des différences observées à des phénomènes adaptatifs serait d'observer l'établissement progressif de la nouvelle configuration du champ récepteur au cours du temps après le changement de stimulus, comme l'ont proposé Sharpee et al. 2006. De plus, il serait préférable de comparer deux stimuli différant sur un nombre minimal de caractéristiques afin de limiter la possibilité d'artefacts. C'est pourquoi les stimuli de type motion clouds avaient initialement été choisis pour ce projet, car ils offrent la possibilité de ne changer qu'un seul paramètre visuel (par exemple le degré de corrélation temporelle) en laissant les autres constants. Une première session d'enregistrements a d'ailleurs été réalisée avec ces stimuli au cours du stage, et les données obtenues seront analysées dans la suite du projet. 34/35 Bibliographie Antolík, J., Hofer, S., Bednar, J. A., Mrsic-Flogel, T. D. (submitted). Assumption of the visual hierarchy improves prediction of population response to natural scenes Bartels, A. (2014). Visual Perception: Early Visual Cortex Fills in the Gaps. Current Biology, 24(13), R600- R602. Benucci, A., Saleem, A. B., & Carandini, M. (2013). Adaptation maintains population homeostasis in primary visual cortex. Nature neuroscience, 16(6), 724-729. Cai, D., Deangelis, G. C., & Freeman, R. D. (1997). Spatiotemporal receptive field organization in the lateral geniculate nucleus of cats and kittens. Journal of Neurophysiology, 78(2), 1045-1061. Carandini, M., Heeger, D. J., & Movshon, J. A. (1997). Linearity and normalization in simple cells of the macaque primary visual cortex. The Journal of Neuroscience, 17(21), 8621-8644. David, S. V., Vinje, W. E., & Gallant, J. L. (2004). Natural stimulus statistics alter the receptive field structure of v1 neurons. The Journal of Neuroscience, 24(31), 6991-7006. Fairhall, A. L., Lewen, G. D., Bialek, W., & van Steveninck, R. R. D. R. (2001). Efficiency and ambiguity in an adaptive neural code. Nature, 412(6849), 787-792. Fitzgerald, J. D., Rowekamp, R. J., Sincich, L. C., & Sharpee, T. O. (2011). Second order dimensionality reduction using minimum and maximum mutual information models. PLoS computational biology, 7(10), e1002249. Fournier, J., Monier, C., Pananceau, M., & Frégnac, Y. (2011). Adaptation of the simple or complex nature of V1 receptive fields to visual statistics. Nature neuroscience, 14(8), 1053-1060. Fournier, J., Monier, C., Levy, M., Marre, O., Sári, K., Kisvárday, Z. F., & Frégnac, Y. (2014). Hidden Complexity of Synaptic Receptive Fields in Cat V1. The Journal of Neuroscience, 34(16), 5515-5528. Heeger, D. J. (1992). Normalization of cell responses in cat striate cortex.Visual neuroscience, 9(02), 181-197. Hubel, D. H., & Wiesel, T. N. (1962). Receptive fields, binocular interaction and functional architecture in the cat's visual cortex. The Journal of physiology, 160(1), 106-154. McFarland, J. M., Cui, Y., & Butts, D. A. (2013). Inferring nonlinear neuronal computation based on physiologically plausible inputs. PLoS computational biology, 9(7), e1003143. Pillow, J. W., Shlens, J., Paninski, L., Sher, A., Litke, A. M., Chichilnisky, E. J., & Simoncelli, E. P. (2008). Spatio-temporal correlations and visual signalling in a complete neuronal population. Nature, 454(7207), 995-999. Rust, N. C., Schwartz, O., Movshon, J. A., & Simoncelli, E. P. (2005). Spatiotemporal elements of macaque v1 receptive fields. Neuron, 46(6), 945-956. Sharpee, T. O., Sugihara, H., Kurgansky, A. V., Rebrik, S. P., Stryker, M. P., & Miller, K. D. (2006). Adaptive filtering enhances information transmission in visual cortex. Nature, 439(7079), 936942. Willmore, B. D., Prenger, R. J., & Gallant, J. L. (2010). Neural representation of natural images in visual area V2. The Journal of neuroscience, 30(6), 2102-2114. 35/35