Ecole Doctorale
Sciences de la Vie et de la Santé
Spécialité
Biologie-Santé - Spécialité Neurosciences
Etablissement
Aix-Marseille Université
Mots Clés
Poursuite oculaire lisse,Renforcement,Modélisation,Conditionnement opérant,Anticipation,Biais-directionnel
Keywords
Smooth pursuit eye movements,Reinforcement,Modeling,Operant conditioning,Anticipation,Direction-bias
Titre de thèse
Mouvements oculaire de poursuite lisse et apprentissage: rôle des contingences probabilistiques et de renforcement
Smooth pursuit eye movements and learning: role of motion probability and reinforcement contingencies
Date
Monday 11 June 2018
Adresse
27 boulevard Jean Moulin Salle N°2
Jury
Directeur de these |
Mme Anna MONTAGNINI |
CNRS-institut de neurosciences de la Timone |
Rapporteur |
M. Alexander SCHüTZ |
Philipps Universität Marburg |
Rapporteur |
M. Richard KRAUZLIS |
LABORATORY OF SENSORIMOTOR RESEARCH NATIONAL EYE INSTITUTE |
CoDirecteur de these |
M. Laurent PERRINET |
CNRS - Institut de Neurosciences de la Timone |
Examinateur |
M. Laurent MADELAIN |
Université Lille 3 Scalab |
Examinateur |
Mme Françoise VITU |
Aix-Marseille Université |
Résumé de la thèse
Lun des plus grands défis pour les organismes vivants est leur capacité dadapter constamment leurs comportements moteurs. En vision, suivre précisément un objet en mouvement est une habileté essentielle du système visio-oculomoteur humain. Le mouvement oculaire de poursuite lisse permet lalignement précis entre le mouvement lent dune cible et la fovéa pour permettre la stabilisation de limage rétinienne.
Dans la première étude de cette thèse, nous avons étudié le rôle du conditionnement opérant sur la poursuite lisse danticipation (PLA). Quand le système a accès à certaines informations sur le mouvement a venir dune cible, la PLA peut être générée avant même lapparition dune cible (Kowler & Steinman, 1979). Elle est vue comme une solution optimale pour réduire le délai visiomoteur pour la foveation dune cible en mouvement. Nous avons démontré que la PLA est générée de manière cohérente avec le mouvement attendu et que sa vitesse moyenne séchelonne de manière monotone avec la probabilité de direction. De plus, dans une expérience de conditionnement opérant de la poursuite, nous avons montré que si une récompense monétaire était fonction dun critère sur la vitesse danticipation, cette dernière était modulée, de manière légère mais significative, par les contingences de renforcement. Ces résultats renforcent le fait que la PLA peut être considérée comme un comportement opérant. Des études contrôles ont montré que lattente dune récompense non contingente ne peut pas biaiser efficacement la PLA.
Dans une seconde étude, nous avons créé un paradigme de poursuite avec un choix entre deux cibles avec trajectoire orthogonale. Dans la condition contrôle, la cible était indiquée par sa couleur. Dans lexpérience principale, chaque direction était associée à une règle différente de renforcement inspirée par lIowa Gambling Task (IGT) (Bechara et al, 2004). Dans une seconde version de cette tâche, linformation sur le renforcement était liée cette fois, à la couleur. Comme la poursuite lisse est vue comme un moyen de lecture continue du traitement dinformations cognitives, nous avons analysé la modulation de la poursuite à travers toutes ses étapes en fonction de la manipulation du renforcement. De plus, nous avons testé ce paradigme novateur sur des patients Parkinson (PP, connus pour leurs déficits dans lIGT), ainsi que sur des personnes âgées contrôles et des adultes jeunes. Chez les participants jeunes, la latence du choix était fortement raccourcie dans la tache IGT en comparaison à la tache contrôle. La poursuite était déviée vers la cible choisie, et ce, dès la phase danticipation, et maintenue ainsi pendant la phase dinitiation. Notre conclusion est que plutôt quun comportement de moyennage du vecteur entre les deux cibles (Ferrera and Lisberger, 1997), les participants réalisent un choix précoce quand celui-ci est associé à une règle de renforcement. Chez les jeunes participants, nous avons observé une relation intéressante entre la stratégie IGT globale et le délai entre apparition de la cible et information sur la récompense, différente selon les expériences. Chez les patients et les contrôles âgés, malgré une grande variabilité inter-sujets, lanalyse du choix dune cible a révélé une performance globale altérée.
La dernière contribution de cette thèse fut de modéliser le biais directionnel sur la PLA que nous avons observé dans la première étude. Nous avons testé deux modèles simples (moyenne glissante et intégrateur à fuite) afin détudier la relation entre la vitesse de la PLA et les biais de direction locaux. Ces modèles furent une première étape vers un modèle de Bayesian Change-point detection (Adams & McKay, 2007), qui imite un agent idéal inférant la probabilité doccurrence dun évènement ainsi que la volatilité de lenvironnement (i.e. la durée depuis un changement de biais). Ce modèle suggère que nos résultats peuvent être utilisés pour de futurs modèles dapprentissages par renforcement.
Thesis resume
One of the main challenges for living organisms is the ability to constantly adapt their motor behaviors. In vision, tracking with precision the ever-changing position of a smoothly moving object is an essential ability of the human visuo-oculomotor system. Smooth pursuit eye movements permit an accurate alignment of a slowly moving target with the fovea, and the stabilization of its retinal image.
In a first study of this thesis, we investigated the role of operant conditioning on anticipatory smooth eye movements (aSPEM). When the system has access to some information about future target motion, aSPEM can be generated ahead of target appearance (Kowler & Steinman, 1979) and are interpreted as an optimal solution to reduce the visuomotor delay that would retard the foveation of the moving target. In this study we demonstrated on a large set of healthy participants that aSPEM are generated coherently with the expected motion direction and that the mean aSPEM velocity scales monotonically with direction probability. Furthermore, in a gaze-contingent reinforcement paradigm, we showed that when monetary reward was associated to a criterion-matching anticipatory velocity, the latter underwent a small but significant modulation, consistent with operant conditioning. These findings strengthen the notion that aSPEM can be considered as an operant behavior, whereas control experiments showed that expectancy for a non-contingent reward cannot efficiently bias them.
In a second study, we designed a choice-tracking task where two targets moved along orthogonal directions. Participants were instructed to select one the targets and track it with their eyes. In the control condition, the target selection was imperatively cued by the targets color. In the main experiment each targets direction was associated with a different reinforcement rule inspired by the Iowa Gambling Task (IGT) (Bechara et al, 2004). In a second version of the IGT-pursuit task, the reinforcement was associated to the color of the pursued target instead of the direction. As smooth pursuit can be seen as a continuous read-out of cognitive information processing, we analysed its modulation throughout the whole trial duration as a function of the reinforcement manipulation., Furthermore, we administered this new paradigm to Parkinsons disease (PD) patients (known for their impairment in the IGT tasks), as well as age-matched control participants and young adult controls. For young participants, choice latency was clearly shortened in the IGT-pursuit task compared to the control-task. Eye movements deviated toward the selected target direction already in the anticipatory phase and maintained this directional bias throughout the initiation phase. Our main conclusion is that rather than a simple vector average behavior (Ferrera and Lisberger, 1997), human participants elicit an early choice behavior when their choice is associated to a reinforcement schedule. On young participants, we observed an interesting relation between the global IGT-strategy performance and specificity of reward-cueing information depending on the experiment. On elderly controls and PD patients, despite the large inter-subjects variability, the analysis of target selection revealed a globally poor performance.
The last contribution of this thesis is an attempt to synthesize these results on the modulation of aSPEM. We tested two simple models (fixed memory-window and leaky-integrator) to investigate the relation between aSPEM velocity and local direction-bias. An even better fit was obtained when using a Bayesian Change-point detection model (Adams and McKay, 2007), which mimics an ideal agent inferring both the likelihood of a specific events occurrence with the volatility of the environment (e.g the duration since a change in bias). This model suggests that our results could be used for future models of reinforcement learning.