Soutenance de thèse de GUPTA Akanksha

Titre de thèse

Mécanismes Rythmiques et Prédictifs dans la Cognition Auditive

Rhythmic and Predictive Mechanisms in Auditory Cognition

Date

7 janvier 2026 à 14h00

Adresse

27 Bd Jean Moulin, bâtiment principal, 13005, Marseille, INS visioconference

Ecole doctorale

Sciences du Vivant

Specialité

SCIENCES DU VIVANT Neurosciences

Etablissement

Aix-Marseille Université

Mots clés

Attention,Perception,Dynamique neuronale,Traitement de la parole et de la musique.,Données intracrâniennes,Codage prédictif,

Keywords

Attention,Perception,Neural Dynamics,Speech and Music Processing,Intracranial Data,Predictive Coding,

Jury

Jury de thèse
Qualité	Nom	Etablissement
Directeur de recherche	M. FéRON Francois	INS, Aix-Marseille Université
Professeure	Mme KOTZ Sonja	Université de Maastricht
Directrice de recherche	Mme VAN WASSENHOVE Virginie	Institut de Neurosciences, Université Paris-Saclay
Directeur de recherche	M. ALARIO François-Xavier	Laboratoire de Psychologie Cognitive, Aix-Marseille Université

Résumé de la thèse

Le timing est une dimension fondamentale de la cognition auditive, façonnant la manière dont nous percevons et traitons des sons complexes tels que la parole et la musique. Cette thèse étudie comment les mécanismes rythmiques et prédictifs interagissent avec les stimuli auditifs pour guider l'attention et la perception auditives. Dans le Chapitre 2, des expériences comportementales et une modélisation computationnelle révèlent que l'attention fonctionne selon deux modes distincts : un mode rythmique, engagé de manière optimale à 1,5 Hz lors de tâches perceptives avec de longs flux auditifs, et un mode continu, engagé lors de courts flux auditifs. Le Chapitre 3, utilisant des enregistrements EEG intracrâniens provenant de seize patients épileptiques, a étudié les dynamiques neuronales sous-jacentes à l'encodage d'indices temporels et spectraux pour le traitement de la parole et de la musique. Les résultats à la fois comportementaux et de décodage indiquent que le traitement de la parole dépend principalement des modulations temporelles, tandis que le traitement de la mélodie dépend des modulations spectrales. Ces schémas ont persisté de manière constante à travers les dimensions temporelles et de canal, suggérant un code spatio-temporel au sein du système auditif. De plus, une analyse temps-fréquence à travers tous les patients a mis en évidence les rôles distincts des bandes de fréquences thêta et delta dans l'encodage respectivement de ces indices temporels et spectraux. Enfin, le Chapitre 4 fournit des preuves computationnelles que des réseaux neuronaux optimisés pour inférer l'état actuel de séquences auditives développent naturellement des représentations prédictives d'entrées sensorielles futures, démontrant que la pré- diction émerge comme une conséquence intrinsèque de l'optimisation perceptive. Ensemble, ces résultats éclairent comment les dynamiques attentionnelles, l'encodage des caractéristiques neuronales et le traitement prédictif permettent conjointement au cerveau humain de naviguer efficacement dans des environnements auditifs complexes. En intégrant des approches comportementales, neurophysiologiques et computationnelles, cette thèse fait progresser une compréhension multi-niveaux de la cognition auditive et fournit un cadre pour de futures investigations sur l'architecture temporelle et prédictive de la perception et de l'attention.

Thesis resume

Timing is a fundamental dimension of auditory cognition, shaping how we perceive and process complex sounds such as speech and music. This thesis investigates how rhythmic and predictive mechanisms interact with auditory stimuli to guide auditory attention and perception. In Chapter 2, behavioral experiments and computational modeling reveal that attention operates in two distinct modes: a rhythmic mode, optimally engaged at around 1.5 Hz during perceptual tasks with long auditory streams, and a continuous mode, engaged during short auditory streams. Chapter 3, using intracranial EEG recordings from sixteen epileptic patients, investigated underlying neural dynamics of encoding temporal and spectral cues for speech and music processing. Both behavioral and decoding results indicate that speech processing depends predominantly on temporal modulations, whereas melody processing depends on spectral modulations. These patterns persisted consistently across time and channel dimensions, suggesting a spatiotemporal code within the auditory system. Additionally, time-frequency analysis across all patients highlighted the distinct roles of theta and delta frequency bands in encoding these temporal and spectral cues, respectively. Finally, Chapter 4 provides computational evidence that neural networks optimized to infer the current state of auditory sequences naturally develop predictive representations of future sensory input, demonstrating that prediction emerges as an intrinsic consequence of perceptual optimization. Together, these findings illuminate how attentional dynamics, neural feature encoding, and predictive processing jointly enable the human brain to efficiently navigate complex auditory environments. By integrating behavioral, neurophysiological, and computational approaches, this thesis advances a multi-level understanding of auditory cognition and provides a framework for future investigations into the temporal and predictive architecture of perception and attention.