Lead
La recherche scientifique en général, requiert l’acquisition d’information, très souvent sous forme de données (data), afin de pouvoir, sur la base de connaissances acquises, en tirer de nouveaux savoirs. De nos jours, des données sont produites et stockées partout et en énormes quantités, en attendant leur analyse objective et cohérente. Les données en haute dimension sont caractérisées par une masse d’information dont la pertinence est toute relative, en d’autres termes les données manifestent beaucoup de bruit pour peu de signal. Les outils statistiques traditionnels ne sont plus adaptés à l’analyse de ce type de données et de nouvelles méthodes doivent être développées. En particulier, des méthodes plus efficientes au niveau computationnel (vitesse de calcul) doivent être mises à disposition des chercheurs, sachant que les analyses pertinentes sont de plus en plus complexes.

Lay summary

L’objectif de ce projet de recherche est de contribuer au développement de nouvelles méthodes statistiques d’estimation et d’inférence (test d’hypothèses), basées sur des méthodes de simulation, ayant de solides bases théoriques (pour contrôler le risque décisionnel à partir de l’analyse des données), pour des problèmes à haute dimension et de nature très complexe. En particulier, nous nous intéresserons au données sous forme de groupes (clusters) et mesurées à plusieurs reprises dans le temps (données typiques dans les essais cliniques) ainsi qu’aux relations entre des mesures typiquement récoltées sous forme de questionnaires (format multiples) pour la détermination de facteurs latents, comme par exemple pour l’analyse des données issues d’enquêtes en éducation menées par l’OCDE (PISA et PIAAC).

Pour pouvoir mener à bien ce projet, une approche interdisciplinaire est nécessaire, impliquant les savoirs des scientifiques dans d'autres domaines scientifiques et les chercheurs en statistique qui développent de nouveaux outils d’analyse adaptés aux jeux de données en haute dimension. Ce projet bénéficiera de la participation de chercheurs d'autres institutions, affiliés à des unités de recherche médicale et/ou ayant de l'expertise dans l'analyse de données d'enquêtes, dans les Universités de Cambridge, Monash (Melbourne) et à la London School of Economics. Le projet inclut aussi le développement de programmes (packages) sur la plateforme R (logiciel statistique open source), afin de permettre l’accès des résultats de la recherche à un large public.