Project

Back to overview

Simulation based fast inference for complex models

English title Simulation based fast inference for complex models
Applicant Victoria-Feser Maria-Pia
Number 182684
Funding scheme Project funding (Div. I-III)
Research institution Research Center for Statistics Geneva School of Economics and Management University of Geneva
Institution of higher education University of Geneva - GE
Main discipline Mathematics
Start/End 01.07.2019 - 30.06.2023
Approved amount 701'746.00
Show all

All Disciplines (8)

Discipline
Mathematics
Psychology
Medical Statistics
Clinical Cancer Research
Science of management
Health
Communication sciences
Public Health and Health Services

Keywords (10)

Generalized Estimating Equations; Generalized Linear Latent Variable Models; Robust Statistics; Multivariate Measurement; Cluster Randomized Crossover Trials; Panel Surveys; Iterative Bootstrap; Indirect Inference; H-likelihood; Stepped-Wedge Design

Lay Summary (French)

Lead
La recherche scientifique en général, requiert l’acquisition d’information, très souvent sous forme de données (data), afin de pouvoir, sur la base de connaissances acquises, en tirer de nouveaux savoirs. De nos jours, des données sont produites et stockées partout et en énormes quantités, en attendant leur analyse objective et cohérente. Les données en haute dimension sont caractérisées par une masse d’information dont la pertinence est toute relative, en d’autres termes les données manifestent beaucoup de bruit pour peu de signal. Les outils statistiques traditionnels ne sont plus adaptés à l’analyse de ce type de données et de nouvelles méthodes doivent être développées. En particulier, des méthodes plus efficientes au niveau computationnel (vitesse de calcul) doivent être mises à disposition des chercheurs, sachant que les analyses pertinentes sont de plus en plus complexes.
Lay summary

L’objectif de ce projet de recherche est de contribuer au développement de nouvelles méthodes statistiques d’estimation et d’inférence (test d’hypothèses), basées sur des méthodes de simulation, ayant de solides bases théoriques (pour contrôler le risque décisionnel à partir de l’analyse des données), pour des problèmes à haute dimension et de nature très complexe. En particulier, nous nous intéresserons au données sous forme de groupes (clusters) et mesurées à plusieurs reprises dans le temps (données typiques dans les essais cliniques) ainsi qu’aux relations entre des mesures typiquement récoltées sous forme de questionnaires (format multiples) pour la détermination de facteurs latents, comme par exemple pour l’analyse des données issues d’enquêtes en éducation menées par l’OCDE (PISA et PIAAC).

Pour pouvoir mener à bien ce projet, une approche interdisciplinaire est nécessaire, impliquant les savoirs des scientifiques dans d'autres domaines scientifiques et les chercheurs en statistique qui développent de nouveaux outils d’analyse adaptés aux jeux de données en haute dimension. Ce projet bénéficiera de la participation de chercheurs d'autres institutions, affiliés à des unités de recherche médicale et/ou ayant de l'expertise dans l'analyse de données d'enquêtes, dans les Universités de Cambridge, Monash (Melbourne) et à la London School of Economics. Le projet inclut aussi le développement de programmes (packages) sur la plateforme R (logiciel statistique open source), afin de permettre l’accès des résultats de la recherche à un large public.

 
Direct link to Lay Summary Last update: 24.04.2019

Responsible applicant and co-applicants

Employees

Project partner

Abstract

Modern scientific research typically requires significant data-driven evidence as well as trans-disciplinary expertise to extract valuable information and gain knowledge on social or natural processes. Effective evidence-based decisions imply the availability of data analysis procedures that are computationally efficient and, more importantly, that are based on sound statistical theory. With the fast growing production and gathering of data, complexity of data analyses grows at an exponential rate and therefore new efficient statistical methods for proper data analysis become unavoidably necessary. As an illustration, it is estimated that the size and complexity of healthcare, biomedical and social research information collected by scientists in academia, government, insurance agencies and industry doubles approximately every year. Adding to this massive data size increase, the rapid growth in complexity of the models considered by many researchers creates a multitude of numerical challenges which renders the various currently available statistical methods often not viable. In this project, I intend to contribute to the development of new simulation-based (and fast) statistical methods for the analysis of data issued from complex settings. In particular, I will focus on the analysis of clustered longitudinal data (very common in clinical trials) and the modelling of the relationships among multivariate and multi-format responses typically collected via surveys (very common and the social sciences and in psychology) for the determination of latent factors and/or latent traits. This research project will be completed by the development of software and computational tools for a direct access to the research output on behalf of users from academia, public or private sectors.
-