Project

Back to overview

Uniform- and Post-selection inference for Mixed Parameters

Applicant Sperlich Stefan
Number 192345
Funding scheme Project funding (Div. I-III)
Research institution Faculté d'économie et de management Université de Genève
Institution of higher education University of Geneva - GE
Main discipline Mathematics
Start/End 01.02.2021 - 31.01.2025
Approved amount 270'674.00
Show all

All Disciplines (5)

Discipline
Mathematics
Medical Statistics
Other disciplines of Environmental Sciences
Health
Economics

Keywords (5)

small area estimation; post-selection inference; uniform inference; mixed effects models; indicator prediction

Lay Summary (German)

Lead
Dieses Projekt dient der Herleitung spezieller statistischer Methoden zur Untersuchung (Schätzung und Inferenz) von Indikatoren betreff relativ kleiner (im Sinne der Datenmenge) Gebiete oder Cluster. Solch geschätzte Indikatoren, sowohl sozio-demographische, ökologische, ökonomische oder medizinische, sind ein weitverbreitetes Werkzeug evidenzgestützter Politik und werden zumeist von der amtlichen Statistik bereitgestellt. Die herzuleitenden Methoden dienen sowohl der Vergleichbarkeit der Indikatoren(schätzer) zwischen den Gebiente (oder Clustern), als auch der validen Untersuchung allgemeiner - also alle Gebiete/Cluster gleichzeitig betreffender Fragestellungen.
Lay summary

Das Projekt dient der Herleitung statistischer Methoden zur Untersuchung von Indikatorenschätzern für relativ kleine (im Sinne der Datenmenge) Gebiete oder Cluster. Solche Indikatorenschätzer, sowohl sozio-demographische, ökologische, ökonomische oder medizinische, sind ein weitverbreitetes Werkzeug evidenzgestützter Politik und werden zumeist von der amtlichen Statistik bereitgestellt.

Sie erlauben, diese Größen regional und demographisch zu desaggregieren und Unterschiede in Wohlstand, Gesundheit, Umweltbelastung oder Wirtschaftsaktivität zu erfassen. Wir betrachten modelassistierte Schätzer von Mischparametern, einer Komposition aus sogenannten fixen und zufälligen Parametern. Ungeachtet ihrer enorm gestiegenen Bedeutung hat sich die Forschung bislang darauf beschränkt, die kleinsten quadratischen Fehler und individuelle Konfidenzintervalle zu bestimmen. Das bedeutet aber, dass bei jeder Studie ein wichtiger Anteil dieser Intervalle die wahren Werte definitiv nicht enthalten. Vergleiche zwischen den Gebieten oder Clustern, sowie allgemeine Aussagen (z.B. wie viele und welche Regionen über einer bestimmten Kinderarmutsrate liegen) entbehren somit einer soliden Grundlage; stattdessen basieren sie auf ungenauen Punktschätzern und ungeeigneten Inferenzmethoden. Ein Teil des Projekts schließt diese Lücke.

Der zweite Teil befasst sich zudem mit dem Problem, wenn Datensätze mit hochdimensionaler Information zur Indikatorenschätzung herangezogen werden. Das erfordert Variablenselektion. Obgleich Post-selektions-Inferenz ein hochaktuelles Thema in der mathematischen Statistik ist, wurde hierbei die Indikatorenschätzung kaum betrachtet.
Direct link to Lay Summary Last update: 30.03.2020

Responsible applicant and co-applicants

Employees

Abstract

Today, the family of mixed effects models (MMs) is extensively applied in the statistical analysis of hierarchical or clustered data structures. That is mainly because this modeling framework arises naturally in all kind of fields such as medicine, biology, sociology, environmetrics, official statistics, etc. Over the last three decades linear MMs have been thoroughly studied from theoretical and applied perspective. However, the problem of simultaneous inference has largely been overlooked, especially when it comes to mixed parameters which are essential elements of cluster specific estimation and prediction. Uniform and simultaneous inference is highly relevant for practitioners who try to find significant discrepancies between clusters or have to make decisions on resource re-allocations for different areas. Similarly, practitioner may want to carry out formal significance tests to disprove or support simultaneous hypotheses regarding certain area or cluster characteristics. Given this unquestionably high relevance on the one hand, but the lack of well developed, statistically valid tools, our first objective is to help closing this gap. Quite recently, there has opened another gap in this context. More and more members of the community working with mixed effects models are applying these to high dimensional data and applysubsequently some variable selection procedures. Tailored to MMs, they developed selection procedures based on information criteria, shrinkage and fence methods as well as different Bayesian approaches (cfr., \cite{muller2013model} for an extensive review). Despite this trend, post-selection inference (PoSI) remains a neglected area for MMs. Even though the need to account for selection uncertainty has been stressed in the literature by many authors, it seems that no one has addressed this issue under MMs, especially not for mixed parameter. I.e., in practice people use MSE or confidence estimates based on the finally selected model ignoring the selection step. Therefore, the second objective of this project is to develop post-selection inference in MMs. To the best of our knowledge, albeit their evidently high relevance, in particular for official statistics in the context of small area estimation (SAE), these two (different though related) inference problemsare still quite unexplored.
-