Project

Back to overview

Bayesian Nonparametric Structural Learning

English title Bayesian Nonparametric Structural Learning
Applicant Peluso Stefano
Number 190656
Funding scheme Spark
Research institution Università della Svizzera Italiana
Institution of higher education Università della Svizzera italiana - USI
Main discipline Mathematics
Start/End 01.02.2020 - 31.01.2021
Approved amount 73'172.00
Show all

Keywords (4)

Graphical Models; Complex Data; Bayesian Statistics; Bayesian Nonparametrics

Lay Summary (Italian)

Lead
Proponiamo una classe di modelli per l'inferenza statistica su dati di tipo complesso con interazioni complesse, combinando modelli grafici con distribuzioni a priori Bayesiane non parametriche. La metodologia sarà testata su dati simulati e su una rete di regolazione genica con livelli di espressione genica distanti da una distribuzione Gaussiana e interagenti in modo complesso, secondo la natura dei processi biologici.
Lay summary
L'elevata disponibilità di dati complessi rende necessarie tecniche statistiche volte a comprendere la struttura di dipendenza sottostante. La complessità dei dati si riferisce a due problemi distinti: (i) interazioni complesse che si verificano tra le variabili casuali oggetto di studio, ad esempio in grandi reti di interazioni proteina-proteina; (ii) dati di tipo complesso, ad esempio post Twitter e reti genetiche. L'estesa letteratura statistica sui modelli grafici tratta il primo tipo di complessità, la complessità delle interazioni, assumendo dati Gaussiani multivariati con dipendenze guidate dal grafo. L'insieme sempre più ampio di modelli statistici su dati relazionali, dati ad alta dimensione, fino a parametri a dimensione infinita, affronta invece il secondo tipo di complessità, la complessità del tipo di dati. In particolare, la letteratura non parametrica Bayesiana ha proposto diverse distribuzioni che si staccano da modelli base troppo semplificati, spesso giustificati da convenienza matematica.

Nell'ambito dell'attuale progetto intendiamo costruire una classe di modelli per l'inferenza statistica sui dati che sono complessi in entrambi i sensi sopra descritti: dati di tipo complesso con interazioni complesse. Pertanto intendiamo combinare modelli grafici con strumenti non parametrici Bayesiani. Le osservazioni non sono quindi assunte condizionatamente Gaussiane, contrariamente alla letteratura, ma seguiranno una distribuzione casuale sconosciuta, da inferire. La complessa struttura di dipendenza non è conosciuta ed è legata agli atomi della distribuzione casuale, in un modello statistico gerarchico. In questo modo, proponiamo un framework inferenziale comune che chiamiamo Bayesian Nonparametric Structural Learning (BNP-SL), sia per la distribuzione casuale che per la struttura di dipendenza, permettendo al nostro modello di discostarsi dal semplicistico presupposto Gaussiano, ma senza abbandonarne i vantaggi matematici . Un algoritmo computazionale sfrutterà le decomposizioni della misura casuale e del grafico per fornire uno strumento pratico per la selezione e la stima del modello. Oltre al quadro generale, intendiamo sviluppare tre esempi rilevanti: (i) un modello decomposable non orientato con il processo Dirichlet; (ii) un modello aciclico diretto con misura completamente casuale; (iii) un modello di Essential Graph con processo Pitman-Yor. La metodologia sarà testata su dati simulati rispetto ad alternative consolidate e su una rete genetica, in cui i livelli di espressione genica sono distanti da una distribuzione Gaussiana multivariata e interagiscono in modo complesso seguendo la natura dei processi biologici.
Direct link to Lay Summary Last update: 28.01.2020

Responsible applicant and co-applicants

Employees

Name Institute

Abstract

With nowadays high availability of complex data, more statistical techniques aimed at understanding the underlying dependence structures are needed. Data complexity refers to two separate issues: (i) complex interactions occurring among the random variables object of study, for instance in large networks of protein-protein interactions; (ii) complex data type, for instance Twitter text posts and gene regulatory networks. The huge statistical literature on graphical models has extensively dealt with the first kind of complexity, interaction complexity, by assuming multivariate Gaussian data with graph-driven dependencies. The wider and wider set of statistical models on relational data, high-dimensional data, up to infinite-dimensional parameters, has attacked the second kind of complexity, type complexity, though random network models, sparsity-based inferential methods and random probability measures. In particular, the Bayesian nonparametric literature has proposed several well-motivated prior distributions on random measures, with the purpose of detaching from over-simplified base models often justified by mathematical convenience.Data with complex dependence structure with few exceptions are assumed to follow a well-behaved Gaussian distribution, therefore rendering the related statistical models not useful for data with type complexity. On the other side, statistical models with random distributions tend to be construced for univariate data or for multivariate data with free dependence structure, therefore ignoring complex dependencies. Within the current project we aim to construct a class of models for statistical inference on data that are complex in both the senses outlined above: data of complex type with complex interactions. We therefore plan to combine graphical models with Bayesian nonparametric tools. The observations will not conditionally Gaussian, in contrast to the literature, but will follow some random unknown distribution, to be inferred. The complex unknown dependence structure will be posted on the random distribution atoms, in a hierarchical statistical model. In this way, we propose a joint inferential framework that we name Bayesian Nonparametric Structural Learning (BNP-SL), for both the random distribution and the dependency structure, allowing our model to depart from the simplistic Gaussian assumption, but without abandoning its mathematical advantages. A computational algorithm will exploit the decompositions of the random measure and of the graph to provide a practical tool for model selection and estimation. Beyond the general framework, we plan to develop three relevant examples: (i) an undirected decomposable model with Dirichlet process; (ii) a directed acyclic model with completely random measure; (iii) an essential graph model with Pitman-Yor process. The methodology will be tested on simulated data in comparison with established alternatives and on a gene-regulatory network, where gene expression levels are known to be distant form a multivariate Gaussian distribution and to interact intricately following the nature of the biological processes.
-