Projekt

Zurück zur Übersicht

Copula Distributions in Machine Learning: Models, Inference and Applications

Gesuchsteller/in Roth Volker
Nummer 146178
Förderungsinstrument Projektförderung (Abt. I-III)
Forschungseinrichtung Fachbereich Informatik Departement Mathematik und Informatik Universität Basel
Hochschule Universität Basel – BS
Hauptdisziplin Informatik
Beginn/Ende 01.07.2013 - 30.06.2016
Bewilligter Betrag 158'550.00
Alle Daten anzeigen

Alle Disziplinen (2)

Disziplin
Informatik
Mathematik

Keywords (4)

Machine learning; Information theory; Graphical models; Copula distributions

Lay Summary (Deutsch)

Lead
In der Statistik beschreibt eine Copula einen funktionalen Zusammenhang zwischen der gemeinsamen Wahrscheinlichkeit verschiedener Zufallsvariablen und deren Marginal-verteilungen. Maschinelles Lernen beschreibt die automatische Erkennung von Strukturen in Daten mit dem Ziel, Vorhersagen zu treffen. In diesem Forschungsprojekt soll eine Verbindung zwischen Copulas und maschinellem Lernen gefunden werden, mit dem Ziel, neue Methoden der automatischen Strukturerkennung zu entwickeln.
Lay summary
Inhalt und Ziel des Forschungsprojekts

Bisherige Ideen zur Verwendung von Copula-Verteilungen im maschinellen Lernen beschränken sich im Wesentlichen auf Copulas aus nur zwei Variablen oder Copulas basierend auf einfachen parametrischen Modellen. Unser Ziel ist es, diese Limitierungen schrittweise aufzuheben. Ein wesentlicher Bestandteil unseres Forschungsplans besteht in der Erforschung des Zusammenhangs zwischen Konzepten der Informationstheorie und der Verwendung von Copula-Verteilungen in maschinellen Lernprozessen.


Wissenschaftlicher und gesellschaftlicher Kontext des Forschungsprojekts

Unsere Forschung wird nicht nur ein besseres formales Verständnis von Inferenzproblemen liefern, sondern auch neue Anwendungen ermöglichen, von bei Clusteranalyse über die Rekonstruktion von Netzwerkstrukturen bis hin zur Modellierung von dynamischen Systemen.
Wir erwarten, dass unsere neuen statistischen Methoden einen substantiellen Beitrag zur Lösung praktischer Probleme in der Medizin, der Biologie und der Physik liefern werden.  


Direktlink auf Lay Summary Letzte Aktualisierung: 30.01.2014

Verantw. Gesuchsteller/in und weitere Gesuchstellende

Mitarbeitende

Publikationen

Publikation
Bayesian Markov Blanket Estimation
Kaufmann Dinu, Parbhoo Sonali, Wieczorek Aleksander, Keller Sebastian, Adametz David, Roth Volker (2016), Bayesian Markov Blanket Estimation, in JMLR: W&CP: AISTATS 2016, 51, 333-341.
Copula Eigenfaces
Egger Bernhard, Kaufmann Dinu, Schönborn Sandro, Roth Volker, Vetter Thomas (2016), Copula Eigenfaces, in Proceedings of the 11th Joint Conference on Computer Vision, Imaging and Computer Graphics Theory an, SCITEPRESS, Setúbal, Portugal..
Copula Archetypal Analysis
Kaufmann Dinu, Keller Sebastian, Roth Volker (2015), Copula Archetypal Analysis, in German Conference on Pattern Recognition--GCPR 2015, Springer International Publishing, Cham, Switzerland.
Sparse meta-Gaussian information bottleneck.
Rey M{é}lanie, Roth Volker, Fuchs Thomas J (2014), Sparse meta-Gaussian information bottleneck., in JMLR: Workshop and Conference Proceedings, Volume 32, 910-918.

Zusammenarbeit

Gruppe / Person Land
Formen der Zusammenarbeit
Prof Dr Peter Fuhr / PD Dr Ute Gschwantner, University hospital Basel Schweiz (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Publikation
Dr Thomas J. Fuchs, California Institute of Technology Vereinigte Staaten von Amerika (Nordamerika)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
Prof Dr Markus Heim, University hospital Basel Schweiz (Europa)
- vertiefter/weiterführender Austausch von Ansätzen, Methoden oder Resultaten
- Publikation

Wissenschaftliche Veranstaltungen

Aktiver Beitrag

Titel Art des Beitrags Titel des Artikels oder Beitrages Datum Ort Beteiligte Personen
The 19th International Conference on Artificial Intelligence and Statistics (AISTATS 2016) Poster Bayesian Markov Blanket Estimation 09.05.2016 Cadiz, Spanien Kaufmann Dinu;
11th International Conference on Computer Graphics Theory and Applications (GRAPP) Vortrag im Rahmen einer Tagung Copula Eigenfaces 27.02.2016 Rome, Italien Kaufmann Dinu;
37th German Conference on Pattern Recognition (GCPR 2015) Vortrag im Rahmen einer Tagung Copula Archetypal Analysis 07.10.2015 Aachen, Deutschland Roth Volker; Kaufmann Dinu;
31st International Conference on Machine Learning (ICML 2014) Vortrag im Rahmen einer Tagung Sparse meta-Gaussian information bottleneck 21.06.2014 Beijing, China Roth Volker;


Kommunikation mit der Öffentlichkeit

Kommunikation Titel Medien Ort Jahr
Referate/Veranstaltungen/Ausstellungen Open Day at the Department of Mathematics and Computer Science, University of Basel Deutschschweiz 2016

Verbundene Projekte

Nummer Titel Start Förderungsinstrument
167333 weObserve: Integrating Citizen Observers and High Throughput Sensing Devices for Big Data Collection, Integration, and Analysis 01.05.2017 Resource not found: 'b390156e-36f1-4a37-b932-7984e2cf8b1a'
159682 Computer aided Methods for Diagnosis and Early Risk Assessment for Parkinson`s Disease Dementia 01.01.2016 Resource not found: 'd72e1bd2-4eb8-456b-9971-ba9942f5fbb3'

Abstract

In the last years, copula models have become popular tools for modeling multivariate data. The underlying idea is to separate the "pure" dependency between random variables from the influence of the marginals. The main focus of research, however, was on parametric (and most often bivariate) copulas in econometrics applications, and only recently "truly" multivariate copula constructions have been considered. Finding principled ways of building these constructions, however, is commonly considered as a hard problem. The machine learning field was largely unaffected by these developments, despite the fact that inferring the dependency structure in high-dimensional data is one of the most fundamental problems in machine learning. On the other hand, machine learners have developed a rich repertoire of methods for structure learning, and exactly these methods have the potential to make copula constructions useful in real-world settings with noisy and partially missing observations. It is, thus, not surprising that there is a constantly increasing number of machine learning publications which aim at using structure learning methods for copula-based inference. In general, however, the use of copulas in machine learning has been restricted to density estimation problems based either on Gaussian copulas, or on aggregating standard bivariate pair copulas, while other directions such as clustering, multi-view learning, compression and dynamical models have not been explored in this context. In this proposal we will try to close this gap by focusing on clustering, on the connection to information theory (which will also include a connection to dynamical systems), and on finding new ways for using non-parametric pair copulas. From an application point of view, the study of such models is interesting, because inferring hidden structure is presumably one of the most successful applications of machine learning methods in domains generating massive and noise-affected data volumes, such as molecular biology. The precise separation of "dependency" and "marginals" in copula models bears the potential to overcome limitations of current techniques, be it too restrictive distributional assumptions or model selection problems. Our proposal is divided into four work-packages which address the following questions:1) How can copulas be linked to information theory, and what consequences will this link have on modeling dynamical systems? On the application side, these questions are motivated by studying time-resolved gene expression data and node-ranking problems in gene networks.2) How can copulas be used for deriving flexible cluster models that can model arbitrary marginals and are robust to noise, missing values and outliers? The motivation comes from a mixed continuous/discrete dataset containing multi-channel EEG recordings and clinical measurements. 3) How can we use copulas for simultaneously learning network structures and detecting "key modules" in these networks given external relevance information? Our interest in this question comes from analyzing gene expression data and the aim to detect subnetworks based on clinical variables.4) How can we use empirical pair copulas in network learning? The motivation stems from our experience that the problem of selecting "suitable" pair copulas has no obvious solution in practice. In the proposed project, we plan to answer these questions, thereby pushing the state-of-the-art in machine learning problems involving copula distributions.
-