Project

Back to overview

Learning on Distance Data with Applications in Cancer Research

Applicant Vogt Julia
Number 146758
Funding scheme Fellowships for prospective researchers
Research institution Dept. of Molecular Pharmacology and Therapeutics/Memorial Sloan- Kettering Cancer Center
Institution of higher education Institution abroad - IACH
Main discipline Information Technology
Start/End 01.07.2013 - 30.06.2014
Show all

All Disciplines (3)

Discipline
Information Technology
Medical Statistics
Biomedical Engineering

Keywords (7)

clustering; network inference; sparsity; machine learning; feature selection; computational biology; biomedical data analysis

Lay Summary (German)

Lead
Krebs ist eine der führenden Todesursachen weltweit, mit einer Sterberate von beinahe 50%. Die Transformation von einer normalen Zelle in eine Tumorzelle ist das Ergebnis von Interaktionen zwischen den genetischen und externen Faktoren eines Patienten. Externe Faktoren können beeinflusst werden, genetische Faktoren können jedoch nicht kontrolliert werden. Zukünftige Therapien beruhen auf einem besseren Verständnis der genetischen Faktoren.
Lay summary
Inhalte und Ziele des Forschungsprojekts:

In der Krebsforschung werden häufig paarweise Ähnlichkeiten oder Distanzen gemessen, zum Beispiel beim Bestimmen der Ähnlichkeiten von Protein- oder DNA-Sequenzen. Traditionelle Methoden der Datenanalyse können normalerweise nicht direkt mit solchen Distanzdaten arbeiten. Unser Ziel ist es, neue Methoden der Datenanalyse für die Krebsforschung zu entwickeln, welche auf Distanzdaten basieren. Die Hauptziele bestehen in (i) der theoretischen Entwicklung und Erweiterung von Methoden im Bereich maschinelles Lernen zu Modellen, die mit Distanzdaten direkt arbeiten können, (ii) der Entwicklung von effizienten Algorithmen für die Methoden, die in (i) erarbeitet wurden, und (iii) der Anwendung der in (ii) entwickelten Algorithmen auf Probleme, welche in der Krebsforschung auftreten.

Wissenschaftlicher und gesellschaftlicher Kontext des Forschungsprojekts:

Unsere Arbeit trägt zu einem besseren Verständnis der genetischen Faktoren in der Krebsforschung bei. Dieses wichtige Verständnis hat viele Auswirkungen, zum Beispiel ermöglicht es eine verbesserte Diagnose und personalisierte Medizin, was eine bessere Therapie von Krebspatienten erlaubt.

Direct link to Lay Summary Last update: 27.01.2013

Responsible applicant and co-applicants

Publications

Publication
Bayesian Clustering for HIV1 Protease Inhibitor Contact Maps
VogtJulia E. (2019), Bayesian Clustering for HIV1 Protease Inhibitor Contact Maps, in Artificial intelligence in Medicine, Springer, Switzerland.
Unsupervised Extraction of Phenotypes from Cancer Clinical Notes for Association Studies
VogtJulia E. (2019), Unsupervised Extraction of Phenotypes from Cancer Clinical Notes for Association Studies, arXiv, online.
A Bayesian Nonparametric Approach to Discover Clinico-Genetic Associations across Cancer Types
VogtJulia E. (2018), A Bayesian Nonparametric Approach to Discover Clinico-Genetic Associations across Cancer Types, BioRxiv, Cold Spring Harbor.
Unsupervised Structure Detection in Biomedical Data
Vogt Julia E. (2015), Unsupervised Structure Detection in Biomedical Data, in IEEE/ACM Transactions on Computational Biology and Bioinformatics, 12(4), 753-760.
Probabilistic clustering of time-evolving distance data
VogtJulia E. (2015), Probabilistic clustering of time-evolving distance data, in Machine Learning Journal, 100, 635-654.

Scientific events

Active participation

Title Type of contribution Title of article or contribution Date Place Persons involved
Women in Machine Learning Workshop Poster Clustering time-evolving Distance Data 05.12.2013 Lake Tahoe, United States of America Vogt Julia;


Self-organised

Title Date Place
Machine Learning for Healthcare Worskshop, NeurIPS 2014 12.05.2014 Lake Tahoe, United States of America

Awards

Title Year
Winner of NIPS Poster Contest 2013

Abstract

Traditional machine learning methods usually depend on geometricinformation of the data. However, frequently no access is given to the underlying vectorial representation of the data but only pairwise similarities or distances are measured. Examples of data sets of this kind include all types of kernel matrices, be it string alignment kernels over DNA or protein sequences or diffusion kernels on graphs.The main goal of the project is to develop new machine learning methods based on relational data that do not require direct access to an underlying vector space. These new methods will then be applied to such data sets that have no obvious vector space representation. The application areas cover any data sets in form of pairwise distances. Since Mercer kernels can encode similarities between many different kinds of objects (for instance kernels on graphs, images, structures or strings) the methods proposed here will cover a broad scope of application. The main application area will be the analysis of cancer data provided by the Memorial Sloan-Kettering Cancer Center.
-