Project

Back to overview

Machine Learning Methods for Clinical Data Analysis and Precision Medicine

English title Machine Learning Methods for Clinical Data Analysis and Precision Medicine
Applicant Vogt Julia
Number 188466
Funding scheme Project funding
Research institution Departement Mathematik und Informatik Universität Basel
Institution of higher education ETH Zurich - ETHZ
Main discipline Information Technology
Start/End 01.11.2019 - 31.10.2023
Approved amount 450'000.00
Show all

All Disciplines (3)

Discipline
Information Technology
Paediatrics
Clinical Cancer Research

Keywords (9)

Personalized Medicine; Heterogenous Data Integration; Clinical Data Analysis; Machine Learning; Supervised Learning; Precision Medicine; High-dimensional Data Analysis; Biomedicine; Longitudinal Data Analysis

Lay Summary (German)

Lead
In den letzten Jahren wurden enorme Fortschritte erzielt, um so viele Informationen wie möglich über einen einzelnen Patienten zu sammeln, und zwar sowohl auf molekularer Ebene wie Genaktivität und Mutationen, als auch auf klinischer Ebene, beispielsweise in der Anamnese der Patienten. Ein einzelner Besuch eines Patienten in einem Krankenhaus kann zu zehntausenden von Messungen und strukturierten Informationen führen, einschließlich klinischer Faktoren, diagnostischer Bildgebung, Labortests, genomischer und proteomischer Tests, und Krankenhäuser können jedes Jahr Tausende von Patienten haben. All diese Entwicklungen in der medizinischen Informationstechnologie haben zu einer überwältigenden Datenmenge geführt, die oft über einen langen Zeitraum hinweg gemessen wurde. Das ultimative Ziel ist es, all diese umfangreichen Informationen für eine medizinische Behandlung zu nutzen, die auf die Bedürfnisse eines einzelnen Patienten zugeschnitten ist.
Lay summary

Um die Vision der personalisierten Medizin Wirklichkeit werden zu lassen, müssen noch viele methodische Probleme gelöst werden:   (i) Es ist dringend erforderlich, die derzeit verfügbaren heterogenen Patientendaten zu integrieren, um die Diagnose, Prognose und Prognose der Therapieergebnisse zu verbessern. Anstatt nur anhand eines einzigen Datensatzes zu lernen, wie beispielsweise anhand von Bildern oder der Genetik, ist das Ziel,  die personalisierte Behandlung zu verbessern, indem für jeden Patienten so viele Informationen wie möglich verwendet werden.  (ii) Andererseits ist die Datenanalyse über Zeit, bei der Beobachtungen über mehrere Zeitpunkte erfolgen, ein bewährtes  Studiendesign, das in klinischen Studien aufgrund von Budgetproblemen und mangelnder Analysefähigkeit bisher nicht ausreichend genutzt wurde. Ein Patient besucht in der Regel mehrmals ein Krankenhaus oder wird über einen bestimmten Zeitraum ins Krankenhaus eingeliefert. Dies führt zu zeitabhängigen Daten für jeden einzelnen Patienten. Abhängig von der Erkrankung kann dies zu sehr langen Zeitreihendaten mit unregelmäßigen Zeitintervallen und vielen fehlenden Werten führen. Dies sind schwierige Herausforderungen, die neue maschinelle Lernmethoden für die effiziente Analyse großer Mengen von longitudinalen multimodalen klinischen Daten erfordern, mit dem Ziel, Erkenntnisse zu gewinnen und Vorhersagen über Krankheitsphänotypen, Krankheitsverlauf und Ansprechen auf die Behandlung zu treffen. 

Das Ziel dieses Forschungsprojektes ist es, einen vollständigen Rahmen für die Analyse von hochdimensionalen Zeitreihendaten mit mehreren unterschiedlichen Datentypen bereitzustellen, und die Zugänglichkeit sowohl für Forscher als auch für Ärzte sicherzustellen. Die vorgeschlagenen Entwicklungen reichen von Methoden zur Integration mehrerer, möglicherweise sehr unterschiedlicher Datentypen bis hin zu fortgeschrittenen Methoden des maschinellen Lernens, die zeitvariable Analysen komplexer biomedizinischer multimodaler Zeitreihendaten ermöglichen.

Direct link to Lay Summary Last update: 17.10.2019

Responsible applicant and co-applicants

Employees

Project partner

Abstract

In the last years, enormous progress has been made to gather as many information as possible about an individual patient, on the molecular level of gene activity and mutations as well as on the clinical level as for example patient treatment history. A single patient visit at a hospital may result in tens of thousands of measurements and structured information, including clinical factors, diagnostic imaging, lab tests, genomic and proteomic tests, and hospitals may see thousands of patients each year. Also, DNA sequencing is nowadays a standard, fast and relatively cheap procedure. All these developments in medical information technology have resulted in an overwhelming amount of data, often measured over a long period of time. The ultimate aim is to use all this vast information for a medical treatment tailored to the needs of an individual patient. To turn the vision of precision medicine into reality, many methodological problems remain to be solved:(i) there is an urgent need for the integration of the heterogeneous (or multi-modal) patient data currently available, for improved disease diagnosis, prognosis and therapy outcome prediction. Instead of learning on one data set exclusively, as for example just on images or just on genetics, the aim is to improve learning and enhance personalized treatment by using as much information as possible for every patient. (ii) On the other hand, longitudinal analysis, where observations are made across multiple time points, is a proven epidemiologic study design that has so far been underutilized in clinical studies, due to budgetary concerns and due to missing ability to analyze this data. A patient usually visits a hospital multiple times, or is hospitalized over a certain time period. This results in time-stamped data for every patient. Depending on the disease, this might result in very long time-series data, with irregular time intervals, and many missing values. These are difficult challenges which require new machine learning methods for the efficient analysis of large amounts of longitudinal multi-modal clinical data, with the goal of gaining insights and making predictions about disease phenotypes, disease progression and response to treatment. The aim of my proposed research is to provide a complete framework for the analysis of high-dimensional time-series data with multiple diverse data types and ensure accessibility both for researchers and physicians. The proposed developments range from methods focusing on the integration of multiple, possibly very different data types, to advanced machine learning methods that allow time-varying analyses of complex biomedical multi-modal time series data.
-