Project

Back to overview

Big Data for Computational Chemistry: Unified machine learning and sparse grid combination technique for quantum based molecular design

Applicant Harbrecht Helmut
Number 167186
Funding scheme NRP 75 Big Data
Research institution Fachbereich Mathematik Departement Mathematik und Informatik Universität Basel
Institution of higher education University of Basel - BS
Main discipline Physical Chemistry
Start/End 01.02.2017 - 31.08.2020
Approved amount 617'160.00
Show all

All Disciplines (2)

Discipline
Physical Chemistry
Mathematics

Keywords (3)

molecular design; sparse grid combination technique; machine learning

Lay Summary (German)

Lead
Es gibt zu viele theoretisch mögliche chemische Verbindungen, als dass sie systematisch vorausberechnet werden könnten. Um trotzdem sinnvolle Vorhersagen treffen zu können, möchte dieses Projekt maschinelles Lernen mit modernen Näherungsverfahren der Quantenchemie kombinieren.
Lay summary

Maschinelles Lernen ist ein mathematisches Verfahren, das Rechnern ermöglicht, selbständig Wissen aus gegebenen Datensätzen zu erlernen. Diese Technik wird bereits mit Erfolg zur Vorhersage der Eigenschaften von chemischen Verbindungen verwendet. Solche Vorhersagen sind aufgrund der extrem hohen Anzahl chemischer Verbindungen allerdings nicht sonderlich genau. Dies rührt von der Tatsache, dass die zur Verfügung gestellten Datensätze entweder genügend genau, aber zu klein sind – oder genügend gross, aber zu ungenau. In diesem Projekt versuchen wir deshalb, aus einer geschickten Kombination von wenigen hochgenauen Daten und vielen weniger genauen Daten verbesserte Vorhersagemodelle zu entwickeln.

Die Synthese und das Testen von neuen Werkstoffen in der chemischen Industrie oder von neuen Medikamenten in der Pharmazie kosten viel Zeit und Geld. Dieser Aufwand liesse sich beträchtlich reduzieren, wenn es gelänge, die Komplexität chemischer Verbindungen zu bezwingen. Das Projekt möchte mit verbesserten mathematischen Verfahren die zielgenaue Entwicklung von chemischen Verbindungen mit gewünschten Eigenschaften ermöglichen.

Ziel dieses Projekts ist die Entwicklung eines leistungsfähigen Verfahrens zur Vorhersage der Eigenschaften von chemischen Verbindungen. Leistungsfähig bedeutet in diesem Kontext, dass für eine beliebige chemische Verbindung eine hochgenaue Vorhersage der Eigenschaften in extrem kurzer Rechenzeit verfügbar ist.

Dieses Projekt stellt experimentellen Chemikern ein neues Werkzeug bereit, das sie bei Identifizierung, Design, Synthese und Charakterisierung neuartiger und interessanter Verbindungen mit augenblicklichen Vorhersagen anleiten kann. Zusätzlich impliziert der Erfolg solcher Modelle ein verbessertes quantitatives Verständnis für die Beziehung zwischen chemischen Strukturen und ihren Eigenschaften.

Direct link to Lay Summary Last update: 24.07.2017

Lay Summary (French)

Lead
Les liaisons chimiques théoriquement possibles sont tellement nombreuses qu’il est impossible de les évaluer systématiquement par avance. Afin de pouvoir malgré tout faire des prévisions sensées, ce projet souhaite combiner l’apprentissage automatique avec des méthodes d’approximation de la chimie quantique
Lay summary

L’apprentissage automatique est une méthode mathématique permettant à des ordinateurs d’acquérir des connaissances de manière autonome à partir d’ensembles de données déterminés. Cette technique s’utilise déjà avec succès pour prédire les propriétés de composés chimiques. En raison du nombre extrêmement élevé de liaisons chimiques, les prévisions ne sont toutefois pas particulièrement précises. La cause en est que les ensembles de données mis à disposition sont soit suffisamment précis mais trop petits, soit suffisamment grands mais trop imprécis. C’est pourquoi nous cherchons à améliorer les modèles par une combinaison habile d’un petit nombre de données très précises avec un grand nombre de données moins précises.

La synthèse et le test de nouveaux matériaux dans l’industrie chimique ou de nouveaux médicaments dans l’industrie pharmaceutique prennent beaucoup de temps et coûtent cher. Maîtriser la complexité des liaisons chimiques permettrait de réduire sensiblement ces dépenses. Grâce à des méthodes mathématiques améliorées, le projet vise à développer de manière ciblée des composés chimiques possédant les propriétés souhaitées.

L’objectif de ce projet est le développement d’un procédé performant, soit précis et extrêmement rapide, pour prédire les propriétés de composés chimiques.

Ce projet fournit aux chimistes expérimentaux un nouvel outil qui pourra les guider, grâce à des prévisions instantanées, dans l’identification, le design, la synthèse et la caractérisation de nouveaux composés intéressants. Le succès de tels modèles implique par ailleurs une meilleure compréhension quantitative des relations entre les structures chimiques et leurs propriétés.


Direct link to Lay Summary Last update: 24.07.2017

Lay Summary (English)

Lead
The number of theoretically possible chemical compounds is too great to systematically calculate them in advance. This project seeks to combine machine learning with the modern approximation processes used in quantum chemistry so that sensible predictions can nonetheless be made.
Lay summary

Machine learning is a mathematical process that enables computers to acquire knowledge independently from given data sets. This technique is already being used successfully to predict the properties of chemical compounds. However, predictions of this kind are not particularly accurate, because the number of chemical compounds is extremely large. This is due to the fact that the available data sets are either sufficiently accurate but too small, or large enough but too inaccurate. This is why, in this project, we are trying to develop an improved prediction model by using a clever combination of a few highly accurate data and a lot of less accurate data.

It takes a great deal of time and money to synthesise and test new materials in the chemical industry or new medicines in the pharmaceutical sector. This outlay could be reduced substantially if it were possible to control the complexity of chemical compounds. This project aims to use improved mathematical processes to enable the targeted development of chemical compounds with the desired properties.

The goal of this project is to develop a highly effective process capable of predicting the properties of chemical compounds. In this context, effective means that the properties of any chemical compound can be predicted with great accuracy after an extremely short calculation time.

This project provides experimental chemists with a new tool that can guide their efforts to identify, design, synthesise and characterise novel and interesting compounds by means of immediate predictions. In addition, the success of a model like this implies an improved quantitative understanding of the relationship between chemical structures and their properties.


Direct link to Lay Summary Last update: 24.07.2017

Responsible applicant and co-applicants

Employees

Publications

Publication
A fast direct solver for nonlocal operators in wavelet coordinates
Harbrecht Helmut, Multerer Michael (2021), A fast direct solver for nonlocal operators in wavelet coordinates, in Journal of Computational Physics, 428, 110056-110056.
Retrospective on a decade of machine learning for chemical discovery
von Lilienfeld O. Anatole, Burke Kieron (2020), Retrospective on a decade of machine learning for chemical discovery, in Nature Communications, 11(1), 4895-4895.
Quantum machine learning using atom-in-molecule-based fragments selected on the fly
Huang Bing, von Lilienfeld O. Anatole (2020), Quantum machine learning using atom-in-molecule-based fragments selected on the fly, in Nature Chemistry, 12(10), 945-951.
Machine learning the computational cost of quantum chemistry
Heinen Stefan, Schwilk Max, von Rudorff Guido Falk, von Lilienfeld O Anatole (2020), Machine learning the computational cost of quantum chemistry, in Machine Learning: Science and Technology, 1(2), 025002-025002.
On the Algebraic Construction of Sparse Multilevel Approximations of Elliptic Tensor Product Problems
Harbrecht Helmut, Zaspel Peter (2019), On the Algebraic Construction of Sparse Multilevel Approximations of Elliptic Tensor Product Problems, in Journal of Scientific Computing, 78(2), 1272-1290.
Algorithmic Patterns for H-Matrices on Many-Core Processors
Zaspel Peter (2019), Algorithmic Patterns for H-Matrices on Many-Core Processors, in Journal of Scientific Computing, 78(2), 1174-1206.
Boosting Quantum Machine Learning Models with a Multilevel Combination Technique: Pople Diagrams Revisited
Zaspel Peter, Huang Bing, Harbrecht Helmut, von Lilienfeld O. Anatole (2019), Boosting Quantum Machine Learning Models with a Multilevel Combination Technique: Pople Diagrams Revisited, in Journal of Chemical Theory and Computation, 15(3), 1546-1559.
ENSEMBLE KALMAN FILTERS FOR RELIABILITY ESTIMATION IN PERFUSION INFERENCE
Zaspel Peter (2019), ENSEMBLE KALMAN FILTERS FOR RELIABILITY ESTIMATION IN PERFUSION INFERENCE, in International Journal for Uncertainty Quantification, 9(1), 15-32.
Cholesky-based experimental design for Gaussian process and kernel-based emulation and calibration
HarbrechtHelmut, JakemanJohn Davis, ZaspelPeter, Cholesky-based experimental design for Gaussian process and kernel-based emulation and calibration, in Commun. Comput. Phys..

Collaboration

Group / person Country
Types of collaboration
Michael Griebel (Uni Bonn) Germany (Europe)
- in-depth/constructive exchanges on approaches, methods or results
- Publication
Dario Alfe Great Britain and Northern Ireland (Europe)
- in-depth/constructive exchanges on approaches, methods or results
- Publication

Scientific events

Active participation

Title Type of contribution Title of article or contribution Date Place Persons involved
NumPDE Summer Retreat 2020 Individual talk Sparse grid approximation of the Riccati equation 05.08.2020 Disentis, Switzerland Kalmykov Ilja;
GAMM 2019 Talk given at a conference Scalable parallel hierarchical matrices on GPUs 18.02.2019 Vienna, Austria Zaspel Peter;
Sparse Grids and Applications 2018 Talk given at a conference On the algebraic construction of multi-level sparse approximations of elliptic tensor product problems 23.07.2018 Munich, Germany Zaspel Peter;
PASC18 Conference Talk given at a conference Scalable Solvers for Meshless Methods on Many-Core Clusters 02.07.2018 Basel, Switzerland Zaspel Peter;
IABEM 2018 Talk given at a conference Scalable parallel BEM solvers on many-core clusters 26.06.2018 Paris, France Zaspel Peter;
6th European Seminar on Computing Talk given at a conference Algorithmic patterns for H matrices on many-core processors 03.06.2018 Pilsen, Czech Republic Zaspel Peter;
GAMM UQ 2018 Workshop on Uncertainty Quantification 2018 Talk given at a conference Scalable solvers for meshless methods on many-core clusters 12.03.2018 Dortmund, Germany Zaspel Peter;
Quantification of Uncertainty: Improving Efficiency and Technology Talk given at a conference Scalable solvers for meshless methods on many-core clusters 18.07.2017 Triest, Italy Zaspel Peter;
GAMM Annual Meeting 2017 Talk given at a conference Quantifying stochastic influences in biomedical imaging 06.03.2017 Weimar, Germany Zaspel Peter;


Abstract

We propose to sample an unprecedented amounts of molecular data (166 B molecules) with a unified multilevel (sparse grids plus combination rules)/machine learning based approach. A chemically accurate and transferable property model will be generated on-the-fly, allowing for unprecedented computational efficiency. Subsequently, we will demonstrate the superior performance of this approach by its use for surrogate models within iterative optimization solvers which enable the computational design of new molecules with desired properties in real time. The objective for this effort is twofold: We would like to (a) provide the experimental chemist with a powerful tool to guide their design, synthesis, and characterization efforts, and to (b) discover and gain a better understanding about established as well as hereto unknown trends and relationships between chemical and physical properties throughout chemical space.
-