Project

Back to overview

ML2 - Multilevel and Domain Decomposition Methods for Machine Learning

English title ML2 - Multilevel and Domain Decomposition Methods for Machine Learning
Applicant Krause Rolf
Number 197041
Funding scheme Project funding (Div. I-III)
Research institution Istituto del Software (SI) Facoltà di scienze informatiche
Institution of higher education Università della Svizzera italiana - USI
Main discipline Mathematics
Start/End 01.04.2021 - 31.03.2025
Approved amount 736'452.00
Show all

All Disciplines (2)

Discipline
Mathematics
Information Technology

Keywords (8)

Domain Decomposition; Multiscale Minimization; Multigrid and Multilevel Methods; Nonlinear Preconditioning; Optimization; Machine Learning; Training; Neural Network

Lay Summary (German)

Lead
Zur Klassifikation oder zum Analysieren großer Datenmengen können Neuronale Netze verwendet werden. Um die gewünschten Resultate zu liefern, müssen die Neuronalen Netze trainiert "trainiert" werden. Dieses Training ist üblicherweise langwierig und rechenaufwendig. In diesem Projekt entwicklen wir Methoden, um Neurone Netze schneller und mit weniger Rechenaufwand -und damit auch mit weniger Energieaufwand- zu trainieren.
Lay summary
Das "Training" eines Neuronales Netzwerkes ist ein Optimierungsprozess. Bestimmte Parameter -die sogenannten Gewichte- des Neuronalen Netzes werden im Laufe eines integrativen Prozesses so bestimmt, dass der Fehler zwischen Vorhersage des Netzwerkes und beobachtetem Resultat möglichst klein wird. Die am weitesten verbreitete Methode zum Trainieren von Neuronalen Netzen ist das stochastische Gradientenverfahren, ein einfaches Verfahren erster Ordnung aus der Optimierung. Für die großen Datensätze, die heutzutage verwendet werdet, ist das Training oft langwierig und verbraucht viel Rechenzeit - und damit auch viel Energie. Je größer der Datensatz, desto langsamer wird außerdem das Gradientenverfahren. Es liegt deshalb nahe, "bessere" Optimierungsverfahren als das stochastische Gradientenverfahren zu verwenden, z.B. ein sogenanntes Verfahren "zweiter Ordnung", das auch Information über die Krümmung des Fehlermaßes berücksichtigt. Das gestaltet sich bei im Falle Neuronaler Netze aber schwierig, weil die Datenmengen sehr groß sind und weil das Fehlermaß eine recht raue und komplexe Struktur zeigt.


In diesem Projekt wollen wir deshalb etablierte und leistungsstarke Verfahren  aus der Numerik, sogenannte Mehrgittermethoden, zum Trainieren von Neuronalen Netzen verwenden. Mehrgitterverfahren können die gewünschte Information "zweiter Ordnung" aus den Daten extrahieren, indem sie ein einfaches Verfahren "erster Ordnung" -wie das Gradientenverfahren" auf unterschiedlichen Skalen verwenden und deren Resultate kombinieren. Die Übertragung der Mehrgitterideen auf das Tainieren von Neuronalen Netzen ist aber schwierig. Dieses Projekt wird herausfinden, wie das am besten geschehen kann, basierend auf bereits vorhandenen ersten publizierten Resultaten.

So werden wir  Verfahren konstruieren, die mit minimalem Rechenaufwand ein effizientes und genaues Training ermöglichen  und so Zeit und Energie sparen. Darüberhinaus werden unsere Verfahren auch bei beliebig großen Datensätzen nicht langsamer konvergieren, im Gegensatz zum einfachen Gradientenverfahren.
Direct link to Lay Summary Last update: 28.09.2020

Responsible applicant and co-applicants

Employees

Project partner

Associated projects

Number Title Start Funding scheme
145271 ExaSolvers - Extreme Scale Solvers for Coupled Systems 01.07.2013 Project funding (Div. I-III)
132198 A Decomposition Approach for the Numerical Solution of Frictional Contact Problems in Nonlinear Elasticity 01.10.2010 Project funding (Div. I-III)
154090 Large-scale simulation of pneumatic and hydraulic fracture with a phase-field approach 01.07.2015 Project funding (Div. I-III)
186407 Stress-Based Methods for Variational Inequalities in Solid Mechanics: Finite Element Discretization and Solution by Hierarchical Optimization 01.03.2020 Project funding (Div. I-III)

Abstract

Learning takes time. The dominant method for training deep neural networks, the stochastic gradient method, requires a substantial amount of steps until acceptable weights have been identified. As a consequence, a huge amount of computational resources, time, and energy has to be spent when a network is trained. Various approaches towards finding more efficient training process have been developed, e.g. accelerated gradient methods or methods based on the approximation of second order information. Alternative approaches, such as using less accurate floating point representations for storing the weights can also help to reduce the computational impact of training. Still, the development of efficient training methods remains an open challenge.Two major obstacles can be identified on the way to more efficient training methods. The first obstacle is the non-convexity of the loss functionals, which is related to a quite rich energy landscape with distinctive features. A good set of weights is usually thought to be characterised by a "stable" stationary point in the sense that a smaller variation of the weights will not influence the loss functional significantly. In other words, the properties of the training method directly influence the quality and stability of the resulting approximation provided by the network.The second obstacle is the shear size of the problems - big data induces large scale Hessians, which prevents the straight forward application of many classical techniques from optimization. In fact, whenever classical Newton-like techniques are applied, linear systems have to be set up and possibly solved, which might simply be too large for the available (GPU) memory.Within this project "ML2 - Multilevel and Domain Decomposition for Machine Learning" we will address both of the difficulties explained above by transferring ideas from multilevel methods, in particular multigrid (MG), and domain decomposition (DD) to machine learning. Originally developed for the solution of symmetric positive definite linear systems arising from the discretization of elliptic PDEs, MG and DD are nowadays used as massively parallel solution methods with (quasi-)optimal complexity for various types of linear and non-linear large-scale systems. During the last two decades, the idea of multi-level decompositions has also be applied to convex and non-convex minimization problems, leading to multi-level minimizations methods such as RMTR, Monotone Multigrid, or MG/OPT. These methods show significant to drastic improvements in terms of robustness and speed for large-scale minimization problems, when compared to a simple gradient method. Additionally, they allow for massive parallelism.Within ML2, we will develop parallel multi-level minimization methods for training neural networks, which will be designed to deal with the large scale non-convex minimization problems at hand in an efficient way. ML2 will exploit the optimality of advanced parallel iterative solution methods for machine learning. The binding component between both worlds will be the multilevel decomposition, which can be found in both, neural networks and multigrid methods, as a hierarchy of problem dependent approximation spaces.
-