Inhaltszusammenfassung:
Die Wahl der Netzarchitektur ist eine der wichtigsten Komponenten, die zu bedeutenden Fortschritten im
Bereich maschinellen Lernen geführt haben. Architekturen liegt oft vorhandenes Wissen über die Welt oder
den Lernprozess zugrunde. Ein bekanntes Beispiel sind faltende neuronale Netze, deren Struktur durch die
Tatsache motiviert ist, dass die Bildklassifizierung bei kleinen Verschiebungen unverändert bleiben sollte.
In vielen realen Anwendungen ist detailliertes Wissen über die zugrundeliegende Physik oder mathematische
Beschreibung des Problems vorhanden und sollte in die Netzarchitektur einbezogen werden. Dynamische
Systeme werden beispielsweise häufig durch Differentialgleichungen charakterisiert, was durch neuronale
gewöhnliche Differentialgleichungen (englisch ordinary differential equations, ODEs) abgebildet werden
kann. Diese Architekturen werden häufig für wissenschaftliche Anwendungen verwendet, wobei ein besseres
Verständnis der Ausgabe des neuronalen Netzes ein wichtiger Gesichtspunkt ist. Die Quantifizierung der
Unsicherheit kann dazu beitragen, das Vertrauen in die Ergebnisse des Netzes zu stärken und Fehler zu
erkennen. Ziel ist es daher, Methoden zur Quantifizierung von Unsicherheiten in Verbindung mit der
Netzarchitektur zu entwickeln.
Ein Kerngedanke der neuronalen ODE Architekturen besteht darin, eine kontinuierliche Perspektive für Deep
Learning zu bieten. Wenn jedoch ein zu grober numerischer ODE-Löser für das Training verwendet wird,
passt das resultierende Netz nicht mehr zu diesem Paradigma. Insbesondere gegeben einer kontinuierlichen
Interpretation müsste ein numerisch genauerer ODE-Löser beim Testen ein ähnliches Ergebnis erzielen
wie der für das Training verwendete Löser. Es gibt jedoch Fälle, in denen ein signifikanter Leistungsabfall
beobachtet wird, wenn man mit einem numerisch genaueren Löser testet. Wir untersuchen dieses Problem
und entwickeln einen Algorithmus, der die kontinuierliche Interpretation der Architektur während des
Trainings beibehält.
In wissenschaftlichen Anwendungen sind oft zusätzliche Informationen über das zu lösende Problem
verfügbar, z.B. in Form von Erhaltungsgesetzen oder teilweise bekannter Beschreibung der Dynamik. In
neueren Arbeiten wurden solche Informationen in den Entwurf von neuronalen ODEs einbezogen. Diese
wissenschaftlichen Anwendungen erfordern ein hohes Maß an Vertrauen in die Ergebnisse der Netze, daher
schlagen wir vor, neuronale ODEs mit Unsicherheitsschätzungen auszustatten. Wir stellen fest, dass selbst
kleine Änderungen in der Problemstellung zu drastisch unterschiedlichen Ergebnissen führen können, was
sich in den Unsicherheitsschätzungen widerspiegelt.
Eine oft schwierige Aufgabe sowohl in der Wissenschaft als auch beim maschinellen Lernen ist die numerische
Berechnung von Integralen. Es gibt eine Fülle von Methoden, aber die bayessche Quadratur zeichnet sich
als ein Ansatz aus, der die Unsicherheit der Methode selbst berücksichtigt. Die bayessche Quadratur liefert
Schätzungen der numerischen Unsicherheit unter Verwendung der Gaußprozess-Regression. Die bayessche
Quadratur lässt sich jedoch nicht gut auf höherdimensionale Probleme und große Datenmengen übertragen,
im Gegensatz zu neuronale Netze, die in diesen Bereich oft herausstechen. Die Architektur verwendet den
Langevin-Stein-Operator, und die Unsicherheitsschätzungen werden mit Hilfe der Laplace-Approximation
ermittelt.
Diese Arbeit beleuchtet das Verständnis und die Entwicklung aufgabenspezifischer Architekturen für
neuronaler Netze und zeigt, wie Unsicherheitsschätzungen helfen können, die Ergebnisse neuronaler Netze
besser zu verstehen.
Abstract:
The choice of network architecture is one of the key ingredients that has led to significant advances in
machine learning. Architectures often encode available knowledge about the world or the learning process.
A prominent example is convolutional neural networks, whose structure is motivated by the fact that image
classification should remain invariant under small translations.
In many real-world applications, detailed knowledge of the underlying physics or mathematical description
is available and should be incorporated into the network architecture. For instance, dynamical systems
are often characterized by differential equations. This information can be encoded in neural ODEs. These
architectures are often used for scientific applications, so understanding the output of the neural network is
crucial. Uncertainty quantification can help to build confidence in the network’s outputs and indicate cases
of failure. Therefore, the aim is to develop methods for uncertainty quantification alongside the network
architecture.
A core idea of the neural ODE framework is to provide a continuous perspective on deep learning. However, if
a too coarse numerical ODE solver is used for training, the resulting network will no longer fit this paradigm.
Specifically, for a continuous interpretation, a numerically more accurate ODE solver would achieve a similar
performance during test time as the solver used for training. However, there are cases where we observe a
significant drop in performance when testing with a numerically more accurate solver. We investigate this
issue and develop an algorithm to maintain the continuous interpretation of the architecture throughout
training.
In scientific applications, additional information about a task is often available, e.g., in the form of conservation
laws or partially known dynamics. Recent work has incorporated such information into the design of neural
ODEs. These scientific applications require a high degree of confidence in the networks’ outputs, hence we
propose to equip neural ODEs with uncertainty estimates. We find that even small changes in the setup can
lead to drastically different results, a fact that is reflected in the uncertainty estimates.
An often difficult task in both science and machine learning is the numerical computation of integrals. A
plethora of methods exit, but Bayesian quadrature stands out as an uncertainty-aware approach. Bayesian
quadrature provides estimates of numerical uncertainty using Gaussian process regression. However,
Bayesian quadrature does not scale well to higher dimensional settings and large amounts of data, a task
at which neural networks often excel. This motivates the development of a Bayesian numerical integration
method using neural networks. The architecture uses the Langevin-Stein operator and uncertainty estimates
are obtained using the Laplace approximation.
This thesis highlights the understanding and development of more task-specific neural network architectures,
and shows how uncertainty estimates help to understand the outputs of neural networks.