Exploring Task-Speciﬁc Structure in Neural Networks: Advancing Numerical Interpretation and Uncertainty Quantiﬁcation

Ott, Katharina

Publikationsdienste
→
TOBIAS-lib - Publikationen und Dissertationen
→
7 Mathematisch-Naturwissenschaftliche Fakultät
→
Dokumentanzeige

« zurück

Exploring Task-Speciﬁc Structure in Neural Networks: Advancing Numerical Interpretation and Uncertainty Quantiﬁcation

Ott, Katharina

Dateien:	thesis_ott_katharina.pdf 38.2 MB PDF Beschreibung: Thesis

Zitierfähiger Link (URI):	http://hdl.handle.net/10900/170060 http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1700609 http://dx.doi.org/10.15496/publikation-111387
Dokumentart:	Dissertation
Erscheinungsdatum:	2025-09-08
Sprache:	Englisch
Fakultät:	7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich:	Informatik
Gutachter:	Hennig, Philipp (Prof. Dr.)
Tag der mündl. Prüfung:	2023-11-17
DDC-Klassifikation:	004 - Informatik 500 - Naturwissenschaften
Schlagworte:	Informatik
Freie Schlagwörter:	Neuronale Netze Differentialgleichungen Ordinary Differential Equations Neural Networks
Lizenz:	http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en
Zur Langanzeige

Inhaltszusammenfassung:

Die Wahl der Netzarchitektur ist eine der wichtigsten Komponenten, die zu bedeutenden Fortschritten im Bereich maschinellen Lernen geführt haben. Architekturen liegt oft vorhandenes Wissen über die Welt oder den Lernprozess zugrunde. Ein bekanntes Beispiel sind faltende neuronale Netze, deren Struktur durch die Tatsache motiviert ist, dass die Bildklassifizierung bei kleinen Verschiebungen unverändert bleiben sollte. In vielen realen Anwendungen ist detailliertes Wissen über die zugrundeliegende Physik oder mathematische Beschreibung des Problems vorhanden und sollte in die Netzarchitektur einbezogen werden. Dynamische Systeme werden beispielsweise häufig durch Differentialgleichungen charakterisiert, was durch neuronale gewöhnliche Differentialgleichungen (englisch ordinary differential equations, ODEs) abgebildet werden kann. Diese Architekturen werden häufig für wissenschaftliche Anwendungen verwendet, wobei ein besseres Verständnis der Ausgabe des neuronalen Netzes ein wichtiger Gesichtspunkt ist. Die Quantifizierung der Unsicherheit kann dazu beitragen, das Vertrauen in die Ergebnisse des Netzes zu stärken und Fehler zu erkennen. Ziel ist es daher, Methoden zur Quantifizierung von Unsicherheiten in Verbindung mit der Netzarchitektur zu entwickeln. Ein Kerngedanke der neuronalen ODE Architekturen besteht darin, eine kontinuierliche Perspektive für Deep Learning zu bieten. Wenn jedoch ein zu grober numerischer ODE-Löser für das Training verwendet wird, passt das resultierende Netz nicht mehr zu diesem Paradigma. Insbesondere gegeben einer kontinuierlichen Interpretation müsste ein numerisch genauerer ODE-Löser beim Testen ein ähnliches Ergebnis erzielen wie der für das Training verwendete Löser. Es gibt jedoch Fälle, in denen ein signifikanter Leistungsabfall beobachtet wird, wenn man mit einem numerisch genaueren Löser testet. Wir untersuchen dieses Problem und entwickeln einen Algorithmus, der die kontinuierliche Interpretation der Architektur während des Trainings beibehält. In wissenschaftlichen Anwendungen sind oft zusätzliche Informationen über das zu lösende Problem verfügbar, z.B. in Form von Erhaltungsgesetzen oder teilweise bekannter Beschreibung der Dynamik. In neueren Arbeiten wurden solche Informationen in den Entwurf von neuronalen ODEs einbezogen. Diese wissenschaftlichen Anwendungen erfordern ein hohes Maß an Vertrauen in die Ergebnisse der Netze, daher schlagen wir vor, neuronale ODEs mit Unsicherheitsschätzungen auszustatten. Wir stellen fest, dass selbst kleine Änderungen in der Problemstellung zu drastisch unterschiedlichen Ergebnissen führen können, was sich in den Unsicherheitsschätzungen widerspiegelt. Eine oft schwierige Aufgabe sowohl in der Wissenschaft als auch beim maschinellen Lernen ist die numerische Berechnung von Integralen. Es gibt eine Fülle von Methoden, aber die bayessche Quadratur zeichnet sich als ein Ansatz aus, der die Unsicherheit der Methode selbst berücksichtigt. Die bayessche Quadratur liefert Schätzungen der numerischen Unsicherheit unter Verwendung der Gaußprozess-Regression. Die bayessche Quadratur lässt sich jedoch nicht gut auf höherdimensionale Probleme und große Datenmengen übertragen, im Gegensatz zu neuronale Netze, die in diesen Bereich oft herausstechen. Die Architektur verwendet den Langevin-Stein-Operator, und die Unsicherheitsschätzungen werden mit Hilfe der Laplace-Approximation ermittelt. Diese Arbeit beleuchtet das Verständnis und die Entwicklung aufgabenspezifischer Architekturen für neuronaler Netze und zeigt, wie Unsicherheitsschätzungen helfen können, die Ergebnisse neuronaler Netze besser zu verstehen.

Abstract:

The choice of network architecture is one of the key ingredients that has led to significant advances in machine learning. Architectures often encode available knowledge about the world or the learning process. A prominent example is convolutional neural networks, whose structure is motivated by the fact that image classification should remain invariant under small translations. In many real-world applications, detailed knowledge of the underlying physics or mathematical description is available and should be incorporated into the network architecture. For instance, dynamical systems are often characterized by differential equations. This information can be encoded in neural ODEs. These architectures are often used for scientific applications, so understanding the output of the neural network is crucial. Uncertainty quantification can help to build confidence in the network’s outputs and indicate cases of failure. Therefore, the aim is to develop methods for uncertainty quantification alongside the network architecture. A core idea of the neural ODE framework is to provide a continuous perspective on deep learning. However, if a too coarse numerical ODE solver is used for training, the resulting network will no longer fit this paradigm. Specifically, for a continuous interpretation, a numerically more accurate ODE solver would achieve a similar performance during test time as the solver used for training. However, there are cases where we observe a significant drop in performance when testing with a numerically more accurate solver. We investigate this issue and develop an algorithm to maintain the continuous interpretation of the architecture throughout training. In scientific applications, additional information about a task is often available, e.g., in the form of conservation laws or partially known dynamics. Recent work has incorporated such information into the design of neural ODEs. These scientific applications require a high degree of confidence in the networks’ outputs, hence we propose to equip neural ODEs with uncertainty estimates. We find that even small changes in the setup can lead to drastically different results, a fact that is reflected in the uncertainty estimates. An often difficult task in both science and machine learning is the numerical computation of integrals. A plethora of methods exit, but Bayesian quadrature stands out as an uncertainty-aware approach. Bayesian quadrature provides estimates of numerical uncertainty using Gaussian process regression. However, Bayesian quadrature does not scale well to higher dimensional settings and large amounts of data, a task at which neural networks often excel. This motivates the development of a Bayesian numerical integration method using neural networks. The architecture uses the Langevin-Stein operator and uncertainty estimates are obtained using the Laplace approximation. This thesis highlights the understanding and development of more task-specific neural network architectures, and shows how uncertainty estimates help to understand the outputs of neural networks.

Das Dokument erscheint in:

7 Mathematisch-Naturwissenschaftliche Fakultät [5092]

Veröffentlichen

Stöbern

Gesamter Bestand
Diese Sammlung

Mein Benutzerkonto

Einloggen

Exploring Task-Speciﬁc Structure in Neural Networks: Advancing Numerical Interpretation and Uncertainty Quantiﬁcation

DSpace Repositorium (Manakin basiert)

Exploring Task-Speciﬁc Structure in Neural Networks: Advancing Numerical Interpretation and Uncertainty Quantiﬁcation

Inhaltszusammenfassung:

Abstract:

Das Dokument erscheint in:

Stöbern

Gesamter Bestand

Diese Sammlung

Mein Benutzerkonto