Inductive Bias in Machine Learning

DSpace Repository


Dateien:

URI: http://hdl.handle.net/10900/135988
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1359887
http://dx.doi.org/10.15496/publikation-77339
Dokumentart: PhDThesis
Date: 2023-02-02
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Luxburg, Ulrike von (Prof. Dr.)
Day of Oral Examination: 2023-01-24
DDC Classifikation: 004 - Data processing and computer science
510 - Mathematics
Keywords: Maschinelles Lernen
Other Keywords: Induktiver Verzerrung
Inductive Bias
License: http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Induktive Verzerrung beschreibt die Präferenz für Lösungen, welche ein Algorithmus für maschinelles Lernen hat, bevor er Daten sieht. Sie ist notwendiger Bestandteil für das Ziel des maschinellen Lernens, nämlich von einer Menge an Beispielen auf ungesehene Datenpunkte zu verallgemeinern. In der Praxis wird die induktive Verzerrung jedoch oft nicht explizit spezifiziert, was theoretisches Verständnis verhindert und das Vertrauen in maschinelles Lernen untergräbt. Am deutlichsten wird dieses Problem am zeitgenössischen Beispiel von deep learning, das zwar in vielen Anwendungen erfolgreich ist, aber auf einer Vielzahl schlecht verstandener Techniken und Heuristiken beruht. Ziel dieser Dissertation ist es, die versteckten induktiven Verzerrungen von Algorithmen des maschinellen Lernens aufzudecken. Im ersten Teil der Dissertation decken wir die induktive Verzerrung von NetGAN auf, einem komplexen generativen Graphenmodell, das scheinbar keine Präferenzen hat. Wir stellen fest, dass die Ursache der Generalisierung nicht in der GAN-Architektur liegt, sondern in einer unscheinbaren Approximation mit niedrigem Rang. Wir nutzen diese Erkenntnis, um NetGAN von allen unnötigen Teilen, einschließlich des GAN, zu befreien und eine stark vereinfachte Reformulierung zu erhalten. Als Nächstes präsentieren wir einen generischen Algorithmus, der die versteckte induktive Verzerrung in der approximativen Bayesschen Inferenz enthüllt. Während die induktive Verzerrung bei der Bayesschen Inferenz vollständig durch den Prior beschrieben wird, greifen reale Anwendungen oft auf approximative Techniken zurück, die unkontrollierbare Fehler machen können. Indem wir das Problem in Form von inkompatiblen bedingten Verteilungen reformulieren, kommen wir zu einem generischen Algorithmus, der auf Pseudo-Gibbs-Sampling basiert und die Änderung der induktiven Verzerrung auf eine Änderung des Priors zurückführt. Der letzte Teil der Dissertation betrifft eine häufige induktive Verzerrung beim kausalen Lernen, die Annahme unabhängiger kausaler Mechanismen. Unter dieser Annahme betrachten wir Schätzer für die Stärke von Störfaktoren, die die Generalisierung von der Beobachtungsverteilung auf das zugrunde liegende kausale Modell bestimmt. Wir zeigen, dass ein bestehender Schätzer im Allgemeinen inkonsistent ist und präsentieren einen konsistenten Schätzer mit Werkzeugen aus der Theorie von Zufallsmatrizen.

Abstract:

Inductive bias describes the preference for solutions that a machine learning algorithm holds before seeing any data. It is a necessary ingredient for the goal of machine learning, which is to generalize from a set of examples to unseen data points. Yet, the inductive bias of learning algorithms is often not specified explicitly in practice, which prevents a theoretical understanding and undermines trust in machine learning. This issue is most prominently visible in the contemporary case of deep learning, which is widely successful in applications but relies on many poorly understood techniques and heuristics. This thesis aims to uncover the hidden inductive biases of machine learning algorithms. In the first part of the thesis, we uncover the implicit inductive bias of NetGAN, a complex graph generative model with seemingly no prior preferences. We find that the root of its generalization properties does not lie in the GAN architecture but in an inconspicuous low-rank approximation. We then use this insight to strip NetGAN of all unnecessary parts, including the GAN, and obtain a highly simplified reformulation. Next, we present a generic algorithm that reverse-engineers hidden inductive bias in approximate Bayesian inference. While the inductive bias is completely described by the prior distribution in full Bayesian inference, real-world applications often resort to approximate techniques that can make uncontrollable errors. By reframing the problem in terms of incompatible conditional distributions, we arrive at a generic algorithm based on pseudo-Gibbs sampling that attributes the change in inductive bias to a change in the prior distribution. The last part of the thesis concerns a common inductive bias in causal learning, the assumption of independent causal mechanisms. Under this assumption, we consider estimators for confounding strength, which governs the generalization ability from observational distribution to the underlying causal model. We show that an existing estimator is generally inconsistent and propose a consistent estimator based on tools from random matrix theory.

This item appears in the following Collection(s)