Understanding Machine Perception: How Do Neural Networks Represent the World?

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://hdl.handle.net/10900/169628
http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1696285
http://dx.doi.org/10.15496/publikation-110955
Dokumentart: Dissertation
Erscheinungsdatum: 2025-08-28
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Brendel, Wieland (Dr.)
Tag der mündl. Prüfung: 2025-07-07
DDC-Klassifikation: 004 - Informatik
Schlagworte: Maschinelles Lernen , Maschinelles Sehen , Künstliche Intelligenz , Deep Learning , Neuronales Netz
Freie Schlagwörter:
interpretability
representation learning
theoretical machine learning
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en
Zur Langanzeige

Inhaltszusammenfassung:

In den letzten Jahren sind neuronale Netze im maschinellen Sehen allgegenwärtig geworden. Es bleiben jedoch viele offene Fragen zu ihrer Funktionalität und Zuverlässigkeit: Wie nehmen diese Netze die Welt wahr? Unter welchen Voraussetzungen stimmt ihre Wahrnehmung mit der des Menschen überein? Und wann versagen sie? Da Künstliche Intelligent in immer mehr alltägliche Anwendungen integriert wird, besteht ein dringender Bedarf an einer vertrauenswürdigen Grundlage, auf die sie sich stützen kann. In dieser Arbeit werden mögliche Wege zum Erreichen von Vertrauenswürdigkeit untersucht, indem sowohl ein Bottom-up- als auch ein Top-down-Ansatz verfolgt wird: Der Bottom-up-Ansatz konzentriert sich darauf, die interne Informationsverarbeitung bestimmter Netze für den Menschen verständlich zu machen. Solange die (interne) Informationsverarbeitung von neuronalen Black-Box-Netzen ein Rätsel bleibt, wird die Skepsis über ihr Verhalten fortbestehen. Ich führe zunächst experimentelle Paradigmen ein, um genau zu quantifizieren, wie gut Menschen die von neuronalen Netzen intern verwendeten Merkmale interpretieren können. Anschließend untersuche ich die (Un-)Zuverlässigkeit bestehender Interpretationswerkzeuge. Als nächstes vergleiche ich die Interpretierbarkeit verschiedener Netzwerke und zeige die Notwendigkeit einer expliziten Optimierung der Interpretierbarkeit auf. Schließlich stelle ich Arbeiten zur Entwicklung vollautomatischer Interpretierbarkeitsmaße vor, die die bisherige Abhängigkeit von manuellen Bewertungen durch den Menschen überwindet. Solche automatisierten Maße haben das Potenzial, eine Optimierung der Interpretierbarkeit zu ermöglichen, was zu besser interpretierbaren Modellen führt. Der Top-Down-Ansatz untersucht Algorithmen des maschinellen Lernens und wie man theoretische Garantien für ihre erlernten Darstellungen erhält. Meine Strategie ist zweiteilig: Ich beginne damit besser zu verstehen, wann und warum kontrastives Lernen, eine gängige Form des Repräsentationslernens, funktioniert. Indem ich das kontrastive Lernen mit Forschung zur Identifizierbarkeit verbinde, zeige ich, dass das kontrastive Lernen unter bestimmten Annahmen den Prozess der Datengenerierung invertiert. Des Weiteren stelle ich Arbeit vor, die einen theoretischen Rahmen für die Analyse des objektzentrierten Lernens vorschlägt, um Garantien für die Generalisierungsfähigkeit in Szenen mit mehreren Objekten zu ermöglichen. Dies führt zu der ersten Methode, die nachweislich strukturierte, objektzentrierte Repräsentationen lernt. Ich erwarte, dass beide theoretischen Beiträge neue Forschungen zu zuverlässigen und skalierbaren Lernalgorithmen inspirieren werden. Zusammengefast erweitert diese Arbeit unser Verständnis von Algorithmen zum Erlernen neuronaler Repräsentationen und zeigt Wege auf, um sie vertrauenswürdiger zu machen. Während die theoretischen Ergebnisse die Forschung zu neuen, theoretisch fundierteren Algorithmen anregen sollen, werfen die praktischen Werkzeuge mehr Licht auf die Funktionsweise neuronaler Netze und ermöglichen Wege zur Verbesserung ihrer Interpretierbar- und Vertrauenswürdigkeit.

Abstract:

In recent years, neural networks have become omnipresent in computer vision. However, many open questions remain about their functionality and reliability: How do these networks perceive the world? Under what assumptions do they learn to correctly recognize and represent the world? And when do they fail? With Artificial Intelligence (AI) systems being integrated into ever more everyday applications in the real world, there is a pressing need for a trustworthy foundation upon which to base them. This thesis explores possible routes to higher trustworthiness through an enhanced understanding of neural networks. For this, it pursues both a bottom-up and a top-down approach: The bottom-up approach focuses on rendering the internal information processing of specific neural networks understandable to humans. As long as black-box networks' (internal) information processing remains obscure, skepticism about their behavior will persist. I first introduce experimental paradigms to precisely quantify how well humans can interpret the features internally used by neural networks. I continue investigating the (un)reliability of existing interpretability tools. Next, I compare the interpretability of various vision models and show a need for explicitly optimizing for it. Finally, I present work on finding fully automated interpretability measures that alleviate the need for manual human evaluations. Such automated measures have the potential to enable interpretability optimization, resulting in more interpretable models. The top-down approach investigates general machine learning algorithms and how to obtain theoretical guarantees for their learned representations. My strategy is twofold: I begin by working on a better understanding of when and why contrastive learning, a common form of representation learning, works. By connecting contrastive learning with identifiability research, I show that under certain assumptions, contrastive learning inverts the data-generating process. Next, I present work proposing a theoretical framework for analyzing object-centric learning to allow stronger guarantees on the generalization capability in multi-object scenes. This leads to the first method that provably learns structured, object-centric representations. I expect both theoretical contributions to inspire new research on reliable and scalable learning algorithms. In summary, this thesis extends our understanding of neural representation learning algorithms and illuminates paths to make them more trustworthy. While the theoretical results are expected to inspire research on more theoretically grounded representation learning algorithms, the practical tools shed more light on how neural networks work and enable ways to improve their interpretability and traceability.

Das Dokument erscheint in: