dc.contributor.advisor |
Kasneci, Gjergji (Prof. Dr.) |
|
dc.contributor.author |
Leemann, Tobias |
|
dc.date.accessioned |
2025-05-16T08:19:45Z |
|
dc.date.available |
2025-05-16T08:19:45Z |
|
dc.date.issued |
2025-05-16 |
|
dc.identifier.uri |
http://hdl.handle.net/10900/165561 |
|
dc.identifier.uri |
http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1655614 |
de_DE |
dc.identifier.uri |
http://dx.doi.org/10.15496/publikation-106889 |
|
dc.description.abstract |
Durch die zunehmende Nutzung datengestützter Modelle zum Treffen risikoreicher Entscheidungen erfährt das Gebiet des vertrauenswürdigen und sozial verantwortlichen maschinellen Lernens (TSRML) erhöhte Aufmerksamkeit in der Wissenschaft. Darüber hinaus werden die Anforderungen an TSRML nach und nach in Vorschriften der Europäischen Union wie der Datenschutzgrundverordnung (GDPR) und dem gerade in Kraft getretenen AI Act festgeschrieben. Diese Verordnungen verlangen eine sorgfältige Prüfung von auf künstlicher Intelligenz (KI) basierenden Systemen hinsichtlich ihrer Erklärbarkeit und dem Schutz der Privatsphäre. Die Verordnungen machen außerdem deutlich, dass Erklärungen menschliche Kontrolle ermöglichen und die Endnutzer schützen sollten und stellen so menschliche Anwender explizit in den Mittelpunkt.
Für einen verantwortungsvollen Einsatz in nutzerorientierten Anwendungen benötigen TSRML-Systeme daher belastbare theoretische Garantien hinsichtlich Erklärbarkeit und Schutz der Privatsphäre, sollten aber trotzdem auf menschliche Nutzer ausgerichtet werden.
Trotz dieser Notwendigkeit kommt es in der Forschung im Bereich des erklärbaren und privatsphäreschützenden maschinellem Lernen häufig zu einer Diskrepanz zwischen grundlegenden theoretischen Arbeiten und nutzerzentrierter Forschung.
Um diese Lücke zu schließen, wird erklärbares und privatsphäreschützendes maschinelle Lernen hier sowohl von einem theoretischen als auch von einem nutzerzentrierten Standpunkt beleuchtet, um Unstimmigkeiten zwischen den beiden Bereichen zu beseitigen.
Im ersten Teil dieser Arbeit wird Erklärbarkeit in Form von konzeptionellen Erklärungen, Erklärungen durch Counterfactuals und Methoden zur Einflussschätzung der Eingangsgrößen betrachtet. Es wird aufgezeigt, wie benutzerfreundliche konzeptionelle Erklärungen unter theoretischen Identifizierbarkeitsproblemen leiden. Im Gegensatz dazu vernachlässigen Erklärungen durch Counterfactuals oft das Erfordernis der menschlichen Aufsicht und der Nutzerperspektive, da sie ein Ausspielen des Systems anstelle einer echten Verbesserung fördern. Zuletzt wird gezeigt wie einige Methoden zur Einflussschätzung theoretisch nicht zu den zugrunde liegenden Vorhersagemodellen, wie z. B. Transformern, passen können.
In dieser Arbeit werden Verbesserungen für diese drei Erklärbarkeitstechniken hergeleitet, um die beiden Perspektiven wieder in Einklang zu bringen. Im zweiten Teil werden Strategien zum Schutz der Privatsphäre beim maschinellen Lernen und ihre Nebeneffekte für die Nutzer untersucht. Es wird gezeigt, wie die Rückgabe der Kontrolle über bestimmte Daten an die Nutzer zu einem Diskriminierungsrisiko führen kann und wie die Nutzung von Schutzmechanismen wie Differential Privacy (DP) zur Folge haben kann, dass die Nutzer übermäßig vielen Fehlentscheidungen ausgesetzt sind. Es werden Strategien zur Entschärfung dieser beiden Probleme vorgeschlagen, die zeigen, dass der Schutz der Privatssphäre oft ohne signifikante Auswirkungen auf die Vorhersagequalität möglich ist.
Die im Rahmen dieser Arbeit gewonnenen Ergebnisse deuten darauf hin, dass es notwendig ist, theoretische und nutzerzentrierte Perspektiven gleichwertig und gemeinsam zu betrachten, und dass es oft praktikable Lösungen gibt, um die beiden Perspektiven wieder miteinander in Einklang zu bringen. Abschließend wird erörtert, wie Strategien zu Erklärbarkeit und Privatssphärechutz kombiniert werden können. Es werden die Verbindungen zwischen beiden Bereichen betrachtet und verbleibende Hindernisse auf dem Weg zur praktischen Umsetzung von TSRML aufgezeigt. |
de_DE |
dc.description.abstract |
With data-driven applications increasingly deployed in high-stakes scenarios, the importance of trustworthy and socially responsible machine learning (TSRML) has been recognized and gained substantial research attention. Moreover, TSRML requirements are successively mandated by recent regulations such as the European Union’s General Data Protection Regulation and the Artificial Intelligence (AI) Act. Most prominently, these regulations require careful consideration of explainability and privacy aspects of AI systems. They also make clear that explanations should allow human oversight and protect end users, taking a human-centric perspective. For accountable deployment in user-facing applications, TSRML systems therefore need theoretical guarantees regarding interpretability and privacy, but should be designed around human users. Despite this necessity, we find that the fields of interpretable and private machine learning suffer from a disconnect between foundational theoretical work and user-centered research in practice. To tackle this gap, we explore interpretable and private machine learning from both a theoretical and user-centric viewpoint with the goal of reconciling common misalignments between the two. In the first part of this thesis, we study interpretability through conceptual explanations, counterfactual explanations, and feature attribution methods. We outline how user-friendly conceptual explanations suffer from theoretical identifiability issues and counterfactual explanations often neglect the requirement for human oversight and the user perspective as they incentivize adversarial actions over real improvements. Finally, popular feature attributions can be theoretically misaligned with underlying predictive models such as transformers. We propose rigorous techniques to reconcile both perspectives for these three explainability techniques. In the second part, we study computational strategies to protect privacy in machine learning and their side effects on users. We show how handing back control over specific features to the users results in a discrimination risk and how implementing privacy notions such as differential privacy (DP) may result in users being subjected to excessively noisy decisions. We propose strategies to mitigate the two issues, showing that privacy guarantees are often possible without significant impact on predictive performance. Our findings suggest that it is necessary to consider theoretical and user-centric perspectives in conjunction and that tractable tools to reconcile both perspectives often exist. To conclude, we discuss how interpretability and privacy can be combined, explore connections between the two, and outline remaining steps towards practical implementations of TSRML. |
en |
dc.language.iso |
en |
de_DE |
dc.publisher |
Universität Tübingen |
de_DE |
dc.rights |
ubt-podno |
de_DE |
dc.rights.uri |
http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de |
de_DE |
dc.rights.uri |
http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en |
en |
dc.subject.classification |
Maschinelles Lernen |
de_DE |
dc.subject.ddc |
004 |
de_DE |
dc.subject.other |
Erklärbare Künstliche Intelligenz |
de_DE |
dc.subject.other |
Explainable Artificial Intelligence |
en |
dc.subject.other |
Data Privacy |
en |
dc.subject.other |
Trustworthy Machine Learning |
en |
dc.title |
Interpretability and Privacy for Trustworthy Machine Learning: Bridging Theoretical and User-Centric Perspectives |
en |
dc.type |
PhDThesis |
de_DE |
dcterms.dateAccepted |
2025-03-27 |
|
utue.publikation.fachbereich |
Informatik |
de_DE |
utue.publikation.fakultaet |
7 Mathematisch-Naturwissenschaftliche Fakultät |
de_DE |
utue.publikation.noppn |
yes |
de_DE |