Towards Efficient Black-Box Robustness Evaluation and Certifying Robustness against Adversarial Patch Attacks

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://hdl.handle.net/10900/163764
http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1637642
http://dx.doi.org/10.15496/publikation-105094
Dokumentart: Dissertation
Erscheinungsdatum: 2025-04-02
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Hein, Matthias (Prof. Dr.)
Tag der mündl. Prüfung: 2025-01-23
DDC-Klassifikation: 004 - Informatik
Schlagworte: Maschinelles Lernen
Freie Schlagwörter:
Adversarial robustness
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en
Zur Langanzeige

Inhaltszusammenfassung:

Deep Learning ist ein entstehender Bereich der künstlichen Intelligenz, der bereits unzählige industrielle und gesellschaftliche Aspekte der modernen Welt revolutioniert hat. Trotz seiner beeindruckenden Ergebnisse hat der Bereich des Deep Learnings noch viele ungelöste Probleme, und die besorgniserregendsten beziehen sich auf seine Robustheit, Vertrauenswürdigkeit und Sicherheit. Zeitgenössische Deep Learning Modelle haben sich durchweg als anfällig für gegnerisch gestaltete Störungen der Eingabe wie unmerkliches Rauschen oder ein kleiner Patch erwiesen. In dieser Dissertation befassen wir uns mit den Problemen der Bewertung und Verbesserung der Robustheit von Deep Learning. Wir schlagen einen Ansatz vor, den wir Meta Square Attack nennen, um die Suchverteilung von Black-Box-Zufallssuche-basierten gegnerischen Angriffen auf Deep-Learning-Modelle zu meta-lernen, um die Bewertung der Black-Box-Robustheit zu verbessern. Wir untersuchen zertifizierte Abwehrmaßnahmen gegen gegnerische Patch-Angriffe, die eine garantierte Untergrenze für die Robustheit des Modells in diesem Bedrohungsmodell bieten. Wir schlagen BagCert vor, das ein durchgängiges Training und eine effiziente Zertifizierung der Klassifikationsmodelle ermöglicht. Wir schlagen auch einen auf Inpainting basierenden Ansatz namens Demasked Smoothing vor, der die erste Methode ist, um die Robustheit semantischer Segmentierungsmodelle gegenüber gegnerischen Patches zu zertifizieren. Demasked Smoothing kann mit willkürlichen Segmentierungsmodellen arbeiten und erfordert kein zusätzliches Training.

Abstract:

Deep Learning is an emerging field of Artificial Intelligence that has already revolutionized countless industrial and societal aspects of the modern world. Despite its impressive results, Deep Learning field still has a lot of unsolved problems and the most worrisome ones are related to its robustness, trustworthiness and safety. Contemporary Deep Learning models are consistently demonstrated to be vulnerable to adversarially crafted perturbations of the input such as imperceptible noise or small patches. In this thesis, we address the problems of evaluating and improving Deep Learning robustness. We propose an approach that we call Meta Square Attack to meta-learn the search distribution of black-box random search based adversarial attacks on Deep Learning models to improve the evaluation of black-box robustness. We study certified defences against adversarial patch attacks that provide a guaranteed lower bound on the model robustness in this threat model. We propose BagCert that allows end-to-end training and efficient certification of the classification models. We also propose an inpainting-based approach called Demasked Smoothing which is the first method to certify the robustness of semantic segmentation models against adversarial patches. Demasked Smoothing can work with arbitrary segmentation models and requires no additional training.

Das Dokument erscheint in: