Abstract: Das maschinelle Lernen hat seinen Erfolg bei verschiedenen Problemen in vielen unterschiedlichen Bereichen bewiesen. Verschiedene Algorithmen für maschinelles Lernen verwenden unterschiedliche Ansätze, um die zugrunde liegenden Muster in den Daten zu erfassen. Auch wenn die Menge der Daten bei den verschiedenen Algorithmen für maschinelles Lernen unterschiedlich ist, benötigen sie doch eine ausreichende Menge an Daten, um diese Muster zu erkennen. Eine der einfachsten Möglichkeiten, diesen Bedarf der Algorithmen für maschinelles Lernen zu decken, ist die Verwendung mehrerer Quellen, die die gleiche Art von Daten erzeugen. Eine solche Lösung ist machbar, wenn man bedenkt, dass die Geschwindigkeit der Datengenerierung und die Anzahl der Quellen, die diese Daten generieren, parallel zu den Entwicklungen in der Technologie gestiegen sind. Der Wunsch der Algorithmen des maschinellen Lernens nach Daten kann mit Hilfe dieser Quellen leicht erfüllt werden. Dies kann jedoch zu einer Beeinträchtigung der Privatsphäre führen. Die von diesen Quellen erzeugten Daten können sensible Informationen enthalten, die für unerwünschte Zwecke verwendet werden können. Obwohl die Algorithmen für maschinelles Lernen Daten benötigen, sind die Quellen daher möglicherweise nicht bereit, ihre Daten weiterzugeben. Ein ähnliches Dilemma tritt auf, wenn der/die Dateneigentümer*in mit Hilfe von Algorithmen für maschinelles Lernen nützliche Informationen aus den Daten extrahieren möchte, aber nicht über genügend Rechenleistung oder Wissen verfügt. In diesem Fall kann diese Aufgabe möglicherweise an externe Parteien ausgelagert werden, die Algorithmen für maschinelles Lernen als Dienstleistung anbieten. Auch in diesem Fall können die sensiblen Informationen in den Daten der entscheidende Faktor für den/die Eigentümer*in sein, sich nicht für eine Auslagerung zu entscheiden, was dann dazu führt, dass die Daten für den/die Eigentümer*in nicht genutzt werden. Um diese Art von Dilemmata und Problemen anzugehen, zielt diese Arbeit darauf ab, eine vollständige Pipeline für maschinelles Lernen unter Wahrung der Privatsphäre zu entwickeln. Es werden mehrere Studien vorgestellt, die sich mit verschiedenen Phasen der Pipeline befassen, so dass alle Phasen eines Algorithmus für maschinelles Lernen unter Wahrung der Privatsphäre durchgeführt werden können. Eine dieser Phasen, die in dieser Arbeit behandelt wird, ist das Training eines maschinellen Lernalgorithmus. Das Training von kernbasierten maschinellen Lernalgorithmen unter Wahrung der Privatsphäre wird in verschiedenen Arbeiten mit unterschiedlichen kryptographischen Techniken behandelt, von denen eine ein von aus entwickeltes neuartiges Verschlüsselungsverfahren ist. Diese haben jeweils unterschiedliche Vorteile gegenüber den anderen. Darüber hinaus werden in dieser Arbeit Studien vorgestellt, die sich mit der Testphase nicht nur kernelbasierter maschineller Lernalgorithmen befassen, sondern auch mit einem speziellen Typ rekurrenter neuronaler Netze, nämlich den rekurrenten Kernnetzen, das die erste Studie ist, die eine solche Inferenz durchführt, ohne die Privatsphäre zu gefährden. Um eine datenschutzkonforme Inferenz auf rekurrenten Kernnetzen zu ermöglichen, wird in dieser Arbeit ein Framework mit dem Namen CECILIA eingeführt, das zwei neuartige Funktionen enthält, nämlich die Exponentialfunktion und die inverse Quadratwurzel der Gram-Matrix, sowie effiziente Versionen etablierter Funktionen, Multiplexer und least significant bit. Unter Verwendung dieses Frameworks und anderer Ansätze in den entsprechenden Studien ist es möglich, datenschutzkonforme Inferenzen für verschiedene vortrainierte Algorithmen des maschinellen Lernens durchzuführen. Neben dem Training und Testen von maschinellen Lernalgorithmen unter Wahrung der Privatsphäre wird in dieser Arbeit auch eine Studie vorgestellt, die darauf abzielt, die Leistung von maschinellen Lernalgorithmen zu bewerten, ohne die Privatsphäre zu gefährden. In dieser Arbeit wird CECILIA eingesetzt, um die Berechnung der Fläche unter der Kurve für zwei verschiedene kurrenbasierte Auswertungen, nämlich die Receiver-Operating-Characteristic-Kurve und die Precision-Recall-Kurve, auf eine datenschutzfreundliche Weise zu realisieren. Alle vorgeschlagenen Ansätze werden anhand verschiedener Aufgaben des maschinellen Lernens auf ihre Korrektheit geprüft und auf ihre Skalierbarkeit mit den Parametern des entsprechenden Systems/Algorithmus unter Verwendung synthetischer Daten untersucht. Die Ergebnisse zeigen, dass das Training und Testen von kernbasierten maschinellen Lernalgorithmen unter Wahrung der Privatsphäre mit verschiedenen Einstellungen möglich ist und, dass die Inferenz mit einem vortrainierten rekurrenten Kernnetzwerk unter Verwendung von CECILIA möglich ist. Darüber hinaus ermöglicht CECILIA auch die exakte Berechnung der Fläche unter der Kurve, um die Leistung eines maschinellen Lernalgorithmus zu bewerten, ohne die Privatsphäre zu beeinträchtigen.
0 Replies
Loading