Skalierung der SVDD für große Datenmengen: Unterschied zwischen den Versionen

Aktuelle Version vom 17. November 2020, 18:50 Uhr

Vortragende(r)	Benjamin Acar
Vortragstyp	Proposal
Betreuer(in)	Adrian Englhardt
Termin	Fr 20. November 2020, 11:30
Vortragssprache
Vortragsmodus
Kurzfassung	Ausreißerkennung beschäftigt sich damit, ungewöhnliche Beobachtungen in Daten zu finden. Weit verbreitet ist dabei der Einsatz von maschinellen Lernverfahren, wie beispielsweise des 1-Klassen Klassifikators „Support Vector Data Description“ (SVDD). Ein Problem des SVDD Klassifikators ist allerdings, dass SVDD schlecht mit steigender Anzahl an Beobachtungen skaliert. Vorausgehende Arbeiten zeigen, dass während des Trainings einer SVDD nicht alle Objekte des Datensatzes benötigt werden. Es zeigt sich hierbei, dass vor allem jene, die sich am Rand der Verteilung befinden, von Interesse sind. Welche Objekte genau gewählt werden sollten und wie sich eine solche Reduktion letztlich auf die Qualität des Ergebnisses auswirkt, wird in den vorausgehenden Arbeiten bislang ausschließlich auf heuristischer Ebene behandelt. In dieser Arbeit entwickeln wir einen neuen Ansatz, um SVDD schneller zu trainieren. Wir geben dabei konkrete, analytisch berechnete Fehlerschranken an und ermöglichen es somit dem Nutzer, den Kompromiss zwischen Laufzeit und Ergebnis-Qualität selbst zu adjustieren.

@@ Zeile 5: / Zeile 5: @@
 |betreuer=Adrian Englhardt
 |termin=Institutsseminar/2020-11-20
-|kurzfassung=„Support Vector Data Description“  (SVDD) ist ein gängiges Verfahren, welches im Rahmen der 1-Klassen-Klassifikatoren Anwendung findet.  Einer der Vorteile der SVDD liegt darin, dass sie in manchem Kontext effizienter arbeitet als bspw. die verwandte Methode der „Support Vector Machines“ (SVM).  Vorausgehende Arbeiten zeigten, dass für eine optimale Anwendung der SVDD nicht alle Observationen des Datensatzes benötigt werden. Es zeigte sich hierbei, dass vor allem jene, die sich am Rand der Verteilung befinden, von Interesse sind. Die Anzahl der Observationen lässt sich dabei auf unterschiedlichste Weise reduzieren, so bspw. mittels hierarchischer Methoden oder aber Kernel-Approximationen. Da in der Praxis eine Reduktion der Observationen eine Skalierung der SVDD für große Datensätze ermöglicht, liegt der Fokus der Arbeit auf der Suche nach einer solchen geeigneten Methode, die die Anzahl der Observationen reduziert ohne gleichzeitig signifikante Einbußen in der Präzision des Klassifikators zu zeigen. Darauf aufbauend soll der Trade-Off zwischen der Präzision des Klassifikators und der Anzahl der Observationen quantitativ beschrieben werden.
+|kurzfassung=Ausreißerkennung beschäftigt sich damit, ungewöhnliche Beobachtungen in Daten zu finden. Weit verbreitet ist dabei der Einsatz von maschinellen Lernverfahren, wie beispielsweise des 1-Klassen Klassifikators „Support Vector Data Description“ (SVDD). Ein Problem des SVDD Klassifikators ist allerdings, dass SVDD schlecht mit steigender Anzahl an Beobachtungen skaliert. Vorausgehende Arbeiten zeigen, dass während des Trainings einer SVDD nicht alle Objekte des Datensatzes benötigt werden. Es zeigt sich hierbei, dass vor allem jene, die sich am Rand der Verteilung befinden, von Interesse sind. Welche Objekte genau gewählt werden sollten und wie sich eine solche Reduktion letztlich auf die Qualität des Ergebnisses auswirkt, wird in den vorausgehenden Arbeiten bislang ausschließlich auf heuristischer Ebene behandelt. In dieser Arbeit entwickeln wir einen neuen Ansatz, um SVDD schneller zu trainieren. Wir geben dabei konkrete, analytisch berechnete Fehlerschranken an und ermöglichen es somit dem Nutzer, den Kompromiss zwischen Laufzeit und Ergebnis-Qualität selbst zu adjustieren.
 }}