Zuerst die schlechte Nachricht. Es gibt weder eine Definition noch eine anerkannte Berechnungsmethode, um eine Anomalie in einem Datensatz zu erkennen. Weder die Informationstheorie noch die Statistik haben dafür eine wissenschaftliche Theorie. In der Messtechnik oder der Experimentalphysik gibt es den Messfehler, der auftritt, wenn ein Ereignis von außen die Beobachtung beeinflusst, obwohl die Beobachtung eigentlich systematisch von der Außenwelt isoliert sein sollte. Hier geht man davon aus, dass die Reproduzierbarkeit durch einen unbekannten und nicht isolierten Einfluss von außen nicht gewährleistet war. Dies könnte z.B. ein Fehler in der Elektronik zur Datenaufzeichnung selbst sein. Im Verdachtsfall wird der Versuchsaufbau überprüft, die Messreihe wiederholt und die Anomalie verschwindet dabei.
Eine Anomalie ist ein Hinweis darauf, dass es einen unbekannten und missverstandenen Einfluss auf eine Beobachtungsreihe gibt oder dass eine Beobachtung aufgetreten ist, die im Zusammenhang mit den vorherigen Beobachtungen nicht erwartet wurde. Die Anomalie liegt außerhalb der Möglichkeiten der internen Variation der Beobachtungen. Daher wird der Begriff Ausreißer auch als Synonym für eine Anomalie verwendet, so als ob sie sich einfach aus der zugrunde liegenden Struktur gelöst hätte und frei wäre.
Auch wenn es keine wissenschaftliche Definition gibt, wird unter einer Anomalie in der Regel eine selten auftretende, signifikant vom Rest der Statistik abweichende Beobachtung verstanden - als ob für einen Moment das Prinzip der Statistik außer Kraft gesetzt werden könnte, indem man den vermeintlichen Datensatz aus der Statistik herausnimmt, ihn einzigartig macht und mit der Statistik vergleicht, aus der er tatsächlich stammt.
Die folgenden drei Abbildungen zeigen Beispiele für verschiedene Messreihen, bei denen die Anomalien rot eingefärbt und deutlich sichtbar sind.
Eine Anomalie ist ein Warnsignal in der menschlichen Sinneswahrnehmung. Der Mensch hat eine intuitive Vorstellung davon, ob eine Beobachtung zu einem Muster passt oder nicht. Jede Beobachtung wird mit etwas Vertrautem abgeglichen. Wenn dies nicht möglich ist, werden alle Sinne geschärft. Es besteht Grund zu der Annahme, dass eine Gefahr droht. So nimmt eine Person beispielsweise den plötzlichen Temperatursprung in Abbildung 2 sowie die kleinen konstanten Schwankungen im EKG in Abbildung 3 unwillkürlich als anormale Beobachtung wahr.
Mit anderen Worten: Wenn Sie einen Algorithmus zur Erkennung einer Anomalie entwickeln, müssen Sie dann das intuitive menschliche Verständnis so genau wie möglich nachbilden?
Erstens kann der Mensch das nicht für einzelne Werte tun, weil er die Welt nicht in eindimensionalen Daten erfasst. Der Mensch kann dies für komplexe Daten wie visuelle, akustische oder haptische Reize tun.
Und auch das ist eine verblüffende Erkenntnis. Anomalien sind in komplexen Daten leichter zu erkennen als in stark vereinfachten Daten.
Intuitiv wird zwischen extremen Beobachtungen und Ausreißern unterschieden. Bei einfachen Daten liegen die Anomalien jedoch auf der gleichen Achse wie die extremen Beobachtungen. In der multidimensionalen Betrachtung kann ein Extremereignis als eine Beobachtung in der Verlängerung eines Pfades betrachtet werden, während eine Anomalie auf keinem bekannten Pfad oder zwischen bekannten Pfaden liegt.
Daher wird ein Verfahren benötigt, das berechnet, ob eine Beobachtung auf einem Pfad oder, allgemeiner ausgedrückt, auf einer Mannigfaltigkeit liegt oder nicht. Hier kommt das Feature Encoding ins Spiel, das zunächst die Pfade in mehrdimensionalen Daten berechnet. Pfade können auch als eine Freiheitslinie der Variation in den Daten verstanden werden, die gegenseitigen Beschränkungen unterworfen sind.
Im METRIC-Rahmen stellen wir zwei Algorithmen zur Verfügung, die zunächst die Pfade oder Verteiler hinter den Daten bestimmen und dann prüfen, welche Beobachtungen anomal sind und nicht nur extrem weit von ihnen entfernt.
(1) Inverses Diffusions-Mapping:
In einem pseudo-euklidischen Raum kann man einen Diffusionsprozess modellieren, bei dem sich Werte in den verschiedenen Dimensionen gegenseitig modellieren und dieser Prozess dazu führt, dass sich ein Pfad mit jedem Iterationsschritt zu einem verrauschten Pfad auffächert. Wenn man diesen Diffusionsprozess mathematisch umkehrt, zwingt man den verrauschten Datenraum dazu, in einzelne Pfade zu kollabieren, die schließlich - wenn man es übertreibt - in einzelne Punkte kollabieren. Egal, wie weit man es treibt, man kann überprüfen, welche Beobachtungen am weitesten von den berechneten Pfaden und Punkten entfernt sind. Außerdem zeigt ein Diffusionsprozess eine bestimmte statistische Verteilung der Diffusionspfade und auch der invertierten Pfade, so dass diese Verteilung zur weiteren Interpretation verwendet werden kann, indem man den Abstand der ursprünglichen verrauschten Datenpunkte zum entrauschten Pfad misst und alles außerhalb der erwarteten Statistik als Anomalie markiert. Die folgenden drei Abbildungen veranschaulichen diesen Prozess (die roten Punkte stellen Anomalien dar)
(2) Kohonen-Ausreißer-Clustering:
Eine weitere Alternative ist die Annäherung an einen mehrdimensionalen Datensatz durch einen lokalen euklidischen Graphen, z. B. ein 2D-Stadtblockgitter. In diesem Fall werden die optimierten Knoten des Kohärenznetzes geclustert, und die Daten werden daraufhin überprüft, zu welchem Cluster sie gehören. Befindet sich nun ein Datensatz außerhalb des Rasters, wird die Statistik der Abstände innerhalb des jeweiligen Clusters bzw. der Dichte ermittelt und durch Triangulation potentielle Ausreißer identifiziert, die statistisch nicht in eine definierte Dichte passen.
Das Kohonen-Ausreißer-Clustering geht dann wie folgt vor:
Abbildung 4 zeigt die Erkennung von Anomalien anhand täglicher Kurven von Taxidermiedaten aus NYC mit recherchierten Ereignissen.
Bei der einen Methode werden die Daten für einen Verteiler optimiert, bei der anderen wird ein Verteiler für die Daten optimiert. Die Ergebnisse sind sehr ähnlich. Für beide Methoden (Reverse Diffusion Mapping und Kohonen Outlier Clustering) kann eine Rangfolge der am weitesten vom nächstbesten Pfad entfernten Datenpunkte berechnet werden.
Die folgenden Abbildungen zeigen die Anwendung der Algorithmen auf Bilddaten. Die Anomalien wurden automatisch ermittelt, ohne dass ein Mensch dem Algorithmus beibringen musste, was eine Anomalie ist.
Die Antwort auf die anfängliche Frage, ob die Erkennung von Anomalien ein spezielles Training benötigt, um der menschlichen Wahrnehmung von Anomalien zu entsprechen, lautet nein. Die Methoden sind objektiv und rein informationstheoretisch motiviert. Der Mensch hat einfach ein intuitiv erstaunlich gutes Gespür für Anomalien.