Nutzung der Verzerrung eines Datenraums für Condition Monitoring

Wie kann die Berechnung der Verzerrung von Datenräumen für das maschinelle Lernen genutzt werden?

25
.
Juni 2020
von
Michael Welsch
&

Eine metrische Distanzfunktion entspricht dem kürzesten Weg durch einen Datenraum. Bei einfachen Metriken wird die inhärente Struktur der Daten einfach vernachlässigt. Der euklidische Abstand beispielsweise ergibt immer eine gerade Linie.

Wir wollen nun die Struktur betrachten, die sich aus den Datenpunkten selbst ergibt, und sie nicht einfach ignorieren. Dazu verwenden wir ein Theorem aus der Informationstheorie. Der gesuchte Abstand stimmt lokal mit dem euklidischen Abstand überein. Umgekehrt gilt: Je stärker der euklidische Abstand verzerrt ist, desto weiter sind zwei Datenpunkte voneinander entfernt. Dieses Phänomen ist als Bourgain-Theorem bekannt und entspricht in der Algebra der Annäherung einer Funktion durch eine gerade Linie. In der Nähe der angelegten Tangente ist die Schätzung noch gut, weiter entfernt verursacht die Linearisierung große Abweichungen.

In diesem Zusammenhang folgt, dass ein Datenraum mit beliebiger Metrik immer in einen euklidischen Raum eingebettet werden kann, wenn nur die lokalen Eigenschaften erhalten bleiben sollen. Theoretisch können diese lokalen Eigenschaften fortlaufend addiert werden, um einen globalen Abstand zu bestimmen, der dann näherungsweise dem gesuchten Abstand entspricht, so als ob ein Spline aus kleinen, geraden Abschnitten zusammengesetzt oder das Bogenmaß bestimmt wird.

Da wir nach dem kürzesten Abstand suchen, können wir diesen ermitteln, indem wir zunächst einen KNN-Graphen mit euklidischen Metriken auf den Datenpunkten konstruieren und dann den Dijkstra-Algorithmus verwenden, um den kürzesten Weg durch den Graphen zu finden. Die lokalen Entfernungen werden dann unter Verwendung dieses kürzesten Weges zur globalen Entfernung addiert.
Wir wollen dies jedoch nicht direkt tun, da der Dijkstra-Algorithmus aufgrund seiner hohen Komplexität in der Anzahl der möglichen Datenpunkte sehr begrenzt ist. Daher passen wir zunächst ein Kohonen-Netz oder eine Mannigfaltigkeit in den Datenraum ein. Auf diese Weise können Datensätze von praktisch beliebiger Größe berücksichtigt werden. Der Dijkstra-Kurzweg wird nun unter Verwendung des virtuellen Kohonennetzes anstelle der realen Datenpunkte berechnet.

Bei einer globalen Einbettung sollte noch definiert werden, wie die Datenstruktur genau beeinflusst werden soll.

In dem unten gezeigten Beispielplot führt der kürzeste Weg durch den Bereich der geringsten Dichte, als ob er sich hier besonders schnell bewegen würde, oder umgekehrt, als ob er sich bei hoher Dichte irgendwie stauen würde. Dies kann auch schnell dazu führen, dass ein Raum mit Leere durchquert wird, der aber eigentlich einer Beschränkung unterliegt und deshalb nicht durchdrungen werden sollte. In einem Grenzfall wird also wieder der euklidische Abstand erreicht.

Um das Verfahren robuster zu machen, kann der Datenraum vor Anwendung des Algorithmus für den kürzesten Weg künstlich verdichtet werden.

Eine andere Möglichkeit ist eine physikalisch oder quantenmechanisch motivierte Gewichtung. In Analogie dazu betrachten wir den Weg eines Photons oder Elektrons oder seiner Wahrscheinlichkeitsamplitude von einem Ort zum anderen durch ein Widerstandsnetz oder ein Wahrscheinlichkeitsnetz.

Das Teilchen nimmt nun quasi beliebige Wege, von denen alle zunächst gleich weit entfernt sind. Die Wahrscheinlichkeiten der Laufzeit ähnlicher Wege stabilisieren sich jedoch zu einem Weg, der den effektivsten und damit kürzesten Weg darstellt. Umwege oder weite Wege hingegen heben sich aufgrund ihres symmetrischen Gegenstücks in der Wahrscheinlichkeitsamplitude statistisch auf.

In unendlichen Simulationen einer zufälligen Wanderung von A nach B tritt ein Weg durch die niedrigste (optische) Dichte seltener auf als ein Weg durch die höchste Dichte. Eine hohe Dichte führt zu einem wahrscheinlicheren Weg und eine niedrige Dichte zu einem weniger wahrscheinlichen Weg.

Dieses Phänomen kann (ohne die vielen Random Walks) simuliert werden, indem der KNN-Graph oder das virtuelle Kohonen-Netz mit einem speziellen Algorithmus ausgedünnt wird, so dass die Abstände durch das Netz aus allen Richtungen gleich bleiben. Für jede wegfallende Strecke wird eine andere Strecke hinzugefügt, so dass die Wahrscheinlichkeit entweder in zwei gleich große Verbindungen aufgeteilt oder als ein Teil in einer doppelt so langen Verbindung durchlaufen wird. (2*0.1 -> 1*0.2)

Was bedeuten die Ergebnisse für die Praxis?

Wenn es keine Annahme für eine Metrik gibt, kann der Kohonen-Abstand direkt in einer dieser Versionen verwendet werden. Die Berechnung eines Kohonen-Abstandsmodells ist einfach und die Berechnung von Abständen mit diesen Modellen ist ebenfalls einfach.

Das Verfahren kann auch verwendet werden, um numerisch zu prüfen, wie verzerrt die Annahme einer euklidischen Metrik für einen Datensatz ist. Wenn diese nicht groß ist, kann die euklidische Metrik genauso gut verwendet werden. Die Verzerrung der oben gezeigten Beispiele beträgt 100%, 104%, 113% und 117%.

Die folgenden Abbildungen zeigen Beispiele für die Verzerrung der NRAIA-Datensätze mit unterschiedlicher Anzahl von Dimensionen.

 

     

     

BSB2: Verzerrung geschätztes Ergebnis 2,3%

   

     

     

Chlorid: Verwerfung Schätzung Ergebnis 15%

   

     

     

Blätter: Verzerrung Geschätztes Ergebnis 11%

   

     

     

Lipo: Verzerrung Schätzung Ergebnis 6%

   

     

     

Rumford: Verzerrung geschätztes Ergebnis 3%

   

     

     

Sacch2: Verzerrung Schätzung Ergebnis 8%

   

     

     

PCB: Verzerrung geschätztes Ergebnis 22%

   

     

     

Ethyl: Verzerrung Geschätztes Ergebnis 15%

   

     

     

Schmiermittel: Verzug Geschätztes Ergebnis 16%

   

     

     

Nitrit: Verzerrung Schätzung Ergebnis 15%

   

     

     

Saccharin: Verzerrung geschätztes Ergebnis 3%

   

     

     

Isom: Verzerrung geschätztes Ergebnis 45%

   

     

     

O.xylen: Verzerrung Geschätztes Ergebnis 18%

   

     

     

Ölschiefer: Verzerrung geschätztes Ergebnis 41%

   

     

     

Pinen: Verzerrung Schätzung Ergebnis 8%

   

     

     

Kohle: Verzerrung geschätztes Ergebnis 31%

   

Die Berechnungsverzerrung selbst ist quantitativ und hilft bei der Betrachtung großer Datenmengen, da sie ein Maß für die Nichtlinearität des Datensatzes ist. In dem Beispieldatensatz wurden zur Veranschaulichung 2D-Punkte ausgewählt. Die Methode funktioniert jedoch für numerische Datensätze beliebiger Komplexität, z. B. auch für Bilder. Neben der Schätzung der intrinsischen Dimensionalität(https://panda.technology/en/entropy) hilft die Kenntnis der Nichtlinearität bei der Auswahl eines geeigneten Merkmalskodierers zur Reduzierung der Dimensionalität. Beides sind skalare Eigenschaften eines metrischen Raums. Diese skalaren Werte können verwendet werden, um Datensätze unter Verwendung des Konzepts der metrischen Räume zu vergleichen oder um Veränderungen in einem Raum zu erkennen.

Solche informationstheoretisch motivierten Aggregationen entsprechen in etwa dem Konzept der Entropie oder der kinetischen Energie (oder Temperatur) in der Physik, mit dem sich komplexe Strukturen einfach als Zustände beschreiben lassen.

Dies ist auch der offensichtlichste praktische Fall, die Zustandsüberwachung von beliebig komplexen und unbekannten Datensätzen.

Wenn also eine Bildaufzeichnung oder eine mechanische Schwingung im Laufe der Zeit eine Zunahme der Dimensionalität oder Nichtlinearität aufweist, ist dies ein wichtiges Warnsignal.

Daher kann mit diesem Konzept eine Auto-Condition Monitoring realisiert werden.

Folgen Sie mir auf
Wir optimieren nicht nur die Produktionsprozesse, sondern auch unsere Website! Hierfür verwenden wir Tools wie Cookies für Analyse- und Marketingzwecke. Sie können Ihre Cookie-Einstellungen jederzeit ändern. Informationen und Einstellungen