Verwendung der Entropie eines Datenraums zum Nachweis der Prozessfähigkeit

Eines der unbekanntesten Geheimnisse der Datenwissenschaft: die Entropie eines Datenraums

12
.
Juni 2020
von
Michael Welsch
&

Das Konzept der Entropie eines Datenraums kann als informationstheoretische Grundlage des SixSigma-Konzepts zum Nachweis der Prozessfähigkeit betrachtet werden und stellt eine Verallgemeinerung dieses Konzepts für beliebig komplexe Daten dar. Die Mathematik der metrischen Räume, die wir in unserem Open Source Framework METRIC zur Verfügung stellen, macht dies möglich. Mathematisch basiert die Berechnung der metrischen Entropie auf einer mehrdimensionalen Gauß-Integration über einen Nachbarschaftsgraphen des jeweiligen metrischen Raums.

Betrachten wir die metrische Entropie als ein Maß für ein Bewegungsmuster, das sich mit zunehmender Größe in Richtung mehr Vielfalt verändert.

Ein Muster dient dazu, einzelne Beobachtungen in einen Zusammenhang zu bringen. Eine Person mit Armen, Beinen, Rumpf und Kopf bleibt eine einzelne Person, egal in welcher Körperhaltung sie sich befindet. Jede Körperhaltung entspricht einer Beobachtung, z. B. in Form eines Fotos. Das Muster ist die Regelmäßigkeit, die diese verschiedenen Fotos miteinander verbindet.

Ein Muster ist untrennbar mit einer Sammlung von Beobachtungen verbunden, aber nicht mit einer zeitlichen Abfolge. Jede Beobachtung steht für sich allein. Wir können alle Fotos eines Videos mischen. Bei der Berechnung der Entropie wird die kontinuierliche Beziehung automatisch durch einen Graphen hergestellt. Sie ist keine Bedingung und schon gar keine Notwendigkeit für die Mustererkennung.

Dies wird deutlich, wenn man die Entropie in der statistischen Physik betrachtet, denn hier gilt das gleiche Prinzip.

Die Temperatur eines Moleküls ist proportional zur kinetischen Energie, die wiederum ein Maß für die Skala ist, in der die Möglichkeiten des molekularen Zustands auftreten, aber nicht, welche Zustände strukturell auftreten. Diese Summe der Zustände wird durch die Entropie beschrieben. Einem Eiswürfel bei 0°C kann thermische Energie zugeführt werden, ohne dass sich die Temperatur ändert. Dabei wird Entropie übertragen, bis schließlich der Aggregatzustand des Eiswürfels kippt und die Moleküle in Form von Flüssigkeit mehr Bewegungsfreiheit haben. Erst nachdem diese neuen, strukturellen Möglichkeiten geschaffen wurden, steigt die Temperatur bzw. die kinetische Energie weiter an.

Anstatt zu untersuchen, ob und wann ein Muster von der Trajektorie durchlaufen wird (z. B. eine komplexe Schwingung im Raum), ordnet man jedem Muster eine Wahrscheinlichkeit zu, beobachtet zu werden. Ein Sinus wird also nicht als kontinuierliche Funktion beobachtet, sondern als eine lose Ansammlung von Einzelwerten. Dabei spielt es keine Rolle, in welcher Phase sich der Sinus gerade befindet.

Die Entropie ist ein Maß für die Anzahl der möglichen Beobachtungen und damit ein Maß für das Muster selbst. Die metrische oder differentielle Entropie ist mit der intrinsischen Dimension verbunden. Genauer gesagt, ist die Entropie der Logarithmus der Länge einer Trajektorie durch den Datenraum. Da wir jedoch nicht von genau einer solchen Trajektorie ausgehen, ist eine Umrechnung im Prinzip nicht möglich, und die Entropie ist das viel allgemeinere Maß.

Die folgende Animation zeigt für verschiedene Beispieldatensätze die berechnete metrische (oder differentielle) Entropie für einen geometrischen Datensatz.

Abbildung 1: Abhängigkeit der differentiellen Entropie von der intrinsischen Dimensionalität
Abbildung 1: Abhängigkeit der differentiellen Entropie von der intrinsischen Dimensionalität

Die Entropie steigt mit zunehmender Anzahl von Freiheitsgraden oder möglichen Aufenthaltsorten oder der Vielfalt der Beobachtungen.

Die Entropie ist eine extrinsische Größe und hängt daher von der Skalierung der Daten ab. Änderungen der Skalierung wirken sich also direkt auf die Entropie aus. Um zwei Datenräume anhand der metrischen Entropie zu vergleichen, sollten die Datenräume daher normalisiert werden. Eine weitere Besonderheit ist, dass die kleinste differentielle Entropie nicht gegen Null, sondern gegen minus unendlich geht, so dass die Entropie auch negative Werte annehmen kann.

Vergleichen wir nun die Entropie des MNIST-Datensatzes. Die Ziffer 1 hat bei weitem die geringste Entropie, gefolgt von der Ziffer 7. Die anderen Ziffern haben eine vergleichbare Entropie.

Abbildung 2: Entropie der Ziffern im MNIST-Datensatz.

Wie kann dieses Wissen nun in der Praxis angewendet werden?

Einfach ausgedrückt: Sie wollen nicht, dass Ihr Produktionsprozess scheinbar spontan seinen Aggregatzustand ändert.

Auch wenn ein Prozess makroskopisch gleich zu sein scheint (wie die Temperatur des Eiswürfels), ist es sehr wahrscheinlich, dass es bereits eine kontinuierliche Zunahme der Entropie gibt, die das System irgendwann spontan kollabieren lässt. Dass die Entropie kontinuierlich zunimmt, ist nicht nur eine theoretische Möglichkeit. Nehmen wir an, dass dieser Anstieg in der Praxis immer stattfindet. Ein System wie eine automatisierte Anlage, die ohne äußere Einwirkung steht, entwickelt sich immer in einen Zustand höchster Entropie. Eine Streuung entwickelt sich immer in Richtung der Normalverteilung, da dies der Zustand mit der höchsten Entropie aller Verteilungen (zumindest der unbegrenzten) ist. Ein solcher Prozess ist schließlich im Gleichgewicht. Mit anderen Worten, er ist stabil.

Eine Produktionsmaschine ist jedoch nicht von der Umwelt abgeschottet, so dass die Entropie und damit das Gleichgewicht ständig von außen beeinflusst wird und sich immer wieder ein neues Gleichgewicht mit höherer Entropie einstellt. Das bedeutet eine größere Streuung. Wenn man den Prozess neu justiert, entzieht man dem System wieder Entropie.

Die unvermeidliche Zunahme der Entropie ist der Grund, warum Maschinen regelmäßig gewartet und nachjustiert werden müssen, denn dass Ihre Maschine von selbst ein besserer Prozess wird, ist möglich, aber etwa so wahrscheinlich wie ein Stein, der aufgrund lokaler Druckunterschiede in der Luft plötzlich nach oben schwebt.

Die Entropie des Datenraums kann ideal zur Analyse, Verifizierung und Überwachung der Prozessfähigkeit genutzt werden. Durch die kontinuierliche Auswertung von Beobachtungen mit Hilfe von Sensoren kann ein Anstieg der Entropie ermittelt und überwacht werden. Mit diesem Konzept lässt sich eine völlig neue Ebene für die Zustandsüberwachung oder eine vorausschauende Wartungsanwendung erreichen. Darüber hinaus ist die metrische Entropie ein entscheidender Baustein für die Schaffung eines autonomen Prozesses, da die Berechnung für jeden Datentyp und Prozess funktioniert und ein ideales Ziel für eine automatisierte Optimierung darstellt.

Folgen Sie mir auf
Wir optimieren nicht nur die Produktionsprozesse, sondern auch unsere Website! Hierfür verwenden wir Tools wie Cookies für Analyse- und Marketingzwecke. Sie können Ihre Cookie-Einstellungen jederzeit ändern. Informationen und Einstellungen