Data Lake VS. Data Warehouse

Zwei Konzepte für industrielle Big-Data-Anwendungen, die unterschiedlicher nicht sein könnten.

12
.
Juni 2018
von
Michael Welsch
&

Was ist Big Data?

Bei Big Data geht es um Strategien zur Verarbeitung von Datenmengen, die mit herkömmlichen Computern nicht verarbeitet werden können. Die Datenmengen von Big Data sind zu groß für einen einzelnen Computer. Es handelt sich also um Tera- oder Petabytes an Informationen, die nicht im Zugriff eines einzelnen Computers erfasst werden können. Zur Verarbeitung werden diese Datenmengen daher auf mehrere Prozessoren mit entsprechendem Speicher in einem Rechenzentrum verteilt. Der Einsatz erfordert speziell abgestimmte Algorithmen für die Auswertung, wenn man alle Daten gegen alle anderen Daten "anwenden" will. Eine Data-Lake-Anwendung erfordert eine abgestimmte Server-Infrastruktur; man richtet die Algorithmen nach der Datenmenge aus, nicht andersherum. Man sollte sich aber fragen, ob diese Flexibilität für industrielle Produktionsdaten sinnvoll ist oder man lieber eine klassische Aggregation mit dem Konzept des Data Warehouse bearbeiten sollte.

Warum sollte man überhaupt so viele Daten auf einmal verarbeiten wollen?

Algorithmen in Kombination mit astronomischer Rechenleistung und Speicherkapazität sind zu etwas fähig, was Menschen nicht sind. Menschen sind unübertroffen gut in der Verarbeitung komplexer Informationen und in der Entscheidungsfindung unter Unsicherheit und in Situationen mit fragmentarischen Informationen. Maschinen sind hervorragend in der Verarbeitung gleichförmiger Informationen und können unglaublich viel davon in Sekundenbruchteilen verarbeiten. Die synergetische Kombination beider Welten besteht darin, dass der Mensch sich um die Komplexität einheitlicher Informationen kümmert und dann, dank der Maschinen, mit weniger Unsicherheit entscheidet.

Strategie für den Datensee

Im Zuge der Data-Lake-Strategie werden alle Daten zunächst an einem zentralen Punkt gesammelt. Dieses Konzept bietet sich an, wenn man alle seine bereits vorhandenen Daten in der Anlage nutzen will. Man beauftragt die Umprogrammierung der SPS, so dass sie ihre internen Daten auf dem Bussystem zur Verfügung stellt und erfasst zusätzliche Module, so genannte IoT-Gateways, die diese Daten nun an ein ebenfalls zu erwerbendes oder zu mietendes Rechenzentrum weiterleiten, wo sie, die Daten, in einer entsprechenden Datenbank abgelegt werden. Dort besteht die Herausforderung nun darin, die nicht korrelierenden Daten, die in der Regel 95% ausmachen, herauszufiltern. Dies ist algorithmisch machbar, aber nur mit stark erhöhtem Personalaufwand durch Data-Science-Experten verbunden. Diese wertneutralen 95% der Daten müssen jedoch durch Netzwerk- und Speicherkapazität verrechnet werden. Auch die Löschung dieser Daten muss verwaltet werden. Letztlich wird ein enormer Aufwand betrieben, um aus bereits vorhandenen Daten Profit zu schlagen. Dieser Gewinn steht oft in keinem Verhältnis zum Aufwand einer Datenerfassung. Eine Datenbox bedeutet meist, dass auch eine Datenbank im Einsatz ist. Industrielle Daten sind neben mechanischen Daten in der Regel auch Sensordaten. Eine SQL-Datenbank eignet sich jedoch nur bedingt für die Ablage von massiven Zeitreihen. Auch ein typisches dokumentenorientiertes noSQL-Format ist nicht grundsätzlich besser. Hierfür wird eine spezielle Timeline-Datenbank benötigt, die eine entsprechende API für den Restsee anbieten kann. Eine Data-Lake-Technologie im Speziellen gibt es daher nicht.

Data-Warehouse-Strategie

Im Zuge der Data-Warehouse-Strategie werden die Daten von Warehouse zu Warehouse durch eine Kaskade von Informationen verdichtet bzw. aggregiert. Klassischerweise handelt es sich dabei um betriebliche Kennziffern. In einem Warehouse werden also die einzelnen Umsätze als Gesamtumsatz aggregiert und auch die jeweiligen Anteile dieser Abteilungen werden im nächsten aggregiert und aus diesem Warehouse werden wiederum die aggregierten Zahlen der Tochtergesellschaft an das Management übermittelt. Eine Data Warehouse Kaskade ist energetisch und orientiert sich an der Frage, die aus dem obersten Warehouse gestellt wird. Durch eine Aggregation von Zahlen, Daten und Fakten wird eine Antwort generiert. Falls eine Aggregation auf Basis der im untersten Warehouse vorhandenen Daten nicht möglich ist, wird die Frage an das nächsttiefere weitergegeben. Am Ende müssen eventuell neue Daten beschafft werden. Wenn die gleichen Fragen häufig gestellt werden, werden die Aggregationsprozesse automatisiert. Aggregationen sind also klassischerweise Kopien. Dank moderner IT können Daten auch nahezu in Echtzeit aggregiert oder gestreamt werden. Jedes Warehouse ist für seine eigene Datenqualität verantwortlich und liefert nur sinnvolle Aggregationen. Sammelt ein Warehouse Daten von mehreren anderen und reduziert sie gleichzeitig (durch Aggregation/Feature-Extraktion), verursacht es durch die Umkodierung oder die Aufforderung an die unteren Warehouses, die Daten anders zu beschaffen bzw. bereitzustellen, ebenfalls eine Datenkoexistenz. In diesem Fall liegen die Sensordaten in einer Timeline-Datenbank und werden über eine API z.B. an ein zentrales SQL übermittelt, das speziell dafür modelliert ist.

Und nun?

Sowohl die Implementierung eines Data Lakes als auch der Aufbau eines Data Warehouses sind mit einem hohen Aufwand verbunden. Beiden Konzepten ist gemeinsam, dass die Ausführungsplanung des IoT-Gateways und die IT die entsprechende Server-Infrastruktur bereitstellen müssen. Das Data Lake Konzept erfordert spezielle Data Scientists, Administratoren und Programmierer, die z.B. eine Installation auf einem Hadoop betreiben können. Diese Experten haben aufgrund ihrer Vita oft nicht das richtige Verständnis für die eigentlichen Prozesse und werden sogar von diesen abgeschottet. Dies ist eine schlechte Voraussetzung und fördert nicht die Akzeptanz für dieses Thema. Eine gewisse IT- und Algorithmenkompetenz muss in den jeweiligen Einrichtungen aufgebaut werden. Betrachtet man dies als Chance für eine nachhaltige Digitalisierungsstrategie, muss das Data-Warehouse-Konzept der klare Favorit für den Umgang mit großen industriellen Datenmengen sein.

Folgen Sie mir auf
Wir optimieren nicht nur die Produktionsprozesse, sondern auch unsere Website! Hierfür verwenden wir Tools wie Cookies für Analyse- und Marketingzwecke. Sie können Ihre Cookie-Einstellungen jederzeit ändern. Informationen und Einstellungen