Data Lake

Wo liegen Ihre Daten?

Sie haben die unterschiedlichsten Daten, z. B.

Verkaufszahlen
Lagerdaten
Kundendaten
Internet-Besucherdaten
Marktdaten

Sie liegen in den unterschiedlichsten System

Datenbanken
Data Warehouses
ERP-Systemen
Shop-Systemen
Files

Wahrscheinlich haben Sie mehrere System in diesen Gruppen in Einsatz. Damit stehen Sie vor einem massiven Schnittstellenproblem. Die Lösung lautet Daten Integration.

Wie integriere ich meine Daten?

Sie haben jetzt die Möglichkeit, Schnittstellen zwischen all diesen Systemen zu programmieren, oder zumindest diejenigen, die am wichtigten erscheinen. Dann haben Sie jedoch ein vielschichtiges Maintenance-Problem, da das Update einen Systems, Updates an mehreren Schnittstellen nach sich zieht. Ein weiteres Problem ist dabei, dass die Schnittstellen Kenntnisse in beiden System erfordert, zwischen denen die Schnittstelle implementiert werden soll. Oft werden diese Systeme von unterschiedlichen Abteilungen betreut. Damit müssen viele Abteilungen mit vielen anderen Abteilungen zusammen arbeiten. Es stellt sich die Frage, ob das entstehende System flexibel und schnell anpassbar ist...

Eine andere Möglichkeit ist, sich für ein System zu entscheiden und diese sternförmig in den Mitte zu setzen, so dass jedes System nur Schnittstellen zu diesem einen System zur Verfügung stellen muss. Die große Frage dabei ist, welches System dies leisten kann. Es muss leicht integrierbar sein und sehr flexibel, um alle System abbilden zu können. Daneben sollten die Lizenzkosten betrachtet werden, da dieses neue System auch budgetiert werden muss.

Viele Unternehmen starten zur Lösung dieses Dilemmas gerade ein Data Lake Projekt.

Was ist ein Data Lake?

Ein Data Lake ist eine Methode, um alle Daten eines Unternehmens zu speichern. Die Daten können dabei strukturiert sein (Relationale Datenbanken oder Data Warenhouses), semi-strukturiert (CSV, logs, XML, JSON) oder nicht strukturiert (Emails, Dokumente oder PDFs).

Ein Data Lake kann mit Hadoop (HDFS) implementiert werden. Die Legacy-Systeme werden dann mittels Frameworks wie Flume oder Kafka angebunden