Daten sind unsere Leidenschaft!

Extract – Transform – Load – Ein typisches ETL-Projekt

Wie sieht denn nun ein typisches ETL-Projekt aus?

Die Begriffsdefinition.

ETL steht für „Extract, Transform, Load“, also den Grundschritten um Daten von A nach B zu laden. Jedes Projekt hat zwar seine Eigenheiten, aber es gibt doch immer wieder auch gemeinsame Elemente.

Hier nun die Skizzierung eines Projektes, welches ich betreue und welches den Microsoft SQL Server 2008R2 verwendet. Für die Abarbeitung der Schritte bei der Beladung und Weiterverarbeitung kommen die Microsoft SQL Server Integration Services (SSIS) zur Anwendung.

Beginnen wir mit den Datenquellen.

Der MS-SQL Server kann, wie zu erwarten, von Haus aus auf andere MS-SQL-Server, auf  Access-Datenbanken und auch auf Excel-Dateien zugreifen. Bei den Excel-Daten sollte allerdings der Aufbau der Tabellen sichergestellt sein. Dies erleichtert den Import deutlich!

Bleibt SAP als Quelle. Für den SQL-Server 2005 gab es von Microsoft einen Datenprovider für SAP. Dieser wurde nicht mehr weitergeführt, so dass nun mit der Migration auf SQL-Server 2008R2 für das Laden aus SAP die Software Xtract IS von der Theobald Software GmbH zum Einsatz kommt. Gelesen wird der größte Teil der Daten ein Mal am Tag. Es gibt aber auch Tabellen die stündlich eingelesen werden. Hierbei kommt sowohl eine Deltabeladung anhand von Zeitstempeln, als auch Komplettladungen bei Tabellen die keine Zeitstempel haben zur Anwendung.

Der eigentliche Arbeitsbereich.

Hier werden einige manuelle Daten vorgehalten, die es so in den Quellsystemen nicht gibt und die größtenteils zum Verknüpfen der Daten untereinander und zum Sicherstellen der Datenqualität benötigt werden. Es werden anhand von Regeln die Datenqualität sichergestellt, entsprechende Fehlermeldungen und Warnungen generiert und Daten mit Hilfe von Slowly Changing Dimensions historisiert. Auch werden einige Kennzahlen berechnet und Informationen für andere Anwendungssysteme bereitgestellt, damit diese die vorverarbeiteten Daten verwenden können. Dadurch wird Komplexität aus den anderen Systemen genommen, da diese nicht mehr selber alle Quellen direkt abgreifen und bei Änderungen diese nur auf einem System durchgeführt werden müssen. Auch die Gefahr, dass die Ermittlung von Ergebnissen auf verschiedenen Systemen mit der Zeit auseinander läuft wird dadurch verringert.

Kommen wir zu den Kennzahlen.

Die meisten Kennzahlen werden mit Hilfe des SQL Server Analysis Services (SSAS), dem OLAP-Dienst des SQL-Servers berechnet. Die Daten werden für Anwendungen in den Multidimensionalen OLAP-Cubes vorgehalten. Hier greift die Steuerung der Rechte der Benutzer. Meist auf Dimensionsebenen (z.B. Teile der Kostenstellenhierarchie oder bestimmte Regionen) sowie das Vorhalten der Meta-Informationen, damit die User den Zugriff in Deutsch und in Englisch nutzen können.

Auf die so bereitgestellten Daten greifen die Anwender hauptsächlich über ein Web-Frontend (Arcplan Enterprise) auf vordefinierte Berichte zu. Zusätzlich besteht die Möglichkeit über Microsoft Excel Auswertungen zu erstellen.

Die einzelnen Ebenen finden sich in den meisten ETL bzw. DWH-Projekten wieder. Auch wenn diese dann mehr oder weniger stark ausgeprägt sind.

Das könnte Sie auch interessieren

Bleiben Sie informiert:

its-people hilft Ihnen...

Weitere Blogthemen: