SAP Daten zu Hadoop Hive Senden

Was halten Sie von einem Datamart in Hadoop HIVE?  In einigen Fällen – aus welchem Grund auch immer – ist SAP HANA (oder BW oder BW auf HANA) keine Option für Ihre Analyse – Sie können aber Ihre SAP Daten trotzdem auf einem Big Data System, wie zum Beispiel Hadoop Hive, hochladen.  In dem nächsten Release von VirtDB Data Unfolder haben wir schon Hadoop und Hive integriert – hier zeigen wir Ihnen eine Vorschau darüber, wie man seine SAP Daten mit einigen Klicks zu Hive Tabellen senden kann.

Architecture: SAP ERP – Hadoop data integration in Data Unfolder

Da Data Unfolder eine modulare Architektur hat, funktioniert der Datenauszug-Teil unabhängig von den Zielsystemen; Data Unfolder zieht die Daten nur aus und komprimiert sie. Dann konvertiert unser Data Distributor Engine die Daten in Hadoop Hive-kompatiblen CSV-Dateien und danach lädt er die ausgezogenen Daten in einem Hadoop Cluster durch einen WebHDFS hoch und erstellt davon HIVE Tabellen und Ansichten durch eine ODBC Verbindung.

SAP to Hadoop Architecture

SAP auf Hadoop Architektur

Schritt für Schritt: SAP Transaktionsdaten zu Hadoop senden

Als erster Schritt der Integration Ihrer operativen SAP Daten in Hadoop Speicherbehälter für Analysezwecke, öffnen Sie mit Ihrem SAP ERP Mandant einen ABAP Bericht (oder eine Anfrage, oder eine Ansicht, usw.). In unserem Beispiel werden wir die Transaktion KSB1 (Ist-Einzelkosten für Kostenstellen) als Datenquelle benutzen, aber es funktioniert mit allen anderen standardmäßigen oder benutzerdefinierten SAP Transaktionen in gleicher Weise.

01

Wenn Sie den VirtDB Data Unfolder auf Ihrem SAP System installiert haben, und wenn Sie die geeignete Rechte haben, dann können Sie auf VirtDB Administrator Mode zugreifen und den Bericht als eine Datenquelle für VirdDB Services einrichten.

02
Als nächstes, wenn Sie KSB1 ausführen, werden Sie eine neue Taste die für VirtDB Datenquelle Einstellungen oben in der Menüliste finden.

03
Klicken Sie dieses Feld an, und stellen Sie durch die Auswahl der Hive UI Komponente in der Mitte Hadoop Hive als Zielsystem ein.

04

Bitte beachten Sie, dass der Zugang zu Ihrem Hive Zielsystem (Hadoop) schon von Ihrem VirtDB Administrator installiert worden sein sollte. In diesem Anwendungsfall greifen wir zu einem AWS betrieben Cloudera Cluster mit 4 Knoten zu. Nach der Einstellung der Datenquelle, können Sie durch die Auswahl der „Schedule extraction“ Option aus der VirtDB Menüliste einen Datenauszug zu Hive aufführen.

05

Im Pop-up Fenster in SAP GUI sollen Sie Informationen über Ihrem Hadoop Cluster ausfüllen, wie z.B.: der Name des HDFS Ordners, der Name der Hive Datenbank, sowie der Tabellenname den Sie benutzen wollen. Wählen Sie den „upload“ Modus (Ingestion) aus, dann wählen Sie „full load“ (Überschreiben existierender Daten) aus, oder fügen Sie die ausgezogenen Daten, die schon im System vorhanden sind, hinzu.

06

Nach dem Klicken auf OK scheint die normale SAP Job Scheduler Schnittstelle auf, in der Sie die benötigten Frequenzen und auch andere Startbedingungen ausfüllen können. Zum Beispiel für eine einmalige Ausführung soll “Immediate” ausgewählt werden.

07

Wenn Sie VirtDB Berechtigungsworkflow in SAP aktiviert haben – der Job wird ohne die Genehmigung des Administrators nicht erledigt (um Sicherheitsverletzungen und Leistungsüberschreitungen durch falsche Jobaufträge zu vermeiden).  Die Workflow-Funktionalität wird in einem der nächsten Anwendungsfällen auf dieser Webseite ausgearbeitet und veröffentlicht.

Wenn der Job für den SAP’s Job-Engine ausgeführt wird, sollten Sie seinen Status in der standardmäßigen SAP Jobübersicht Transaktion prüfen.

08

Um alle geplanten VirtDB Jobs zu überprüfen, schauen Sie im detaillierten Tabellenprotokoll einfach nach. – Dieses Protokoll kann als normale Datenquelle benutzt werden, und ermöglicht die Überwachung von VirtDB Jobs aus dem Tableau Dashboard oder aus anderen BI Anwendungen. Durch das Anklicken des „Job log“ Buttons in SAP Job-Monitor sehen Sie eine historische Übersicht der erledigten Jobs.

09

Diese Logs erklären den Prozess ganz gut und detailliert:

  • Der SAP Job extrahiert die ABAP Berichtdaten und macht eine komprimierte VirtDB Datei daraus. Diese Datei wird in Network Share hochgeladen.
  • VirtDB‘s Data Distributor Engine (eine .Net Komponente) konvertiert die Daten in Hive-kompatible CSV-Dateien.
  • Data Distributor Engine greift auf HDFS durch einen WebHDFS Mandant zu.
  • CSV Dateien werden in HDFS hochgeladen.
  • Data Engine Distributor wird durch ODBC mit Hive verbunden.
  • Hive Tabellen werden für die Daten (nach den Feldtypen und Meta-Informationen aus SAP) erstellt
  • Eine Ansicht über Hive Tabellen mit sinnvollen Beschreibungen als Feldnamen wird erstellt (nach Meta-Informationen aus SAP)
  • Und zum Schluss werden die SAP Daten aus CSV Dateien durch HDFS auf die Hive Tabelle hochgeladen.

Ab diesen Zeitpunkt können Sie SAP Daten aus Hive Engine durch die Benutzung von HUE Konsole oder anderen mit Hive verbundenen BI Anwendungen, wie Tableau abfragen.

10

Mit VirtDB HDFS Verbindung wird die Verwendung Ihrer SAP Daten auch in anderen Hadoop Technologies, wie Spark oder Drill einfacher. –  in dem nächsten Release wird Apache / AWS/ Azure Plattformen auch integriert.

11

Das Leben ist zu kurz! Warum sollten Sie auf SAP Daten warten?

Vereinbaren Sie bitte einen Demotermin!