In diesem Beitrag werden wir Ihnen den einfachsten Weg zeigen, wie man Daten zu Hadoop hochladen und durch Spark SQL abfragen kann.

Spark SQL

Das Spark Team hat Spark SQL als eine Spark-Komponente für die Verarbeitung der strukturierten Daten in 2014 veröffentlicht. Benutzer können SQL-Anfragen durchführen, Daten aus Hive lesen sowie auch Spark-Datensätze oder DataFrames erstellen. Seit der Veröffentlichung von Spark 2.1.0 ist es auch möglich, Streaming-Datenströme abzufragen, auf demselben Weg, wie man es bei statischen Datenquellen durch StructuredScreaming,  einer neuen Scream-Verarbeitungs-Engine basierend auf Spark SQL, macht. Der Benutzer kann sogar verschiedene Datenquellen (statisch oder Streaming) in einer Abfrage kombiniert abfragen.

Spark SQL auf Hive

Wie schon bereits erwähnt, kann Spark SQL Daten aus HIVE lesen. Spark SQL benutzt den Thrift-Server. Also müssen wir zunächst sicherstellen, ob der Thrift-Server auf jedem Knoten, auf dem wir Hive installiert haben, läuft. Wenn Sie den Thrift-Server noch nicht installiert haben, folgen Sie den Anweisungen, damit dieser lauffähig ist. Wenn wir damit fertig sind, können wir alle Daten im Hive-Metastore mit Hilfe von Spark SQL abfragen.

 

SAP-Daten auf Hive hochladen

Wie wir schon in einem vorherigen Artikel aufgezeigt haben, kann VirtDB SAP-Daten nach Hive extrahieren. Lassen Sie uns also diese Funktion mit einer der größten Tabellen aus SAP testen. Wir werden das Mass Data Extractor Modul von Data Unfolder benutzen, denn es eignet sich für größere Datensätze. Um den Mass Data Extractor zu öffnen, führen Sie die Transaktion “/n/vdb/mde” in SAP aus.

In der MDE-Ansicht können wir den Tabellennamen/Ansichtnamen (View name), den wir extrahieren möchten und auch die Filterkriterien eingeben. In diesem Fall möchten wir die gesamte BSEG-Tabelle auf Hive hochladen, die Filterkriterien lassen wir diesmal leer.

Unter der Tabellenauswahl können wir das Zielsystem auswählen, wohin wir die SAP-Daten exportieren möchten. Diesmal exportieren wir die SAP-Daten nach Hive als Zielsystem. Wir können den Ordner und den Datenbanknamen eingeben und die Einstellungen als eine Variante speichern, die für die Planung dieses Jobs benutzt wird.

Wenn wir damit fertig sind, speichern wir alles als eine Variante ab.

Nach diesen Einstellungen müssen wir nur noch den SAP-Hintergrund-Job festlegen, um die Extraktion mit Hilfe der – von uns erstellten – Variante durchführen zu können.

Diesmal stellen wir eine sofortige Extraktion der BSEG-Tabelle ein, aber die Zeitplanoptionen sind grundsätzlich grenzenlos. Mehr Informationen darüber, wie man eine SAP-Extraktion plant, finden Sie in diesem Artikel.

SAP Daten über Spark in Tableau Anfragen

Nachdem der BSEG-Auszug als Job erfolgreich durchgeführt worden ist, überprüfen wir, ob wir den Auszug unserer SAP-Tabelle mit Hilfe von Spark SQL in Tableau anschauen können. Öffnen Sie Tableau und verbinden Sie es mit Spark SQL, dann suchen Sie nach Ihren Daten. Wie Sie unten sehen, gibt es eine Tabelle und eine Ansicht (View), die aus unserer BSEG-Tabelle erstellt wurde. Die Tabelle beinhaltet die Kodenamen als Spaltenüberschriften aus SAP, die Ansicht enthält aber mehr Textfelder aus der SAP-GUI als Spaltenüberschriften.

 

Wenn Sie an einer 30-Tage-Demoversion interessiert sind, fordern Sie hier Ihre Demoversion an:

DEMO ANFORDERN