Past Meetup

Apache Parquet – CSV meets BigData

This Meetup is past

5 people went

hacKNology e.V. (im TZK)

Blarerstr. 56 · Konstanz

How to find us

Unser Treffpunkt befindet sich im Technologiezentrum Konstanz (TZK). Durch das Tor und dann gleich links durch die Tür mit hacKNology Aufkleber und in den Keller. An der Tür ist eine Klingel, falls sie nicht offen sein sollte.

Location image of event venue

Details

Im Juli bringt uns Sebastian das Open-Source-Projekt "Parquet" (http://parquet.apache.org/­) näher, das ein universelles Dateiformat mit spaltenweiser Datenhaltung definiert.

Die spaltenweise Datenkompression und -kodierung spart Speicherplatz und erlaubt die effiziente Verarbeitung durch analytische Workloads (z.B. SQL). Bibliotheken zum Lesen und Schreiben von Parquet-Dateien stehen für viele Programmiersprachen (C++, Java, Python, PHP, usw.) zur Verfügung. Auch zahlreiche Big-Data-Frameworks (z.B. MapReduce, Spark, Hive) unterstützen Parquet. Obwohl ursprünglich für das Hadoop-Ökosystem entwickelt -- aufgrund der stabilen Spezifikation und universellen API erscheint Parquet als gute Alternative zu XML, CSV oder JSON, wenn es um das Speichern von größeren Datenmengen geht.

Nach dem Vortrag ist wie gewohnt genügend Zeit sich über das Thema oder etwas Anderes auszutauschen.

Wir freuen uns über rege Teilnahme und Vorschläge für kommende Vorträge.