Big Data – Buzzword oder doch mehr? (3)

Erfahren Sie im dritten Big Data-Beitrag mehr über die verschiedenen Architekturen, sowie die am häufigsten eingesetzten Plattformen wie Hadoop, Azure, AWS usw.

Autor Dieter Rüetschi
Datum 22.02.2019
Lesezeit 4 Minuten

Architektur & Plattformen

In seiner Artikelserie geht Datenexperte Dieter Rüetschi den Thema «Big Data» aus Praktikersicht nach. Nach der Begriffsanalyse im ersten Teil und der Untersuchung der logischen Weiterentwicklung von Datenbanksystemen und Business Intelligence in Richtung Big Data im zweiten Teil, geht er heute auf die Architektur und mögliche Plattformen in Big Data-Bereich ein.

Grundidee – nicht vergessen, darum geht es

Big Data
Architektur

Auch wenn Big Data heute in den Fachzeitschriften und verschiedenen Internet Medien oft als eine lose Sammlung von Datenmanagement und Datenanalyse-Funktionen beschrieben wird, sind zwei Architekturmodelle für die Umsetzung und Anwendung von Big Data-Techniken sehr wichtig geworden.

Architekturmodelle sind für mich einerseits eine Strukturierungshilfe bei der Umsetzung und Anwendung von Services und Funktionen. Andererseits sind sie oft eine Vorgabe der Plattform-Hersteller für die optimale, auf die jeweilige Lösung angepasste Struktur für die Umsetzung und Anwendung der eingesetzten Services. Das heisst, wenn ich mich bei der Umsetzung einer Problemlösung an eine unterstützte Architektur halte, habe ich die besseren Chancen, dass meine Lösung stabil und performant läuft.

Mit diesem Fokus möchte ich kurz die zwei am häufigsten verwendeten Architekturen beschreiben:

  • Lambda-Architektur
  • Kappa-Architektur

Lambda-Architektur

Die Lambda-Architektur besteht aus drei Layern:

  • Batch Layer
    Der Batch Layer benutzt im allgemeinen «vollständige» und eher statische Daten und errechnet die Ergebnisse mit hoher Genauigkeit.
  • Speed Layer
    Der Speed Layer verarbeitet die Daten in Echtzeit, die Vollständigkeit und Genauigkeit werden im Allgemeinen nicht erreicht, da die Priorität auf einer kleinen Datenlatenz liegt.
  • Serving Layer
    Dieser Layer ist auf die Abfragetechnik, wie von den Reporting-Tools genutzt, ausgerichtet. Schwerpunkt sind dabei die sogenannten Adhoc-Abfragen.

Hier ein konkretes Beispiel dazu:

Big Data

Kappa-Architektur

Bei der Kappa-Architektur werden alle Daten als Datenstream bearbeitet. Dabei gilt es die Genauigkeit und Vollständigkeit von Daten und deren Auswirkung auf die Datenlatenzzeit zu steuern.

Big Data

Der Technologiestack

Die verschiedenen Technologieanbieter oder vielleicht besser gesagt, Integratoren, empfehlen für die Umsetzung der gewünschten Architektur verschiedene Techniken und somit auch Tools.

Wenn man etwas hinter die Kulissen schaut, sind die Angebote jeweils gar nicht so unterschiedlich. Grundsätzlich scheinen sich in diesem Bereich die Open Source-Angebote durchzusetzen. Vertreter wie Hadoop, Spark, Kafka, usw. finden wir auf allen Plattformen. Allein die grosse Anzahl und die zum Teil sich überschneidenden Fähigkeiten machen die Auswahl des konkreten Technologiestacks anstrengend. Zum Beispiel bietet die Apache Plattform alleine für Big Data 49 Technologien an.

Dazu kommt, dass Anbieter wie Microsoft (Azure, SQL Server) oder Amazon (AWS) Opensource-Produkte wie Hadoop einsetzen, sie aber dann z.T. kapseln, damit sie von der Konfiguration und dem Quality of Service-Aspekt her in den Technologiestack passen. So ist beispielsweise HDInsight die Kapselung von Hadoop für die Microsoft Cloud Plattform Azure.

Im nächsten Blog werde ich zu diesem Thema einige der am meisten verwendeten Techniken in einer Übersicht beschreiben.


Über den Autor

Dieter Rüetschi

Dieter Rüetschi ist seit über 25 Jahren in der Softwareentwicklung, Beratung und Schulung tätig. Seit 2000 konzentriert er sich auf die .NET-Plattform mit dem SQL Server als Datenbank. Er hat in dieser Zeit unzählige Projekte begleitet, geleitet und entwickelt. Seit dem SQL Server 2000 erstellte er ausserdem BI-Lösungen für verschiedene Firmen in den unterschiedlichsten Branchen. Herr Rüetschi hat für Digicomp viele Kurse und Lehrgänge konzipiert und entwickelt. Er ist Inhaber der Firma Ability Solutions GmbH.