Microsoft Azure HDInsight erweitert sein Big Data-Angebot um Apache Spark

Microsofts Hadoop-Angebot unterstützt Apache Spark

Microsoft Azure HDInsight hat sein Big Data-Angebot um Apache Spark erweitert. Spark wird damit Teil einer Vielzahl von anderen Big-Data-Techniken auf der Plattform darunter MapReduce Pig, Hive, HBase und Storm.

Azure HDInsight ist ein Cloud-basierter Big-Data-Service von Microsoft der es Unternehmen ermöglicht, große Datenmengen zu analysieren und wertvolle Erkenntnisse daraus zu gewinnen. Mit Apache Spark können Unternehmen komplexe analytische Aufgaben in Echtzeit durchführen und von den Vorteilen einer schnellen Datenverarbeitung und hoher Skalierbarkeit profitieren.

Spark ist ein Open-Source-Framework, das speziell für die schnelle Verarbeitung von großen Datenmengen entwickelt wurde. Es bietet eine Vielzahl von Anwendungsmöglichkeiten wie maschinelles Lernen, Streaming-Analyse, Graphenverarbeitung und interaktive Abfragen.

Durch die Integration von Spark in Azure HDInsight erhalten Unternehmen Zugang zu leistungsstarken Analysemöglichkeiten und können ihre Daten effizienter nutzen. Die Kombination aus Spark und den anderen Big-Data-Techniken auf der Plattform ermöglicht es Unternehmen, ihre Analyseprozesse zu optimieren und wertvolle Erkenntnisse aus ihren Daten zu gewinnen.

Microsoft hat bereits in der Vergangenheit sein Engagement für Open Source und die Unterstützung von Big-Data-Technologien gezeigt. Die Integration von Spark in Azure HDInsight ist ein weiteres Beispiel dafür, ebenso wie das Unternehmen seine Cloud-Plattform kontinuierlich erweitert um seinen Kunden neue Möglichkeiten zur Datenanalyse und -verarbeitung zu bieten.


Microsofts Hadoop-Integration in der eigenen Cloud-Umgebung Azure ist nun ebenfalls auf den Einsatz mit dem Big-Data-Framework Apache Spark abgestimmt. Der unter der Bezeichnung Azure HDInsight laufende Dienst ist in Zusammenarbeit mit der Yahoo-Ausgründung Hortonworks entstanden, deren Hadoop-Distribution in HDInsight eingebunden ist.

Andere derzeit angesagte Big-Data-Techniken wie die verteilte Datenbank Apache HBase und das Echtzeit-Datenverarbeitungssystem Apache Storm werden schon länger in Azure HDInsight unterstützt. Angesichts dessen ist die Einbindung von Spark ein naheliegender Schritt gewesen. Denn das Framework zur Echtzeitdatenanalyse ist so etwas wie der neue Stern am Big-Data-Himmel.

Apache Spark ist ein quelloffenes, auf In-Memory-Verarbeitung setzendes Framework zur Berechnung auf Clustern, das seine Wurzeln in einem Projekt des AMPLab der UC Berkeley hat. Dort wurde es 2009 gestartet und ein Jahr später unter einer BSD-Lizenz veröffentlicht. 2013 kam Spark in der Apache Software Foundation unter wo es im Februar 2014 zum Top-Level-Projekt aufstieg. Mittlerweile sehen viele in Spark den legitimen Nachfolger des Big-Data-Frameworks Hadoop.

Als typisches Szenarium für Spark auf der eigenen Cloud-orientierten Plattform sieht Microsoft etwa das Erstellen interaktiver Abfragen über große Datenmengen. Dabei kommen Business-Intelligence-Werkzeuge oder Web-gestützte Notebooks wie Apache Zeppelin & Jupyter (iPython) zum Einsatz. Des Weiteren soll das Angebot beim Erstellen von Streaming-Anwendungen und bei der Arbeit mit Machine-Learning-Algorithmen hilfreich sein. Derzeit hat Microsofts Angebot den Status einer Public Review.

Zuletzt aktualisiert am Uhr





Kommentare


Anzeige