
Das Unternehmen Databricks hat eine neue Plattform namens Databricks Labs AutoML Toolkit vorgestellt welche Entwicklern und Data Scientists dabei hilft, Prozesse in der Datenaufbereitung durch Machine Learning zu automatisieren. Die Plattform basiert auf Spark ML und unterstützt eine Vielzahl von Modelltypen.
Die Anbindung an Apache Spark verwundert wenig, da Databricks maßgeblich an der Entwicklung des Frameworks für Cluster Computing beteiligt ist. Das Unternehmen hat zudem mit der Unified Analytics Platform ein Cloud-Angebot im Portfolio, das unter anderem auf Spark aufsetzt.
Methoden & Modelle
Das Open-Source-Projekt Databricks Labs AutoML zielt auf den Bereich des Supervised Learning (überwachtes Lernen) und bietet Methoden zum Bereinigen (Feature Clean-up) und Vektorisieren von Merkmalen (Feature Vectorization). Es hilft bei der Auswahl und dem Training von Modellen und ebenfalls bei der Hyperparameteroptimierung. Außerdem erstellt es Batchvorhersagen. Für das Logging von Trainingsdurchläufen & Modellergebnissen nutzt es MLFlow. Die ähnlich wie von Databricks initiierte Open-Source-Plattform zum Lifecycle-Management für ML-Projekte ist vor Kurzem in Version 1․1 erschienen.
Auf Basis von Spark ML kennt das AutoML-Toolkit derzeit unter anderem für die Modelltypen Entscheidungsbäume, Gradient Boosted Trees, Random Forest und XGBoost jeweils sowie Klassifikation als auch Regression, also die Vorhersage von Gruppenzugehörigkeiten beziehungsweise von kontinuierlichen Verläufen. Außerdem bietet es Modelle zur linearen und zur logistischen Regression, für Multi-Layer Peceptron (mehrlagige Perzeptren) Classifier & Support Vector Machine (SVM).
Automatisierung für Machine Learning
Das Konzept AutoML haben zahlreiche Anbieter im Portfolio darunter Google das Anfang 2018 Cloud AutoML gestartet hat. Microsoft Research hat ein eigenes AutoML-Team und automatisierte Funktionen in das Framework ML.NET integriert, das im Mai als 1․0-Release erschienen ist. Für Keras existiert die Open-Source-Library AutoKeras und Facebook bietet in PyTorch ebenfalls Funktionen, unter anderem zum Auto-Tuning.
Databricks möchte mit seinem AutoML-Toolkit Nutzer mit unterschiedlichen technischen Voraussetzungen zusammenbringen die gemeinsam an ML-Projekten arbeiten. Der Leiter des ML-Projektmanagements Clemens Mewald hat dem Nachrichtenportal Venture Beat in einem Interview erläutert, dass sich mit dem AutoML-Toolkit unterschiedliche Ebenen der Abstraktion abbilden lassen.
Mewald erklärt in dem Gespräch, dass Projektbeteiligte "auf dem höchsten Abstraktionslevel anfangen und keinerlei Code schreiben können. Und wenn sie damit fertig sind und weiterhin Flexibilität benötigen, gehen sie eine Ebene herunter und bekommen Zugang zu weiteren Knöpfen & Hebeln die sie brauchen können". Laut Mewald der zuvor bei Google im TensorFlow- und KubeFlow-Team aktiv war, adressiert Databricks die unterschiedliche Herangehensweise über reinen Code oder eine grafische Nutzerschnittstelle.
Weitere Details zum AutoML-Toolkit lassen sich dem Databricks-Blog entnehmen. Das Projekt ist auf GitHub abgelegt. Dort finden Entwickler zudem eine Anleitung und Referenz.
Kommentare