Apache Spark™ mit GPU-Beschleunigung

Für Datenanalysen, maschinelles Lernen und Deep-Learning-Pipelines

Mit GPU-Beschleunigung von Pipelines für die Datenwissenschaft in Apache Spark™ 3 – die ohne Codeänderungen möglich ist – können Sie Datenverarbeitung und Modelltraining beschleunigen und gleichzeitig die Infrastrukturkosten deutlich senken.

 

Die wichtigsten Vorteile von Spark auf NVIDIA-Grafikprozessoren

Kürzere Verarbeitungszeiten

Kürzere Verarbeitungszeiten

Beschleunigen Sie die Durchführung von Datenvorbereitungsaufgaben, um schnell in die nächste Phase der Pipeline zu wechseln. Dadurch können Modelle schneller trainiert werden, während sich Datenwissenschaftler und Ingenieure auf die wichtigsten Aktivitäten konzentrieren können.

Den Weg von Analyse zu KI optimieren

Den Weg von Analyse zu KI optimieren

Spark 3.0 orchestriert End-to-End-Pipelines – von der Datenaufnahme über das Modelltraining bis hin zur Visualisierung. Dieselbe GPU-beschleunigte Infrastruktur kann sowohl für Spark als auch für ML/DL(Deep Learning)-Frameworks verwendet werden, sodass kein Bedarf an separaten Clustern mehr besteht und die gesamte Pipeline Zugriff auf die Grafikprozessorbeschleunigung erhält.

Reduzierte Infrastrukturkosten

Reduzierte Infrastrukturkosten

Mit weniger mehr erreichen: Im Vergleich zu CPUs schließt Spark auf NVIDIA®-Grafikprozessoren Aufgaben mit weniger Hardware schneller ab, wodurch Unternehmen sowohl Zeit als auch lokale Kapitalkosten oder Betriebskosten in der Cloud sparen.

Vorab-Einblicke

Vorab-Einblicke

Nutzen Sie das intelligente Tool zur Workload-Optimierung, um die Kostenvorteile Ihrer Apache Spark™-Workloads zu qualifizieren und zu schätzen, die für die GPU-Beschleunigung geeignet sind. Das Tool empfiehlt optimierte GPU-Parameter für Kosteneinsparungen und Leistung.

Workshops

Erleben Sie Ihre Spark-Workloads in voller Fahrt

Möchten Sie Ihre Spark-Jobs mit GPUs beschleunigen? Melden Sie sich noch heute für einen Workshop an, um GPU-beschleunigte Workloads zu testen.

Spark 3-Innovationen

Angesichts der „peinlich parallelen“ Beschaffenheit vieler Datenverarbeitungsaufgaben ist es nur natürlich, dass die Architektur einer GPU für Spark-Datenverarbeitungsabfragen genutzt werden sollte, ähnlich wie ein Grafikprozessor DL-Workloads für KI beschleunigt. Die GPU-Beschleunigung ist für den Entwickler transparent und erfordert keine Codeänderungen, um diese Vorteile zu erhalten. Drei wichtige Weiterentwicklungen in Spark 3 haben zur Bereitstellung transparenter GPU-Beschleunigung beigetragen:

Neuer RAPIDS-Beschleuniger für Spark 3

NVIDIA CUDA® ist eine revolutionäre parallele Prozessorarchitektur, die beschleunigte Rechenoperationen auf der NVIDIA GPU-Architektur unterstützt. Bei RAPIDS, das bei NVIDIA entwickelt wurde, handelt es sich um eine Suite von Open-Source-Bibliotheken, die auf CUDA aufsetzen und die GPU-Beschleunigung von Datenwissenschaftspipelines ermöglichen.

NVIDIA hat einen RAPIDS-Beschleuniger für Spark 3 entwickelt, der ETL-Pipelines abfängt und beschleunigt, indem er die Leistung von Spark SQL- und DataFrame-Operationen erheblich verbessert.

Änderungen an Spark-Komponenten

Spark 3 bietet Unterstützung für spaltenorientierte Verarbeitung im Catalyst Query Optimizer, wo der RAPIDS-Beschleuniger ansetzt, um SQL- und DataFrame-Operatoren zu beschleunigen. Wenn der Abfrageplan ausgeführt wird, können diese Operatoren auf GPUs innerhalb des Spark-Clusters ausgeführt werden.

NVIDIA hat außerdem eine neue Spark Shuffle-Implementierung entwickelt, die den Datentransfer zwischen den Spark-Prozessen optimiert. Diese Shuffle-Implementierung basiert auf GPU-beschleunigten Kommunikationsbibliotheken, einschließlich UCX, RDMA und NCCL.

GPU-fähige Planung in Spark

Spark 3 erkennt GPUs als eine erstklassige Ressource zusammen mit CPU und Systemspeicher. Dadurch kann Spark 3 GPU-beschleunigte Workloads direkt auf Servern mit den erforderlichen GPU-Ressourcen platzieren, je nachdem, wie sie für die Beschleunigung und Ausführung eines Auftrags benötigt werden.

NVIDIA-Techniker haben zu dieser wichtigen Spark-Verbesserung beigetragen, die die Einführung von Spark-Anwendungen auf GPU-Ressourcen in Spark Standalone, YARN und Kubernetes-Clustern ermöglicht.

deep-learning-apache-spark-3-innovations-refactored

Beschleunigte Analysen und KI auf Spark

Spark 3 ist ein bedeutender Meilenstein für Analysen und KI, da ETL-Operationen jetzt beschleunigt werden, während ML- und DL-Anwendungen dieselbe GPU-Infrastruktur nutzen. Das gesamte Zusatzpaket für diese beschleunigte Datenwissenschafts-Pipeline ist unten dargestellt:

Beschleunigte Analysen und KI auf Spark

Erste Schritte mit dem GPU-beschleunigten Spark

Laden Sie den RAPIDS-Beschleuniger für Spark 3 herunter, um Ihre Pipelines für Datenwissenschaft von Apache Spark™ mit GPUs beschleunigen zu können. Kunden können sich auch hier an das Spark-Team bei Nvidia in GitHub wenden.

IRS

Die Integration von Cloudera und NVIDIA wird es uns ermöglichen, datengesteuerte Erkenntnisse zu nutzen, um geschäftskritische Anwendungsfälle zu unterstützen … Wir implementieren diese Integration derzeit und sehen bereits über 10-fache Geschwindigkeitsverbesserungen zu halben Kosten für unsere Workflows zur Datenentwicklung und -wissenschaft.

– Joe Ansaldi, IRS/Research Applied Analytics & Statistics Division (RAAS)/Technical Branch Chief

Adobe

Die Leistung von NVIDIA-beschleunigtem Spark 3 im Vergleich zur Ausführung von Spark auf CPUs ist deutlich schneller. Dank diesem bahnbrechenden GPU-Leistungszuwachs eröffnen sich völlig neue Möglichkeiten für die Integration von KI-gestützten Funktionen in unser gesamtes App-Angebot in der Adobe Experience Cloud.

– William Yan, Senior Director of Machine Learning, Adobe

databricks

Unsere fortgesetzte Arbeit mit NVIDIA verbessert die Leistung mit RAPIDS-Optimierungen für Apache Spark™ 3 und Databricks, sodass unsere gemeinsamen Kunden, etwa Adobe, davon profitieren. Diese Beiträge führen zu Beschleunigungen bei Datenpipelines, beim Modelltraining und bei Wertungen, die direkt zu mehr Durchbrüchen und Erkenntnissen für unsere Community aus Datentechnikern und Datenwissenschaftlern führen.

– Matei Zaharia, Schöpfer von Apache Spark™ und Chief Technologist bei Databricks

IRS

Die Integration von Cloudera und NVIDIA wird es uns ermöglichen, datengesteuerte Erkenntnisse zu nutzen, um geschäftskritische Anwendungsfälle zu unterstützen … Wir implementieren diese Integration derzeit und sehen bereits über 10-fache Geschwindigkeitsverbesserungen zu halben Kosten für unsere Workflows zur Datenentwicklung und -wissenschaft.

– Joe Ansaldi, IRS/Research Applied Analytics & Statistics Division (RAAS)/Technical Branch Chief

Adobe

Die Leistung von NVIDIA-beschleunigtem Spark 3 im Vergleich zur Ausführung von Spark auf CPUs ist deutlich schneller. Dank diesem bahnbrechenden GPU-Leistungszuwachs eröffnen sich völlig neue Möglichkeiten für die Integration von KI-gestützten Funktionen in unser gesamtes App-Angebot in der Adobe Experience Cloud.

– William Yan, Senior Director of Machine Learning, Adobe

databricks

Unsere fortgesetzte Arbeit mit NVIDIA verbessert die Leistung mit RAPIDS-Optimierungen für Apache Spark™ 3 und Databricks, sodass unsere gemeinsamen Kunden, etwa Adobe, davon profitieren. Diese Beiträge führen zu Beschleunigungen bei Datenpipelines, beim Modelltraining und bei Wertungen, die direkt zu mehr Durchbrüchen und Erkenntnissen für unsere Community aus Datentechnikern und Datenwissenschaftlern führen.

– Matei Zaharia, Schöpfer von Apache Spark™ und Chief Technologist bei Databricks

IRS

Die Integration von Cloudera und NVIDIA wird es uns ermöglichen, datengesteuerte Erkenntnisse zu nutzen, um geschäftskritische Anwendungsfälle zu unterstützen … Wir implementieren diese Integration derzeit und sehen bereits über 10-fache Geschwindigkeitsverbesserungen zu halben Kosten für unsere Workflows zur Datenentwicklung und -wissenschaft.

– Joe Ansaldi, IRS/Research Applied Analytics & Statistics Division (RAAS)/Technical Branch Chief

Adobe

Die Leistung von NVIDIA-beschleunigtem Spark 3 im Vergleich zur Ausführung von Spark auf CPUs ist deutlich schneller. Dank diesem bahnbrechenden GPU-Leistungszuwachs eröffnen sich völlig neue Möglichkeiten für die Integration von KI-gestützten Funktionen in unser gesamtes App-Angebot in der Adobe Experience Cloud.

– William Yan, Senior Director of Machine Learning, Adobe

databricks

Unsere fortgesetzte Arbeit mit NVIDIA verbessert die Leistung mit RAPIDS-Optimierungen für Apache Spark™ 3 und Databricks, sodass unsere gemeinsamen Kunden, etwa Adobe, davon profitieren. Diese Beiträge führen zu Beschleunigungen bei Datenpipelines, beim Modelltraining und bei Wertungen, die direkt zu mehr Durchbrüchen und Erkenntnissen für unsere Community aus Datentechnikern und Datenwissenschaftlern führen.

– Matei Zaharia, Schöpfer von Apache Spark™ und Chief Technologist bei Databricks

Kostenloses E-Book herunterladen

Wollen Sie den Wert von Big Data mit der Kraft der KI erschließen? Laden Sie unser neues E-Book „Apache Spark™ 3.x beschleunigen – NVIDIA-Grafikprozessoren für die nächste Ära von Analysen und KI nutzen“ herunter, um mehr über die nächste Evolutionsstufe bei Apache Spark™ zu erfahren.