formation centrée uniquement sur Apache Spark
Cette formation vous plonge au cœur d’Apache Spark, le moteur de traitement de données massives le plus populaire dans l’écosystème Big Data.
AvancéDescription
Cette formation vous plonge au cœur d’Apache Spark, le moteur de traitement de données massives le plus populaire dans l’écosystème Big Data. Vous apprendrez à manipuler efficacement de grands volumes de données, à construire des pipelines de traitement batch et temps réel, et à intégrer Spark avec des outils comme Kafka, Hadoop et bases NoSQL. Au travers de cas pratiques, vous développerez les compétences nécessaires pour exploiter Spark dans des contextes professionnels exigeants, du data engineering au machine learning distribué.
Objectifs
- Comprendre l’architecture et les composants de Spark
- Mettre en place un environnement Spark
- Manipuler les données avec Spark
- Traiter des flux de données en temps réel
- Optimiser les performances des jobs Spark
- Déployer des applications Spark en production
Prérequis
- Connaissances de base en programmation
- Notions de bases en SQL
- Bases en manipulation de données
- Notions en Big Data
- Familiarité avec les systèmes de fichiers distribués
GVIVA SERVICES
Centre de Formation Professionnelle - Abidjan, Côte d'Ivoire
CERTIFICAT DE
RÉUSSITE PROFESSIONNELLE
Ce certificat est fièrement décerné à
Koné Aminata
qui a démontré une excellente maîtrise des compétences du avancé en formation centrée uniquement sur apache spark à travers son engagement, son travail acharné et sa détermination durant 6 semaines de formation intensive
Les certifications
Ce que vous apprenez
Apache Spark - Introduction et Installation
Comprendre l’architecture de Spark, son rôle dans le Big Data, et installer/configurer l’environnement local ou cluster.
Apache Spark - Manipulation des RDD et DataFrames
Création, transformation et action sur les RDD et DataFrames, gestion des données structurées avec Spark SQL.
Apache Spark - Traitement de Données en Temps Réel
Utilisation de Spark Streaming pour traiter des flux de données en direct depuis Kafka, Flume ou autres sources.
Apache Spark - Machine Learning avec MLlib
Mise en œuvre d’algorithmes de Machine Learning distribués (classification, régression, clustering) avec MLlib.