EDUCBA
Spécialisation Spark and Python for Big Data with PySpark

Jusqu'à demain : Découvrez de nouvelles compétences avec 30 % de réduction sur les cours dispensés par des experts du secteur. Économisez maintenant.

Ce spécialisation n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues.
EDUCBA

Spécialisation Spark and Python for Big Data with PySpark

Spark and Python for Big Data with PySpark. Build scalable data workflows and predictive models using Spark and Python.

EDUCBA

Instructeur : EDUCBA

Inclus avec Coursera Plus

Approfondissez votre connaissance d’un sujet
niveau Débutant

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Approfondissez votre connaissance d’un sujet
niveau Débutant

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Apply PySpark to build, optimize, and evaluate distributed data processing workflows.

  • Design and execute predictive machine learning models for large-scale analytics.

  • Construct ETL pipelines, real-time streaming applications, and advanced big data solutions with Spark.

Compétences que vous acquerrez

  • Catégorie : Apache
  • Catégorie : Apache Spark
  • Catégorie : Python Programming
  • Catégorie : Scala Programming
  • Catégorie : Unsupervised Learning
  • Catégorie : Apache Maven
  • Catégorie : Apache Hadoop
  • Catégorie : Extract, Transform, Load
  • Catégorie : Advanced Analytics
  • Catégorie : Data Pipelines
  • Catégorie : Classification And Regression Tree (CART)
  • Catégorie : Data Processing

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Enseigné en Anglais
Récemment mis à jour !

septembre 2025

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Améliorez votre expertise en la matière

  • Acquérez des compétences recherchées auprès d’universités et d’experts du secteur
  • Maîtrisez un sujet ou un outil avec des projets pratiques
  • Développez une compréhension approfondie de concepts clés
  • Obtenez un certificat professionnel auprès de EDUCBA

Spécialisation - série de 6 cours

Ce que vous apprendrez

  • Recall Python syntax and identify key PySpark components for data processing.

  • Apply RDD transformations, joins, and JDBC integration with MySQL.

  • Build scalable pipelines like word count and debug PySpark applications.

Compétences que vous acquerrez

Catégorie : PySpark
Catégorie : Data Processing
Catégorie : Data Transformation
Catégorie : Python Programming
Catégorie : Distributed Computing
Catégorie : MySQL
Catégorie : Data Manipulation
Catégorie : Data Pipelines
Catégorie : Programming Principles
Catégorie : SQL
Catégorie : Debugging
Catégorie : Apache Spark

Ce que vous apprendrez

  • Build and evaluate regression models in PySpark using linear, GLM, and ensemble methods.

  • Apply logistic regression, decision trees, and Random Forests for classification.

  • Implement K-Means clustering and assess scalable ML workflows with PySpark.

Compétences que vous acquerrez

Catégorie : PySpark
Catégorie : Predictive Modeling
Catégorie : Random Forest Algorithm
Catégorie : Applied Machine Learning
Catégorie : Regression Analysis
Catégorie : Apache Spark
Catégorie : Predictive Analytics
Catégorie : Statistical Machine Learning
Catégorie : Classification And Regression Tree (CART)
Catégorie : Machine Learning Algorithms
Catégorie : Supervised Learning
Catégorie : Data Pipelines
Catégorie : Unsupervised Learning

Ce que vous apprendrez

  • Apply RFM analysis and K-Means clustering for customer segmentation.

  • Extract and analyze textual data using OCR with PySpark DataFrames.

  • Build and interpret Monte Carlo simulations for uncertainty modeling.

Compétences que vous acquerrez

Catégorie : Text Mining
Catégorie : Advanced Analytics
Catégorie : PySpark
Catégorie : Simulation and Simulation Software
Catégorie : Data Manipulation
Catégorie : Image Analysis
Catégorie : Risk Analysis
Catégorie : Marketing Analytics
Catégorie : Apache Spark
Catégorie : Statistical Modeling
Catégorie : Data Transformation
Catégorie : Big Data
Catégorie : Data Mining
Catégorie : Customer Insights
Catégorie : Unstructured Data
Catégorie : Data Processing
Catégorie : Customer Analysis
Catégorie : Predictive Modeling

Ce que vous apprendrez

  • Apply Scala fundamentals including variables, functions, and advanced concepts.

  • Implement Spark RDD operations, streaming, and fault-tolerant pipelines.

  • Build real-time big data solutions integrating Spark with external systems.

Compétences que vous acquerrez

Catégorie : Apache Spark
Catégorie : Scala Programming
Catégorie : Real Time Data
Catégorie : Apache Maven
Catégorie : Data Processing
Catégorie : Scalability
Catégorie : Apache Hadoop
Catégorie : Object Oriented Programming (OOP)
Catégorie : Data Structures
Catégorie : Systems Integration

Ce que vous apprendrez

  • Install and configure PySpark, Hadoop, and MySQL for ETL workflows.

  • Build Spark applications for full and incremental data loads via JDBC.

  • Apply transformations, handle deployment issues, and optimize ETL pipelines.

Compétences que vous acquerrez

Catégorie : Extract, Transform, Load
Catégorie : Apache Spark
Catégorie : PySpark
Catégorie : Development Environment
Catégorie : Data Store
Catégorie : Data Pipelines
Catégorie : Data Manipulation
Catégorie : MySQL
Catégorie : Java Platform Enterprise Edition (J2EE)
Catégorie : Apache Hadoop
Catégorie : Software Installation
Catégorie : Data Import/Export
Catégorie : System Configuration
Catégorie : Data Transformation

Ce que vous apprendrez

  • Describe Spark architecture, core components, and RDD programming constructs.

  • Apply transformations, persistence, and handle multiple file formats in Spark.

  • Develop scalable workflows and evaluate Spark applications for optimization.

Compétences que vous acquerrez

Catégorie : Apache Spark
Catégorie : Distributed Computing
Catégorie : Data Processing
Catégorie : Data Transformation
Catégorie : Data Pipelines
Catégorie : Data Manipulation
Catégorie : Big Data
Catégorie : Performance Tuning
Catégorie : PySpark
Catégorie : JSON

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

EDUCBA
EDUCBA
316 Cours112 757 apprenants

Offert par

EDUCBA

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Coursera Plus

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions