Grosses données

Organisation

Le cours est découpé en 12 séances hebdomadaires de 2 heures

  • Cours : mercredi de 10h45 à 12h45 à partir du 18 janvier 2023 salle 153 Bâtiment Olympe de Gouches

  • Apporter votre ordinateur en cours

Calendrier

Matériel

Le cours s’appuie sur une image Docker

voir Docker

Objectifs

Ce cours présente plusieurs technologies d’usage courant en science des données

  • Python
    • Numpy/Scipy
    • Pandas
  • Spark
    • PySpark
    • SQL
    • Streaming
  • Dask
  • Parquet/Avro/HDFS/…
  • Kafka

Il s’adresse à des étudiants en Double Master Mathématiques-Informatique de l'Université Paris Cité.

Prérequis

Python

Plan

Leçon Diapos Labs Date
Introduction + Python 1 2023-01-18
Python 2 2023-01-25
Python 3 2023-02-01
Spark RDD 2023-02-08
Spark SQL 2023-02-15
Spark SQL 2023-02-22
GraphFrames 2023-03-15
JSON Python & Spark 2023-03-22
Fichiers Big Data 2023-03-29
Spark again 2023-04-05
Spark again 2023-04-12
Dask 2023-04-19

Moodle

Références

Contrôle des connaissances (MCC) et validation

  • Session 1 : 3 devoirs maison en binôme
    • Sujet 1 pour le 24 février 2023
  • Session 2 :
  • Validation : Note de session supérieure ou égale à 10.
Previous
Next