Grosses données

Organisation

Le cours est découpé en 12 séances hebdomadaires de 2 heures

  • Cours : mardi de 8h30 à 10h30 à partir du 23 janvier 2023 salle 027C Halle aux Farines

  • Apporter votre ordinateur en cours

Calendrier

Matériel

Le cours s’appuie sur une image Docker

voir Docker

Objectifs

Ce cours présente plusieurs technologies d’usage courant en science des données

  • Python
    • Numpy/Scipy
    • Pandas
  • Spark
    • PySpark
    • SQL
    • Streaming
  • Dask
  • Parquet/Avro/HDFS/…
  • Kafka

Il s’adresse à des étudiants en Double Master Mathématiques-Informatique de l’Université Paris Cité.

Prérequis

Python

Plan

Leçon Diapos .ipynb .qmd Date
Introduction + Python 101 2024-01-23
Python 2 :Numpy et Pandas 2024-01-30
Python 3 2024-02-06
Spark RDD 2024-02-13
Spark SQL 2024-02-20
Spark SQL 2024-02-27
JSON Python & Spark 2024-03-05
Fichiers Big Data 2024-03-12
Spark again 2024-03-19
Spark again 2024-03-26
Dask 2024-04-02
Dask 2024-04-23

Moodle

Références

Contrôle des connaissances (MCC) et validation

  • Session 1 : 2 devoirs maison en binôme
    • Devoir 1 pour le 2024-03-26
    • Devoir 2 pour le 2024-05-14
  • Session 2 :
  • Validation : Note de session supérieure ou égale à 10.