Grosses données
Organisation
Le cours est découpé en 12 séances hebdomadaires de 2 heures
- 
Cours : mardi de 8h30 à 10h30 à partir du 23 janvier 2023 salle 027C Halle aux Farines
 - 
Apporter votre ordinateur en cours
 
Calendrier
Matériel
Le cours s’appuie sur une image Docker
voir Docker
Objectifs
Ce cours présente plusieurs technologies d’usage courant en science des données
- Python
- Numpy/Scipy
 - Pandas
 
 - Spark
- PySpark
 - SQL
 - Streaming
 
 - Dask
 - Parquet/Avro/HDFS/…
 - Kafka
 
Il s’adresse à des étudiants en Double Master Mathématiques-Informatique de l’Université Paris Cité.
Prérequis
Python
Plan
Moodle
Références
- Python
- David Beazley
 - Fluent Python
 - Fluent Python code
 - Python Intro at SciPy 2021
 - NumPy tuto at SciPy 2022
 - Pandas
 - Ask Google about Python mock interviews
 
 - Spark
 - Dask
 - Graph Algorithms