Grosses données
Organisation
Le cours est découpé en 12 séances hebdomadaires de 2 heures
-
Cours : mardi de 8h30 à 10h30 à partir du 23 janvier 2023 salle 027C Halle aux Farines
-
Apporter votre ordinateur en cours
Calendrier
Matériel
Le cours s’appuie sur une image Docker
voir Docker
Objectifs
Ce cours présente plusieurs technologies d’usage courant en science des données
- Python
- Numpy/Scipy
- Pandas
- Spark
- PySpark
- SQL
- Streaming
- Dask
- Parquet/Avro/HDFS/…
- Kafka
Il s’adresse à des étudiants en Double Master Mathématiques-Informatique de l’Université Paris Cité.
Prérequis
Python
Plan
Moodle
Références
- Python
- David Beazley
- Fluent Python
- Fluent Python code
- Python Intro at SciPy 2021
- NumPy tuto at SciPy 2022
- Pandas
- Ask Google about Python mock interviews
- Spark
- Dask
- Graph Algorithms