Journée Julia pour les statistiques

Europe/Paris
à définir (Nantes)

à définir

Nantes

Pierre Navaro (IRMAR CNRS)
Description

Cette journée est un tour d'horizon des possibilités du langage Julia dans le contexte de la science des données.

Traditionnellement, les chercheurs prototypent en langages de haut niveau (Python, R, MATLAB) avant de recoder les algorithmes critiques en C/C++/Fortran pour obtenir des performances acceptables. Julia élimine cette dichotomie en offrant simultanément une syntaxe expressive et une exécution performante grâce à sa compilation LLVM. Cette caractéristique favorise la reproductibilité de la recherche et réduit les erreurs de transcription entre prototypes et implémentations finales.

La syntaxe de Julia permet une programmation claire et très lisible en restant très proche des expressions mathématiques. 

Grâce à la compilation et à ses capacités en calcul parallèle, Julia permet de réaliser des simulations intensives et d'explorer des questions auparavant inaccessibles à cause du coût numérique. Julia permet également une compréhension approfondie des algorithmes statistiques, au-delà de l'utilisation de fonctions haut-niveau.

Durant cette journée nous étudierons la manipulation de données et la modélisation statistique pour que les participants puissent découvir le chemin complet depuis l'exploration et la description des données jusqu'à l'inférence statistique et la validation de modèles.

Attention le programme proposé n'est pas dans sa version définitive

Inscription
Registration Form
    • 1
      Fondamentaux

      Objectifs : Maîtriser les bases de Julia pour la manipulation de données

      • Installation et environnement (15 min)
      • Installation de Julia et VS Code/Jupyter
      • Packages essentiels : Pkg.add(["DataFrames", "Statistics", "StatsBase", "Plots", "CSV"])

      • Structures de données (45 min)

      • Vecteurs, matrices et tableaux multidimensionnels
      • DataFrames : création, indexation, filtrage
      • Manipulation de colonnes et lignes
      • Exercice pratique : charger et explorer un jeu de données CSV

      • Broadcasting et opérations vectorisées (30 min)

      • Opérateur point (.) pour les opérations élément par élément
      • Fonctions anonymes et map/reduce
      • Exercice : calculs statistiques sur des colonnes
    • 10:30
      Pause café
    • 2
      Statistiques descriptives

      Objectifs : Calculer et visualiser des statistiques de base

      • Mesures de tendance centrale et de dispersion (45 min)
      • Moyenne, médiane, mode avec Statistics et StatsBase
      • Variance, écart-type, quantiles
      • Fonction describe() pour un aperçu complet
      • Exercice : analyse descriptive d'un dataset réel

      • Visualisation de données (60 min)

      • Introduction à Plots.jl et StatsPlots.jl
      • Histogrammes, boxplots, scatter plots
      • Graphiques de distribution
      • Personnalisation des graphiques
      • Exercice : créer un tableau de bord statistique visuel
    • 12:30
      Déjeuner
    • 3
      Distributions et échantillonnage

      Objectifs : Travailler avec les distributions de probabilité

      • Package Distributions.jl (45 min)
      • Distributions courantes : Normal, Binomial, Poisson, Uniform
      • Générer des échantillons aléatoires
      • Calcul de PDF, CDF, quantiles
      • Ajustement de distributions à des données

      • Tests statistiques de base (45 min)

      • Tests d'hypothèse avec HypothesisTests.jl
      • Test t de Student, test de Wilcoxon
      • Test du chi-deux
      • Interprétation des p-values
      • Exercice : réaliser plusieurs tests sur vos données
    • 15:30
      Pause
    • 4
      Régression et modélisation

      Objectifs : Construire des modèles statistiques

      • Régression linéaire avec GLM.jl (60 min)
      • Formules de modèle (@formula)
      • Ajustement d'un modèle linéaire simple et multiple
      • Interprétation des coefficients et statistiques
      • Diagnostic du modèle (résidus, R²)
      • Prédictions

      • Projet final (45 min)

      • Analyse complète d'un jeu de données :
        1. Import et nettoyage
        2. Statistiques descriptives
        3. Visualisations
        4. Tests d'hypothèse
        5. Modèle de régression
        6. Interprétation et conclusions