Introduction aux méthodes quantitatives avec

Session introductive

Chapitre introductif

Note

  • Exercices associés à ce chapitre ici

Introduction

Qui suis-je ?

Qui suis-je ?

Exemple tiré de l’Insee Analyse sur la mixité sociale

Qui suis-je ?

D’autres cours introductifs que je donne peuvent vous intéresser:

Et surtout consultez le portail complet de formation du datalab de l’Insee

Objectifs pédagogiques

  • Découverte de l’écosystème de l’open data 🇫🇷
  • Introduction pratique au langage :
    • Données classiques
    • Données géographiques
  • Introduction à la publication reproductible avec Quarto
  • Ouverture à la cartographie web avec Observable

Modalités pratiques

  • Des slides et surtout des TP guidés ;

  • Infrastructure informatique (SSPCloud) fournie par l’Insee pour éviter:

    • les galères d’installation
    • les galères de configuration
  • Modalités d’initialisation à venir ;

On va utiliser le SSPCloud 😍🐉☁️🇫🇷 !

(présentation tout à l’heure)

Ressources complémentaires

  • Documentation collaborative utilitR 👶 ;

Panorama général

Prolifération des données

  • Numérisation et innovations technologiques ont réduit le coût de production de la donnée ;
    • Volume de données produites en explosion
  • L’utilisation des statistiques n’est pas nouvelle (cf. Desrosières)…
  • … mais une place accrue dans le débat public et l’action publique (Supiot, Martin)

Diversification des données (1/4)

Données tabulaires classiques

Diversification des données (1/4)

Données tabulaires classiques

  • Données structurées sous forme de tableau

Source: Hadley Wickham, R for data science

  • très bien outillé pour ces données (si volumétrie adaptée)

Diversification des données (2/4)

Données géolocalisées

Diversification des données (2/4)

Données géolocalisées

  • Données tabulaires avec une dimension spatiale supplémentaire
    • Dimension géographique prend des formes multiples:
    • Points, lignes, polygones…
  • très bien outillé pour ces données (si volumétrie adaptée)

Diversification des données (3/4)

Données textuelles et non structurées

  • Applications limitées jusqu’aux années 2010 ;
  • Développement très rapide de la recherche :
    • Collecte accrue : réseaux sociaux, enquêtes…
    • Baisse coûts stockage & augmentation ressources traitement ;
    • Nouvelles techniques statistiques: webscraping, LLM…
  • Utilisation intensive dans l’administration, la recherche et le secteur privé

Diversification des données (4/4)

Images, sons et vidéos

Plus d’infos dans mon cours sur les données émergentes

Apparition de nouveaux acteurs

  • Acteurs classiques:
    • Instituts statistiques (INSEE et SSM1) ;
    • Administrations centrales (DGFiP, DINUM…) ou opérateurs (IGN…)
    • Plus de détails à venir
  • Projets contributifs: OpenStreetMap, Wikidata, OpenFoodFacts
  • Acteurs privés:
    • Collectent des données sur leurs utilisateurs/clients (extrapolation possible?)
    • Peuvent mettre à disposition ces données à d’autres acteurs (chercheurs par exemple)
    • Cadre réglementaire: RGPD

Accès de plus en plus direct à la donnée

  • Ere de l’open data et open source :
    • Mouvement accéléré depuis l’élection Obama 2008
    • Création Etalab en 2011 ;
    • Loi pour une république numérique 2016
  • Changements technologiques et culturels :
    • Formats ouverts et standardisés ;
    • Succès des langages open source (notamment Python et R )
    • Acculturation aux API

Data is everywhere

Les acteurs de la donnée et du code en France

L’Insee

  • Collecte, produit, analyse et diffuse l’information statistique :
    • Producteur de statistiques (enquêtes, données administratives) ;
    • Producteur d’études pour le débat public (rare chez les instituts statistiques)
  • Publie énormément d’informations:
  • Rôle de coordination du service statistique public:
    • Instituts statistiques ministériels: DREES (Santé), DARES (Travail)…
  • Diffusion données sur insee.fr
    • Utilisateurs de : accès facilité via des packages

L’IGN

  • Produit et diffuse la géométrie du territoire national et l’occupation du sol:
    • Producteur de cartes 🥾 (top25…)
    • LIDAR
  • Producteur des fonds de carte utiles pour nous:
    • BDTopo, BD Forêt,
    • AdminExpress


data.gouv

  • Plateforme de l’open data en France
    • Crée par Etalab (DINUM) en 2011
  • Recense des jeux de données produits par les acteurs publics:
    • Administrations centrales
    • Collectivités locales
  • Mise à disposition directe de certains jeux de données
  • Recense des réutilisations

Github : là où on trouve du code

  • Plateforme de mise à disposition de code
  • Beaucoup plus que seulement du code:
    • Documentation de projets
    • Sites web
  • Lieu de l’open source et de la recherche transparente

Observable: the new place to be

  • Plateforme de dataviz web
  • Emergence récente mais forte dynamique
    • Très complémentaire à R

Les sciences sociales quantitatives

Des métiers multiples dans l’administration

https://www.numerique.gouv.fr/uploads/RAPPORT-besoins-competences-donnee.pdf

Le tournant numérique des sciences sociales

  • Accès facilité à des données spatialisées ;

  • Acculturation aux SIG et langages statistiques ;

  • Développement de technologies web interactives (observable)

Références

Le tournant numérique des sciences sociales

We live life in the network. We check our e-mails regularly, make mobile phone calls from almost any location, swipe transit cards to use public transportation,and make purchases with credit cards. Our movements in public places may be captured by video cameras, and our medical records stored as digital files. We may post blog entries accessible to anyone, or maintain friendships through online social networks. Each of these transactions leaves digital traces that can be compiled into comprehensive pictures of both individual and group behavior, with the potential to transform our understanding of our lives, organizations, and societies.

Lazer et al. ,Computational Social Science, Science (2009)

La géographie quantitative

Une des premières cartes statistiques (1798)

La géographie quantitative

John Snow cartographie le choléra à Londres

Années 1950-1960 : révolution quantitative

Everything is related to everything else, but near things are more related than distant things.

W. Tobler, 1970, Economic Geography

  • Une science nomothétique : recherche des lois générales de l’organisation de l’espace
  • Une science appliquée : essor de la regional science, de l’économétrie spatiale

Années 2010 : tournant “digital” de la géographie quantitative

  • Quantification de masse de phénomènes spatiaux sociaux:
    • Déplacements, lieux fréquentés…
  • Intersection avec d’autres sciences : data science, CSS

Pourquoi faire du ?

Principe d’un langage open source

Principe général

Illustration avec R

Qu’est-ce que R ?

  • Logiciel statistique open source:
    • Langage de base
    • Packages étendent les fonctionnalités
  • Adoption importante dans le monde académique et l’administration
  • Beaucoup de ressources d’aide en ligne

Note

  • Naissance dans les années 1990 ;
  • Succès depuis les années 2010 (succès parallèle à Python)

Un logiciel couteau-suisse

  • Manipulation de données de tout type ;
  • Visualisation de données (dataviz), cartographie & SIG ;
  • Modélisation (machine learning, analyse de réseaux…) ;
  • Rédaction de mémoires, de site web, de slides (comme celles-ci 🤓)…

Un logiciel couteau-suisse

On peut tout faire en R:

Extrait de R for data science (la bible)

Transparence et reproductibilité

  • Traçabilité des statistiques et réalisations graphiques
  • Partage de code R permet une transparence méthodologique:
    • De plus en plus de journaux exigent les codes !
    • Encore des progrès à faire dans le domaine
  • L’utilisation de R Markdown rend plus efficace 🐢🔜🐇:
    • Suppression des fichiers intermédiaires (texte, excel, images…)
    • Gain de temps sur la mise en page (des millions d’heures économisées au bas mot)

Note

Voir cours dédié sur le sujet des bonnes pratiques (Insee très impliquée sur le sujet!)

Une communauté d’utilisateurs

  • Un logiciel opensource :
    • Gratuit, collaboratif
  • Beaucoup de packages:
    • sur le CRAN (The Comprehensive R Archive Network)
    • sur Github
  • Une communauté d’idéalistes de la science ouverte
  • Un pont vers les autres disciplines : sociologie, économie, biologie, sciences politiques etc.

Prise en main du SSP Cloud

Le SSP Cloud, c’est quoi ?

Le SSP Cloud, c’est quoi ?

  • Des serveurs hébergés à l’Insee avec de nombreux logiciels statistiques (dont R) dessus
  • Environnement ouvert aux agents de l’Etat et à des formations en data science pour découvrir et expérimenter
  • Seulement avec des données en open data

Note

Plus de détails dans la documentation du SSP Cloud ou dans utilitR

Pourquoi utiliser le SSP Cloud ?

  • Pénible d’installer R, RStudio et une ribambelle de packages
  • Mise à disposition d’un environnement standardisé:
    • TP parfaitement reproductibles
  • Un TP peut être lancé en un clic-bouton:
    • Exemple bouton TO DO

Créer un compte

  • Utiliser votre adresse @ens.fr pour créer un compte sur https://datalab.sspcloud.fr/
  • Votre nom d’utilisateur ne doit contenir ni caractères accentués, ni caractère spécial, ni signe de ponctuation:

Vous pouvez adopter le format prenomnom en faisant attention aux règles précédentes. Par exemple, si vous vous appelez Jérôme-Gérard L’Hâltère, votre nom d’utilisateur pourra être jeromegerardlhaltere.

Lancer un service RStudio

Aide-mémoire

Cliquer à gauche sur Catalogue de service

Lancer un service RStudio

Aide-mémoire

Laisser les options par défaut de RStudio

Lancer un service RStudio

Aide-mémoire

Récupérer le mot de passe des services RStudio

Lancer un service RStudio

Aide-mémoire

Autre manière de récupérer le mot de passe des services RStudio

Lancer un service RStudio

Aide-mémoire

S’authentifier sur le service

L’interface RStudio

Illustration empruntée à ce livre

Premier TP: se familiariser au langage de base