31 mai 2018, Statistique appliquée en sciences sociales de l’Ined : Révolution des données, évolution des pratiques

Big Data et statistique publique : contexte

  • Digitalisation et arrivée des données massives (Big Data) "interpellent" la statistique publique
  • mouvement poussé par Eurostat, remplacement des sources traditionnelles (enquêtes) ? memorandum Schevenigen, 2013, Task Force, ESSnet: mutualiser, acquérir de l'expérience, identifier les sources intéressantes, construire des pilotes
  • mouvement poussé par les acteurs privés (Billion Prices Project, Flux Vision,…)
  • Digitalisation: nouvelles sources de données, science des données, capacités de stockage et de traitement, machine learning, analyse textuelle, réseaux, IA, Data analytics,…

Big data : de quelles nouvelles (?) données parle-t-on ?

  • Traces numériques générées par l'activité des individus : contenu web et réseaux sociaux, enregistrements automatiques (téléphonie mobile, géolocalisation, capteurs routiers, données de caisse, transactions bancaires, données de gestion d'acteurs privés, compteurs intelligents, objets connectés), images satellites
  • Vélocité (accès quasi immédiat), Volumineuses , et de formats Variés (données non structurées)
  • Potentiel de ces nouvelles données: granularité spatiale fine, disponibilité rapide et continue (réduction délais de publication), réduction du fardeau de réponse, mesures objectives (dépenses, déplacements)
  • Limites : données secondaires (comme des données administratives), souvent peu pertinentes, incomplètes, non représentatives (biais), capacités techniques d'accueil et de pré-traitement (volume, variété), formats changeants, accès restreint (privé)

Remplacement ou complément du dispositif statistique actuel ?

Objet de la présentation

  • au travers de l'exemple des données de téléphonie mobile
  • un tour des travaux en partenariat entre Orange et Insee, dans l'équipe de Pauline Givord (DMAEE, DMCSI, Insee)
  • DMAEE, donnant lieu à la création de l'unité SSP Lab (DMCSI).
  • potentiels, limites, apports

Téléphonie mobile : les données

  • collaboration avec Orange Lab SENSE, Eurostat, Insee
  • accès à un jeu de données à des fins de recherche (Cnil)
  • données ne sortent pas de l'infrastructure d'Orange (accès dans leurs locaux)
  • comptes-rendus d'appel (Call Details Records) entre Mai à Octobre 2007: qui appelle qui? quand? d'où vers où? + qui texte ou reçoit un texto quand ? où ?
  • 18 millions de cartes Sim, 3.5 teras de données
  • CDRs enrichis d'informations issues du fichier client pour 2/3 des abonnés (âge, sexe, département de résidence)
  • chaque appel/texto émis ou reçu, capté par l'antenne la plus "proche",

Localisation sujette à la répartition des antennes

Localisation sujette à la répartition des antennes

1- Données suffisantes pour retrouver le zonage en aires urbaines (ZAUER) ?

"Mining Mobile phone Data to Detect Urban Areas", Vanhoof M., Combes S., de Bellefon M.P. (2017), SIS 2017 Statistics and Data Science: new challenges, new generations, proceedings p1005

  • Enjeu

    mise à jour plus rapide et moins couteuse du zonage en aires urbaines et aires d'emploi de l'espace rural (ZAUER) entre deux labels officiels

  • données agregées au niveau de l'antenne, profils d'activité journalière des antennes par heure (24 variables), selon les jours de la semaine/ week-end, été/non été (4x24 variables)

  • classification supervisée : forêts aléatoires, boosting, régression logistique pénalisée

  • résultats

    bonne détection des grands pôles urbains, performances moyennes pour les autres classes

2- Retrouve-t-on la population résidente telle qu'estimée dans les sources officielles ?

"Allô, t'es où? Estimer la population résidente à partir des données de téléphonie mobile, une première exploration", de Bellefon, M.-P., Givord, P., Sakarovitch, B., Vanhoof, M., mimeo 2018

  • Enjeu
  • à titre exploratoire… avant d'utiliser ce type de données dans le tourisme, les mobilités, etc.
  • un seul opérateur, parts de marché non uniformes sur le territoire, taux de pénétration, maillage des antennes (approximation sur la localisation), des variables à "construire" (lieu de résidence) … quelle est l'ampleur des approximations?

  • Démarche
  • on s'intéresse à la population résidente car les informations exhaustives géolocalisées (Fichier Localisé Social et Fiscal, Filosofi) fournissent une référence
  • on approche l'ampleur des différentes approximations : localisation induite par le maillage des antennes, détection du domicile…en comparant à la population résidente estimée dans Filosofi

Le maillage des antennes induit une approximation de localisation de forte ampleur

  • on agrège l'information issue des bases fiscales au niveau du maillage des antennes et on en interpole un niveau communal à comparer au niveau officiel
  • sous-estimation de population dans les zones denses, surestimation dans les zones creuses

Détection du domicile

Inférer le lieu de résidence grâce au profil d'appels/texto de l'individu, utile à de nombreuses études

  • lieu rassemblant le plus d'activités au cours du mois
  • lieu d'activités le plus régulier au fil des jours (du mois)
  • lieu rassemblant le plus d'activités en soirée, nuit et matin, au cours du mois
  • lieu rassemblant la majorité des activités dans un rayon d'un km

comparaison avec le fichier client, des résultats très proches, le lieu rassemblant le plus d'activités au cours du mois performe le mieux

Une estimation de population résidente approximative

  • données partielles: taux de pénétration du mobile (Arcep) 86 %, part de marché de l'opérateur 47%
  • on corrige du taux de pénétration départemental de l'opérateur (comparant aux données fiscales, sorte de calage au niveau départemental)

Variations saisonnières de lieu de résidence

  • données en continu, observer les aspects dynamiques pour compléter les indicateurs classiques

Eléments conclusifs

  • pas de remplacement des statistiques officielles
  • mais des compléments intéressants exploitant les atouts de ces données (granularité temporelle)

3- Eclairage sur la ségrégation en milieu urbain ?

"Ségrégation urbaine: un éclairage par les données de téléphonie mobile", contribution JMS 2018, Galiana L., Sakarovitch, B., Smoreda, Z.

  • Enjeu
    étudier la ségrégation sociale dans une autre dimension que la ségrégation résidentielle (versant le plus étudié)
  • données mobiles sont par nature des mesures (fiables) d' interactions (téléphoniques) sociales : qui appelle qui?
  • complément dynamique à la vision statique qu'offrent les indicateurs de ségrégation résidentielle

  • Démarche
  • combiner les données mobiles aux données fiscales géolocalisées (filosofi, 2011) qui caractérisent les individus par leurs revenus (par UC)
  • Paris, Marseille, Lyon, + périphéries: zones denses en antennes
  • définir le lieu de résidence de l'individu à partir de son profil d'appels/textos
  • pour lui attribuer un revenu (médian sur ce lieu de résidence, au carreau)
  • définir et calculer un indicateur de ségrégation sociale individu par individu

La détection du lieu de résidence

  • lieu de résidence déterminé au niveau du carreau de 500m2 : le mode des localisations de l'individu au cours du mois
  • détection plutôt bonne mais trop forte concentration des résidences sur les axes de transport/communication

Indice de ségrégation sociale

  • distance sociale adaptée au revenu (variable continue) à partir des rangs

Indice de ségrégation sociale

  • mesure l'exposition aux interactions avec des individus "éloignés socialement": moyenne pondérée par le nb d'interactions des distances sociales entre un individu et ses contacts

Les habitants des zones les plus pauvres et les plus riches les plus ségrégués, Paris plus ségréguée que Marseille et Lyon

Eléments de bilan

  • En cours
  • indice de ségrégation physique (co-présence dans le même lieu),
  • tirer aléatoirement un revenu plutôt qu'affecter le revenu médian,
  • améliorer la détection du domicile
  • comparer à d'autres indicateurs de ségrégation

  • Limites
  • biais si le choix de l'opérateur est lié au revenu, avec des écarts selon le lieu de résidence
  • biais du choix du mode d'interactions sociales
  • reproductibilité de l'étude: non stabilité des modes de communication (whatsapp, applis…), demande de s'adapter au caractère changeant des communications numériques

Autres projets de l'Insee

  • Blanchet, Givord (2017) "Données massives, statistique publique et mesure de l'économie", Economie Francaise 2017 - Comptes et dossiers.

  • Indice des prix : données de caisse de la grande distribution (production en 2020), scraping ; Léonard, Sillard, Varlet, Zoyem (2015) "Scanner data and quality adjustment", Insee ; Sillard (2013) "Les données de caisse : vers des indices de prix à la consommation à utilisé constante", DT Insee-DSDS, n°F1305
  • nowcasting
  • mesure de l'économie numérique

  • impliquant le SSP Lab
  • Logs enregistrées d’exercices et stratégies de réponse des élèves [Depp]
  • Accords de branche, quelle protection pour les salariés ? une approche par textmining.
  • Données satellitaires et statistique publique [DMS]
  • "Les champs de Sirene": identification automatique de l'employeur pour enrichir/corriger les informations issues du recensement [hackathon interne SSP] -Données sociales nominatives, détection d'anomalies et data edition, l'apport du machine learning [DSDS] -Machine learning pour la prédiction des carrières [IPP, PSE]

Merci de votre attention