24/11/2015
Disponibilité croissante de sources de données diverses : quelles opportunités pour la statistique publique ?
De quelles données parle-t-on ?
Peuvent Ăªtre comparĂ©es Ă des donnĂ©es administratives mais plus grosses et/ou moins structurĂ©es et/ou plus variĂ©es.
Plusieurs intĂ©rĂªts identifiĂ©s :
Il existe toutefois des limitations Ă leur utilisation :
pas de maitrise par le statisticien du processus de génération des données (changement de format, de contenu)
Rq : défauts des sources administratives, mais en pire
Outre les limites propres aux diverses sources de données, leur utilisation en production soulèverait des questions d’ordre :
Le projet le plus mature au sein de l'INSEE concerne l'amélioration des indices de prix à la consommation via l'intégration des données de caisses de la grande distribution:
IntĂ©rĂªts :
Dans le cadre de travaux plus exploratoires, la division MAEE (département des méthodes statistiques) s'intéresse depuis un an à :
Participation à un groupe de réflexion animé par Eurostat (Task Force Big Data), l'Europe cherchant à :
Participation au projet " Big Data " collaboratif organisé par l'UNECE depuis 2014, visant notamment à évaluer le potentiel des sources de données et des logiciels à l'aide d'une plateforme Big Data dédiée à l'expérimentation.
Les diffĂ©rents projets Ă©voquĂ©s rĂ©lèvent d'un intĂ©rĂªt rĂ©cent pour des sources de donnĂ©es non utilisĂ©es jusque lĂ . Celles-ci peuvent Ăªtre de nature variĂ©e, structurĂ©es ou non, volumineuses ou non.
Le terme science des données se réfère à l'ensemble des techniques et technologies visant à acquérir des données, les stocker, les traiter, les visualiser et les modéliser.
Au sein de ce champ, les Big Data tiennent une place particulière. En effet, caractérisées par des volumes trop importants pour les logiciels usuels, leur utilisation repose sur un modèle significativement différent.
Pour les utiliser, il est donc nécessaire d'adapter son architecture informatique tant matérielle que logicielle, et d'acquérir les compétences nécessaires pour l'utilisation par le statisticien de ces logiciels
Le choix d'intégrer ces données dans un process n'est donc pas neutre.
La manipulation des Big Data impliquant des adaptations en termes organisationnels significatifs, une telle transition de doit Ăªtre motivĂ©e que par des donnĂ©es suffisamment grosses ou dont l'Ă©chantillonnage entraĂ®nerait une perte d'information dommageable
En raison de son développement récent (une dizaine d'années), l'écosystème Big Data est encore très largement dominé par les informaticiens.
Un environnement informatique adapté est en effet essentiel à la manipulation de Big Data :
Le concept Ă la base du traitement des Big Data est la distribution des fichiers qui sont trop volumineux pour Ăªtre centralisĂ©s sur une mĂªme machine.
On parle de passage à l'échelle, quand l'ajout de nouveaux serveurs ne remet pas en cause toute l'architecture de stockage ni les implémentations des traitements.
Typiquement, si on veut faire des comptages, on peut distribuer les opérations de comptage sur chaque serveur et ensuite agréger les résulats. L'ajout d'un serveur n'aura pas d'impact significatif. Cette opération passe bien à l'échelle.
Pour généraliser ce principe à des traitements plus complexe, un mécanisme d'exécution/modèle de programmation simple et relativement générique a été proposé : MapReduce.
Il est implémenté dans plusieurs frameworks (dont le framework open source Hadoop).
MapReduce propose de dĂ©composer l'ensemble des opĂ©rations Ă rĂ©aliser en deux types de tĂ¢ches Ă©lĂ©mentaires et uniformes, les Map et les Reduce.
Chaque donnĂ©e passe d'abord par une tĂ¢che Map et ensuite, transformĂ©e par celle-ci, Ă©ventuellement par une tĂ¢che Reduce.
Par exemple, la multiplication d'une grande matrice x vecteur \(y=M \times x\) oĂ¹ \(y_i=\sum^n_{j=1} m_{ij}x_j\)
Ce mécanisme est assez contraignant.
Le mĂ©canisme de reprise sur panne impose le stockage des rĂ©sultats des opĂ©rations Reduce, mĂªme lorsqu'ils ne sont qu'intermĂ©diaires.
En particulier, lorsque les algorithmes rencontrĂ©s sont itĂ©ratifs, les opĂ©rations des Map et Reduce doivent Ăªtre dĂ©finies dans le cadre d'une mĂªme itĂ©ration, et les rĂ©sultats doivent Ăªtre stockĂ©s pour Ăªtre repris dans l'itĂ©ration suivante.
La solution de Spark (2009) est de conserver les rĂ©sultats intermĂ©diaires dans la mĂ©moire vive des nÅ“uds de calcul et de garder l'historique des opĂ©rations ayant permis d'obtenir ces donnĂ©es. En cas de panne, l'historique permet de recalculer les donnĂ©es perdues.
L'impact sur les algorithmes itĂ©ratifs est très sigificatif, une accĂ©lĂ©ration de 10 fois peut Ăªtre observĂ©e.
La gestion de données sans format prédéfini ou avec des formats très spécifiques fait également appel à des briques technologiques ou services dédiés.
SGBD Cassandra, MongoDB, bases de donnĂ©es orientĂ©es graphe, moteur de recherche Elasticsearch, logiciels de visualisation…
Il est vrai qu'aujourd'hui ces technologies ne sont pas matures :
des traitements statistiques basiques ne sont pas encore implĂ©mentĂ©s et nĂ©cessitent donc d'Ăªtre reprogrammĂ©s (ex rhadoop)…
Certains logiciels ont encore des interfaces peu conviviales pour certains nécessitant l'apprentissage de langages (java, scala),
les logiciels tournent en général sur des serveurs dont le système d'exploitation est Linux,
Mais, de nouvelles versions sortent très régulièrement et des connections avec Python, et R se développent. Il est probable que d'ici quelques temps, l'utilisation de ces logiciels soit transparente pour le statisticien.
Le sujet n'est donc pas tant la formation du statisticien Ă de nouveaux langages de programmation, mais sa familiarisation avec son outillage informatique :
La manipulation des Big Data, ou de nombreuses sources de données diverses et variées, doit finalement requérir :
que le statisticien et l'informaticien travaillent en bonne intelligence, ce dernier pouvant Ă©galement aider le premier Ă s'approprier un logiciel rapidement, Ă acquĂ©rir des donnĂ©es de format variĂ© et hĂ©tĂ©rogène, Ă se familiariser avec des technologies web si besoin…
que le statisticien soit flexible : capable d'Ă©largir sa boĂ®te Ă outils (nouveaux langages Ă©ventuellement, nouveaux logiciels, optimisation numĂ©rique et machine learning peuvent Ăªtre un plus si non dĂ©ja maĂ®trisĂ©s…)
Les grosses données peuvent générer des difficultés pour la modélisation, la prédiction, l'interprétation, la visualisation..
Des problèmes classiques comme l'inversion de matrices nĂ©cessaires au calcul d'estimateurs, l'Ă©chantillonnage… doivent Ăªtre repensĂ©s en prenant en compte la prĂ©cision statistique et le temps de calcul (parfois au niveau de l'algorithme, parfois au niveau mĂ©thodologique par exemple les random projections).
Inversement, la présence de nombreuses observations et/ou variables donne l'opportunité d'explorer plus avant des techniques non paramétriques, non linéaires, avec une meilleure prise en compte de l'hétérogénéité.
S'agissant des techniques de prédiction, Big Data et machine learning sont souvent associés, pourquoi ?
Une discipline qui n'est pourtant pas nouvelle, mais qui revient en avant avec les progrès technologiques permettant de manipuler un grand nombre de données dans un temps raisonnable.
On parle en gĂ©nĂ©ral des algorithmes suivants : rĂ©gression pĂ©nalisĂ©e, arbres de classification et ensemble d'arbres (forĂªts alĂ©atoires, bagging, boosting), rĂ©seaux de neurones, svm, classifieurs bayĂ©siens naĂ¯fs…
Ces techniques sont surtout utilisées en prédiction et reposent sur l'automatisation la sélection de modèles, ce qui est particulièrement intéressant lorsque l'on dispose d'un grand nombre d'observations mais surtout de nombreuses variables.
L'apprentissage automatique ou Machine Learning se distingue de l'Ă©conomĂ©trie traditionnelle dans le sens oĂ¹ son application est plus systĂ©matique et repose sur la minimisation d'un critère.
Elle s'embarrasse assez peu de formalisation thĂ©orique : - ni en amont avec des hypothèses - ni en aval avec des tests, calcul d'intervalles de confiance…
Le principal risque provient de l'interprĂ©tabilitĂ© limitĂ©e de ces approches…
on parle souvent de boîte noire, certaines méthodes n'offrent aucun moyen de mesurer l'influence des variables
Lorsqu'on peut les calculer, les pvalue ne sont pas forcĂ©ment interprĂ©tables, les variables peuvent Ăªtre plus facilement significatives compte tenu du nombre Ă©levĂ© d'observations.
les mĂ©thodes ne gèrent pas systĂ©matiquement les problèmes d'endogĂ©nĂ©itĂ©, de multicolinĂ©aritĂ©, la significativitĂ© d'une variable n'implique pas la causalitĂ©….
… pouvant entraĂ®ner une mauvaise spĂ©cification des modèles.
Le fait de disposer d'un grand nombre de variables peut générer un bruit dans la modélisation, surtout si on pense qu'en réalité seul un petit nombre d'entre elles jouent un rôle (parcimonie)
Plus on prend en compte de variables ou de paramètres, plus on est capable de produire un ajustement parfait du phénomène étudié, sans que cela n'assure de bonnes performances en prévision (surapprentissage)
mĂªme lorsque l'on sĂ©lectionne des variables pour rĂ©duire la dimension, il y a des risques Ă l'automatisation complète (exemple d'une procĂ©dure automatique de variables sur la base de corrĂ©lations empiriques : il est probable d'observer des corrĂ©lations artificielles/fortuites d'autant plus qu'on dispose d'un très grand nombre de variables)…
Mais ces solutions ne suffisent pas à évacuer complètement des questions standards comme celle de la causalité et du rôle joué par les variables dans les modèles : exemple avec Google Flu.
En 2008, Google produit un indicateur avancĂ© de l'Ă©pidĂ©mie de grippe Ă partir des requĂªtes des utilisateurs du moteurs de recherche.
Intuitivement, il est crĂ©dible de penser que les requĂªtes du moteur de recherche Google peuvent Ăªtre porteuses d'information (comportement d'achats par exemple, recherche d'emploi).
De plus, ces données sont séduisantes car disponibles quasiment en temps réel.
A l'origine, cet indicateur s'avère assez performant.
Cependant, parmi les milliers de variables intégrées dans la construction de cet indicateur en raison de leur forte corrélation avec l'indicateur officiel, un certain nombre l'ont été de façon abusive et ont, par conséquent, participé à détériorer les performances de l'indicateur.
En dépit de leur médiatisation actuelle, ces techniques ne constituent pas des solutions miracle, pertinentes pour tous les problèmes.
Elles n'en restent pas moins très populaires dans certains secteurs tels que le marketing (système de recommandation), le web (classement des pages, identification des images, reconnaissance faciale…), gĂ©nĂ©tique…
… elle peuvent s'avĂ©rer intĂ©ressantes pour nous dans des domaines d'application ciblĂ©s (classification, prĂ©vision macroĂ©conomique, imputation, outlier detection…).
Mais une utilisation plus large de ces mĂ©thodes en lien avec l'Ă©conomĂ©trie et l'infĂ©rence causale devra Ăªtre davantage encadrĂ©e (recherche active sur ces sujets).
Il n'y a pas de définition claire des Big Data mais ce sont d'abord des données massives, ou plus largement de nature variée plus ou moins structurée.
Lorsqu'elles sont vraiment volumineuse, la manipulation de ces donnĂ©es peut nĂ©cessiter un environnement informatique, une organisation et des compĂ©tences multiples. Investir ce champ n'est donc pas toujours neutre et doit Ăªtre bien pesĂ© dans un environnement en Ă©volution permanente.
Sur le plan statistique, un certain nombre de reflexes doivent Ăªtre repensĂ©s, mais l'abondance de variables ou d'observations ne doit pas encourager l'utilisation systĂ©matique de protocoles complètement automatisĂ©s.