Modifier



Depuis 2011, l'Etat français dispose d'un portail d'ouverture des données publiques : data.gouv.fr qui s'inscrit dans une politique de promotion de l'open data en France et une volonté de se hisser parmi les meilleurs "gouvernements ouverts" du monde. Le portail data.gouv.fr, plateforme où sont centralisés les jeux de données publics, est gérée et développée par Etalab, mission créée en 2011 et rattachée depuis à la DINSIC (l'agende étatique du numérique et des systèmes d'informations). Huit ans après son lancement, et trois ans après la promulgation de la loi sur la République Numérique, quel bilan pour le portail de l'Open Data français ?

1. Vue d'ensemble


En Juin 2019, on dénombre environ 30 000 jeux de données dans le catalogue du portail data.gouv.fr, pour 2350 organisations productrices de données, soit une moyenne de 12,7 jeux de données par organisation. Dans les faits, les écarts entre les organisations les plus prolifiques et les autres sont considérables.

En Janvier 2019, le portail data.gouv.fr a reçu un peu plus de 400 000 visites de 334 300 visiteurs uniques. Il comptabilise, sur la même période un peu moins de 130 000 téléchargements de jeux de données. Un volume considérable au vu du nombre de "réutilisations" de données mises en valeur dans le catalogue officiel (environ 1700 réutilisations). Si l'on considère que 130 000 jeux de données sont téléchargés par mois, cela équivaut à 1,56 millions de téléchargements en un an, et à un ratio téléchargements / réutlisations connues et valorisées sur le portail de 0,1%.

Que deviennent les 99,9% de jeux téléchargés dont la réutilisation n'est pas connue ? Difficile de conclure au vu des données disponibles dans le catalogue du portail, mais une nette problématique d'accessibilité aux "savoirs" de la data se dégage de l'ensemble de l'analyse. Se pose aussi la question de ce que l'Etat appelle une "valorisation utile" des données mises à disposition. L'Etat cherche en effet à valoriser certains types de projets (via les hackatons, le programme des startups d'Etat, etc.), souvent des créations d'applications et d'outils opérationnels ayant pour objectif de "moderniser l'action publique".

Les efforts engagés par les pouvoirs publics se poursuivent. Plusieurs programmes ont été mis en place pour "sortir l'open data des milieux d'experts" et en faciliter l'accès, aussi bien pour les agents de la fonction publique que pour le grand public. Il faut du temps pour que le savoir percole à travers la société mais aussi que chacun perçoive la plus-value des données ouvertes et l'immensité de leur potentiel.

2. Les jeux de données par popularité



Quels jeux de données intéressent le plus les visiteurs ? L'Open Data a pour objet la mise à disposition du grand public les données qui relèvent des compétences publiques, sans présumer de ce qui va "marcher" ou non. Certains jeux de données sont beaucoup plus plebiscités que d'autres, essentiellement par l'utilité qu'ils revètent pour construire des outils et des applications :

Le Ministère de l'intérieur arrive en tête en terme de popularité puisqu'il est le producteur du Répertoire National des Associations ainsi que du répertoire des associations reconnues d'utilité publique, les deux jeux de données combinant 233 500 vues. Il est important de distinguer le nombre de vues du nombre de téléchargements effectifs des jeux de données et de réutilisations que nous examinerons plus loin.

Made with Flourish



L'INSEE arrive en deuxième position avec les données issues du recensement de la population (que l'on retrouve aussi en téléchargement depuis le site de l'INSEE) et la base SIRENE des entreprises (environ 9 millions d'entrées) du pays. Le Ministère de l'économie arrive en troisième position avec des données relatives aux valeurs foncières, au cadastre, à la nomenclature douanière et aux voies et lieux dits. La Poste intéresse aussi le grand public avec sa base de données des codes postaux. Viennent ensuite le Ministère du Travail avec la liste des organismes de formation professionnelle, le Premier Ministre avec le contenu du site service-public.fr, OpenStreetMap avec le découpage communal du territoire français, suivi par le cadastre réédité par Etalab (la mission qui gère et développement le site data.gouv.fr).



3. Qui sont les producteurs de données ?



Made with Flourish


Plus de la moitié des jeux de données disponibles émanent de l'échelon départemental. Il faut ici prendre en compte l'obligation légale d'ouverture gratuite des données pour les collectivités de plus de 3500 habitants inclue dans la loi pour la République Numérique de 2016. Ainsi en 2018, 343 collectivités territoriales avaient ouvert au moins un jeu de données. Il faut rappeler que 4510 collectivités sont concernées au total : il subsiste donc un écart important à combler.

Parmi les organisations les plus profiliques sur data.gouv.fr, on trouve en tête trois directions départementales des territoires (ou DDTs), des organismes publics sous l'autorité des Services du Premier Ministre qui ont pour compétence la promotion du développement durable et la cartographie des risques naturels. Les DDTs ne sont pas à confondre avec les Conseils Départementaux qui sont eux, des collectivités territoriales. Les données des DDT relèveraient théoriquement de l'échelon gouvernemental plus que du territorial, ce qui peut expliquer l'impressionnant volume des jeux de données partagés par les DDTs et leur prédominance sur le portail data.gouv.fr.

En quatrième position des organisations les plus "partageuses" de données, on retrouve la métropole de Lyon, très engagée dans l'ouverture de ses données, suivie de la région Ile-de-France, puis de la DREAL d'Aquitaine (un organisme piloté par le Ministère de la Transition écologique et solidaire ainsi que par le Ministère de la Cohésion des Territoires), puis encore trois DDT et le Ministère de l'Intérieur (561 jeux de données concernant surtout l'immigration).

Made with Flourish



L'observatoire de l'Open Data rappelle dans son baromètre de l'Open Data 2018 que 45% des acteurs publics exposent leurs données sur une plateforme territoriale dédiée, que 34,5% des acteurs exposent leurs données sur data.gouv.fr et que seulement 20,5% des acteurs publient leurs données à la fois sur une plateforme dédiée et sur le portail data.gouv.fr. Ainsi il demeure délicat de tirer des conclusions quant à l'open data "en France" en se basent uniquement sur les statistiques du portail data.gouv.fr où les grandes institutions étatiques, les DDT et les DREAL ainsi que les grandes métropoles et agglomérations sont plus représentées que les départements et que les petites communes.

A ce titre il est intéressant de croiser le tableau de bord expérimental produit par l'Observatoire sur l'Open Data avec cette analyse qui ne porte que sur les données du portail data.gouv.fr.

4. Des données sur quels sujets ?



L'urbanisme, le zonage et les risques naturels occupent une large proportion des jeux de données disponibles sur data.gouv.fr. Il s'agit de l'ensemble des documents officiels (PPRI, Plan Local d'Urbanisme, Plan d'Occupation des Sols...) qui sont déjà consultables par le public dans les différentes administrations locales.

Viennent ensuite la thématique du transport (des horaires de bus, de tram, des tracés, l'inventaire des arrêts d'une ligne, etc.), les données sur la mer, les rivières et la gestion de l'eau en général, puis des données sur l'environnement et le paysage (cartographies, inventaires de biodiversité, études sur les nuisances sonores...).

La thématique électorale (résultats d'élections, listes de bureaux de votes) est suivie par les données sur le budget, l'agriculture, l'éducation et la data (des points géodésiques, des catalogues de jeux de données par exemple).


Le Global Open Data Index classe la France au 4ème rang mondial de l'ouverture de ses données, avec un score de 70% (derrière Taïwan, l'Australie et la Grande Bretagne). Deux principales catégories de données feraient défaut d'après l'Open Knowledge Foundation qui produit cet index : ce qui relève du budget de l'Etat et de la propriété foncière (land ownership). La France est aussi dans le rouge sur la thématique des cartographies nationales, les données relatives à la qualité de l'eau et aux projets de loi (l'ensemble des discussions qui entourent la formulation et la promulgation d'une loi).

En ce qui concerne le foncier, la situation a évolué récemment (Avril 2019) avec l'ouverture des données foncières sur les cinq dernières années. et le lancement du site cadastre.data.gouv.fr..

Made with Flourish



5. Les réutilisations de données



Sur les 1650 réutilisations de données comptabilisées par le portail data.gouv.fr, 46% sont des applications, 40% des visualisations de données, 5% sont des APIs, 5% des articles et le reste se répartit en "idées", "hardware", "articles d'actualité" et "articles de fond". Le type de réutilisation qui suscitent le plus de vues sont les applications et les visualisations.

Made with Flourish



Dans les réutilisations les plus populaires, on trouve : la carte des bornes de recharge pour véhicules électriques, le plan cadastral français, l'application "trouver une boîte" qui cartographie l'emplacement des boîtes aux lettres en France, l'application d'Etalab sur la demande de valeur foncière (DVF), ou bien encore l'application Réseaux Mobile France qui localise en temps réel les antennes relais du pays.

D'autres réutilisations très créatives existent, comme l'observatoire des métropoles, l'article "Ce que l'orientation des rues de Paris nous dit de son histoire" qui mêle les données d'Openstreetmap à un exercice de géomatique et de recherches historiques sur Paris, ou encore la recherche de la ville mystère à partir d'indices liés aux températures et à l'hygrométrie.

6. Quel bilan pour data.gouv.fr ?



Les chiffres actuels (Juin 2019) démontrent que la réutilisation des données publiques s'opère de manière encore discrète, avec cependant de nombreuses réutilisations abouties et très utiles qui sont souvent le fruit du travail de professionnels de la data et/ou d'Etalab en collaboration avec des acteurs partenaires. On constate aussi que plus de la moitié des jeux de données mis à disposition sur data.gouv.fr ne sont ni consultés, ni téléchargés, et donc pour le moment non valorisés.

Est-ce une simple question de "délai d'appropriation" par le grand public et les acteurs de la société civile ? On peut mettre en cause la qualité de ces fichiers (données mal uniformisées par exemple) même si Etalab met un point d'honneur à accompagner les organisations dans le choix, la mise en forme et le téléversement de leurs fichiers.

Ouvrir les données sans les mettre en forme ni en accompagner l'usage par le grand public ne suffit pas à "ouvrir le gouvernement" : c'est un véritable cheminement qui nécessite de nombreux corps intermédiaires, des relais de compétences, de sensibilisation et d'information. La qualité des jeux de données est aussi disparate, certains jeux nécessitent de longues heures et/ou quelques manipulations d'uniformisation et de nettoyage pour être utilisables, à commencer par le catalogue du portail data.gouv.fr lui-même .
Le chemin parcouru est indéniable, mais il reste encore beaucoup à faire pour que le potentiel de l'open data se déploie à sa juste mesure avec des retombées positives pour l'ensemble de la société.



Toutes les données utilisées pour réaliser cet article ont été téléchargées depuis cette page : https://doc.data.gouv.fr/api/telecharger-un-catalogue-de-donnees/

Les visualisations graphiques ont été réalisées avec l'outil Flourish.sudio .

A lire sur le sujet :
Mabi Clément, « La plate-forme « data.gouv.fr » ou l’open data à la française », Informations sociales, 2015/5 (n° 191), p. 52-59. URL : https://www.cairn.info/revue-informations-sociales-2015-5-page-52.htm

Le rapport d'Open Data France paru en Juin 2019 : "A quoi servent les données publiques ? Mise en perspective des meilleurs cas d’usages des données publiques ouvertes" : qui confirme certaines intuitions de cette courte analyse à propos du chemin qu'il reste à parcourir pour mieux cartographier les réutilisations, les mettre en valeur et les favoriser en amont des processus d'ouverture des données.




Post suivant Post précédent