La quantité d'impôts que l'on paye est-elle corrélée avec la quantité de route construite chez nous ?

Voir la réponse !

Scrollez pour plus d'info...

Étapes du projet

Il a d'abord fallu récupérer les données spécifiques à notre question, c'est à dire:

Les données de l'INSEE

Pour récupérer les données de l'insee, il faut passer par leur api, qui n'est pas très bien documentée, et comprendre comment faire une requête.

Après avoir surmonté cet obstacle, on peut se rendre compte que l'INSEE limite le nombre de requêtes à 30 par minute, ce qui est beaucoup trop lent pour parcourir les environ 36000 communes de France en un temps correct.

Une solution simple, bien que longue à mettre en place, est de créer 30 clés d'API et d'alterner à chaque requête.

30 clés d'API de l'INSEE

Les données sur les impôts sont masquées pour les zones de moins de 1000 ménages, par secret statistique, ce qui limite le nombre de communes ayant des données sur les impôts à seulement 4000.

La donnée sur les impôts se trouve dans le tableau "revenus", et est représenté par un nombre négatif ; ce nombre représente, pour le "ménage moyen" de la zone, la part des revenus qui partent dans leurs impôts.

Les données d'OSM

La récupération des données de l'insee s'est faite par une simple requête à l'api overpass d'OSM (instance principale), répétée une fois par zone. Pour les zones plus grandes, comme les départements, le serveur a mis trop de temps à calculer et a donc abandonné la requête.

Les données ont directement pu être fusionnées avec les données de l'insee.

Une donnée supplémentaire non utilisée dans l'application est le type de routes ; en effet, l'application ne différencie actuellement pas une autoroute d'une ruelle. Prendre en compte cette donnée (qui est présente dans le dataset final) pourrait améliorer la visualisation.

Les données des zones

Une fois les données de la question récupérées, il a fallu les afficher sur une carte. Pour cela, il a fallu obtenir un GeoJSON des zones françaises, pour pouvoir les afficher dans Leaflet.

Trouver ces données a été compliqué car les datasets trouvés sur data.gouv.fr sont soit dans un mauvais format (EPSG:3575, qui définit les points en mètres, par opposition à EPSG:4326 qui définit les points en degrés), soit plus à jour (il y a eu des changements au COG en 2015 et en 2022.

Nous avons au final trouvé les données dans le bon format dans un projet github, qui ne semble pas indiquer leur provenance, mais qui sont complètes et bien structurées.

L'étape finale a été de tout fusionner en trois gros fichiers, contenant respectivement les données pour les communes, les départements ainsi que leurs arrondissements.