Dans cet article nous allons parler de la visualisation des données, étape fondamentale de la data science. Plus particulièrement de la visualisation des données via python et les différentes librairies qui nous avons à disposition.
La visualisation des données est une partie essentielle du pipeline de la data science. Lors des premières étapes d’un projet, vous effectuerez souvent une analyse exploratoire des données afin d’avoir une compréhension plus profonde de vos données. Parfois, nous ne voyons aucun sens dans notre data set tant que nous ne les avons pas sous une forme visuelle, telle que des graphiques et des histogrammes ou des maps.
La visualisation des données participe vraiment à rendre les choses plus accessibles et plus faciles à comprendre, en particulier avec des jeux de données de grandes dimensions et de grandes tailles. Au moment de terminer le projet, il est important de pouvoir présenter vos résultats finaux de manière simple, concise et convaincante, afin que votre public, qui est souvent un client non technique, puisse comprendre.
Aujourd’hui, nous proposons d’étudier 10 bibliothèques de visualisation des données Python, des plus populaires aux plus obscures.
Matplotlib
Matplotlib est la librairie de référence et la plus populaire dans le monde de la data science. Cette dernière, Matplotlib, est sortie en 2003, avec une gamme très large de types de tracé 2D et propose aussi un grand nombre de formats de sortie. Dans la gamme des plots offerte par Matplotlib on peut entre autre tracer des histogrammes des heat map ou encore des camemberts.
Vous trouverez une liste exhaustive des plots proposés par Matplotlib en suivant ce lien : https://matplotlib.org/tutorials/introductory/sample_plots.html
Avantages:
- Peu de code requis pour créer une visualisation
- Outil puissant, une vaste gamme de visualisation des données
- Supporte les calculs numériques et matriciels
SEABORN
La librairie Seaborn se base sur Matplotlib. Seaborn fournit une interface de haut niveau pour la création de graphiques statistiques attractifs et informatifs en Python. Être de haut niveau cela signifie qu’il est plus facile de générer certains types de tracés, notamment des cartes thermiques, des séries chronologiques. Les styles et les palettes de couleurs par défaut de Seaborn sont beaucoup plus sophistiqués que Matplotlib.
Comme Seaborn est construit sur matplotlib, vous devez connaitre matplotlib pour bien gérer Seaborn.Seaborn propose sur son site une introduction pour se lancer avec cette librairie.
Voici le lien : https://seaborn.pydata.org/introduction.html#introduction
Avantages:
- Cree de magnifique graphs en quelques lignes de codes
- L’esthétique de vos visualisation est sublimée
- Offre des tracés intégrés, tels que des tracés de facettes et des tracés de régression, que Matplotlib ne gère pas.
GGPLOT
Ggplot est une bibliothèque de visualisation des données python basée sur ggplot2 de R et Grammar of Graphics. Cet outil vous permet de créer des plots en utilisant une interface de haut niveau sans vous soucier des détails de la mise en œuvre. Ggplot fonctionne différemment de Matplotlib, en effet GGplot permet aux utilisateurs de superposer des composants pour créer un tracé complet. Par exemple, l’utilisateur peut commencer par les axes, puis ajouter des points, puis une ligne, une courbe de tendance, etc. Línterface graphique se veut intuitive pour le de traçage. Cependant, les utilisateurs expérimentés de Matplotlib peuvent avoir besoin d’un temps d’adaptation afin de maitriser parfaitement cet outil.
Avantages:
- Offre une interface simple et puissante
- Combine les data sets multiple en des graphes simples
- Offre une large variete grande variété de superpositions de lissage personnalisables avec beaucoup de paramètres par défaut
- Offre une facilité pour créer des graphiques jolis et élaborés.
- Offre beaucoup de couleurs par défaut et de courbes esthétiques
PLotly
Vous connaissez certainement Plotly en tant que plate-forme en ligne de visualisation de données, mais saviez-vous également que vous pouvez accéder à ses fonctionnalités à partir d’un Jupyter notebook Python? La force de Plotly réside dans la création de tracés interactifs. Il propose des diagrammes introuvables dans la plupart des bibliothèques, tels que les tracés de contour.
Cet outil offre également d’autres styles de visualisation des données, tels que les diagrammes de dispersion, les graphiques linéaires, les graphiques à barres, les barres d’erreur, les diagrammes à barres, l’histogramme, les axes multiples, les sous-graphiques et autres. C’est l’un des meilleurs outils open source pour la composition, l’édition et le partage de la visualisation interactive de données via le Web. Il contient une excellente API, dont une pour Python.
Avantages:
- Librairie stable avec API simple
- Différents format de fichiers sont pris en charges
- Facilement à modifier car cela permet de cliquer sur différentes parties et paramètres du graphique sans connaître le code.
- Compatible aves un grand nombre de langages tels que R, Python…
- Est disponible en ligne et peut être facilement partagé avec plusieurs personnes.
- Syntaxe simple
Bokeh
Bokeh, comme ggplot, est également basé sur The Grammar of Graphics. Il prend également en charge la diffusion en continu et les données en temps réel. Sa proposition de vente unique réside dans sa capacité à créer des tracés interactifs prêts pour le Web, qui peuvent facilement être générés sous forme d’objets JSON, de documents HTML ou d’applications Web interactives.
Bokeh fournit trois interfaces avec différents niveaux de contrôle pour s’adapter à différents types d’utilisateurs. Le niveau le plus élevé concerne la création rapide de graphiques. Il inclut des méthodes pour créer des graphiques communs tels que des graphiques à barres, des graphiques en boîtes et des histogrammes. Le niveau intermédiaire a la même spécificité que matplotlib et vous permet de contrôler les blocs de construction de base de chaque graphique (les points dans un diagramme de dispersion, par exemple).
Pygal
À linstar de Plotly, Pygal, propose des tracés interactifs pouvant être intégrés à un navigateur Web. Sa principale difference est le fait qu’avec cette librairie on peut de produire des graphiques en tant que SVG (Scalable Vector Graphics). Pour les travaux impliquant des jeux de données plus restreint , les SVG conviendront parfaitement. Par contre, pour les graphes contenant des milliers et des milliers de points de données, ils deviennent lents et ont du mal à s’afficher.
C’est l’une des meilleures bibliothèques Python offrant des tracés interactifs pouvant être intégrés au navigateur Web. Construire des visualisations avec Pygal est assez simple. Les plots proposés par Pygal sont les suivants: ligne, barre, histogramme, radar, boîte, pyramide, treemap, point, etc.
Avantages:
- Il peut créer une présentation SVG, offrant ainsi un meilleur travail avec les fichiers interactifs.
- Offre un style unique et visuellement agréable avec quelques lignes de code.
Geoplotlib
Geoplotlib est une librairie utilisée pour le traçage des données géographiques et créer visualisations geographigues, telles que des cartes, des planispheres, des cartes routieres des cartes thermiques et des cartes de densité de points. Pyglet (une interface de programmation orientée objet) doit être installé pour utiliser Geoplotlib.
Comme la plus part des librairies de visualisation ne proposent pas de la visualisation geographique, cette librairie est un must qu’’il vous faut maitriser.
Pour en savoir plus sur Geoplotlib cliquez sur ce lien: https://github.com/andrea-cuttone/geoplotlib
Avantages:
- Meilleure librairie de tracage geographique
- Simple d’utilisation grâce qu github consacre
Dans un autre article nous parlerons de la visualisation des données via R et quelles sont les librairies les plus populaires :