Chapitre 4 Pourquoi utiliser R?

Que vous effectuiez des statistiques descriptives (e.g. Excel), des analyses plus avancées (e.g. SAS, JMP, SPSS) ou des graphiques et des tableaux (e.g. Sigmaplot, Excel), il est facile de se perdre dans le flux de travail lorsqu’on utilise plusieurs logiciels. Ceci s’avère particulièrement problématique lorsqu’on doit importer ou exporter des données pour effectuer une tâche en aval. À chaque opération, on augmente le risque d’introduire des erreurs dans les données ou de perdre de vue le “bon” fichier de données. Le langage statistique R fournit une solution à ce problème en regroupant tous les outils nécessaires pour manipuler des données, effectuer des analyses statistiques et produire des graphiques sous un seul logiciel. En regroupant notre flux de travail sous le même toit avec R, on réduit la probabilité de faire des erreurs et on rend notre flux de travail beaucoup plus compréhensible et reproductible. Tout ceci en vaut grandement l’effort!

Au lieu d’utiliser une suite de logiciels…

Vous pouvez utiliser R pour générer des visualisations de données reproductibles, le tout dans un seul programme, R Studio.

Quel est l’avantage d’utiliser R pour la visualisation des données?

4.1 Reproductibilité

L’une des principales raisons d’utiliser R pour la visualisation est qu’elle rend votre graphique entièrement reproductible. Vous pouvez annoter votre script, ajouter des informations supplémentaires (ex. titres, étiquettes, légendes, etc.) et maintenir le code pour toutes les versions de vos figures afin de toujours savoir comment elles ont été produites.

La science reproductible demande des efforts, mais elle devient rapidement une norme de travail et constitue un investissement qui vous fera gagner beaucoup de temps, à vous et à vos collaborateurs, à long terme!

4.2 Puissantes fonctionnalités

Une autre raison d’utiliser R concerne ses puissantes fonctionnalités, comme ggplot2.

ggplot2 est la librairie la plus flexible et la plus complète disponible pour la visualisation avancée de données en R. Cette librairie a été créée pour R par Hadley Wickham sur la base de la Grammar of Graphics de Leland Wilkinson.

Le code source de la librairie `ggplot2` est hébergé sur GitHub: [github.com/hadley/ggplot2](https://github.com/hadley/ggplot2).

Figure 4.1: Le code source de la librairie ggplot2 est hébergé sur GitHub: github.com/hadley/ggplot2.

Dans cet atelier, nous nous concentrons uniquement sur ggplot2, mais il y a beaucoup d’autres outils et fonctions (https://insileco.github.io/wiki/rgraphpkgs/) qui peuvent être utilisés pour la visualisation (par exemple, base R, plotly, sjPlot, mapview, igraph). Voici quelques exemples de graphiques que vous pouvez faire avec la base R, ou avec ggplot2.

Un petit aperçu de figures que vous pouvez réaliser avec `base R` (row 1) et `ggplot2` (row 2), basées sur la librairie de données [`palmerpenguins`](http://cran.r-project.org/web/packages/palmerpenguins/index.html).

Figure 4.2: Un petit aperçu de figures que vous pouvez réaliser avec base R (row 1) et ggplot2 (row 2), basées sur la librairie de données palmerpenguins.

Nous nous concentrons sur ggplot2 en raison de sa versatilité.

1. ggplot2 vous permet de créer de beaux graphiques personnalisables;

2. ggplot2 implémente la grammaire des graphiques, qui est un système fiable pour construire des graphiques.

3. Il existe de nombreuses extensions pour ajouter encore plus de fonctionnalités à ggplot2, ce qui permet une multitude d’applications.