Chapter 15 La famille des fonctions apply().

R dispose de la famille de fonctions apply(), qui consiste en des fonctions itératives qui visent à minimiser votre besoin de créer explicitement des boucles.

15.1 apply()

Considérons que nous avons une matrice height contenant la hauteur (en mètres) qui a été prise sur cinq individus (en lignes) à quatre moments différents (en colonnes).

(height <- matrix(runif(20, 1.5, 2), nrow = 5, ncol = 4))
##          [,1]     [,2]
## [1,] 1.691396 1.861329
## [2,] 1.777942 1.895174
## [3,] 1.953130 1.983252
## [4,] 1.679086 1.707914
## [5,] 1.741854 1.642045
##          [,3]     [,4]
## [1,] 1.992518 1.996868
## [2,] 1.805761 1.936988
## [3,] 1.881694 1.908409
## [4,] 1.754626 1.563224
## [5,] 1.999025 1.578285

Nous aimerions obtenir la hauteur moyenne à chaque pas de temps.

Une option consiste à utiliser une boucle for() {} pour itérer de la colonne 1 à 4, utiliser la fonction mean() pour calculer la moyenne des valeurs, et stocker séquentiellement la valeur de sortie dans un vecteur.

On peut aussi utiliser la fonction apply() pour qu’elle applique la fonction mean() à chaque colonne de la matrice height. Voir l’exemple ci-dessous :

apply(X = height, MARGIN = 2, FUN = mean)
## [1] 1.768682 1.817942 1.886725
## [4] 1.796755

La fonction apply() commence avec trois arguments principaux : X, qui prendra une matrice ou un cadre de données ; FUN, qui peut être n’importe quelle fonction qui sera appliquée aux MARGINs de X ; et MARGIN qui prendra 1 pour les calculs en ligne, ou 2 pour les calculs en colonne.

15.2 lapply()

lapply() applique une fonction à chaque élément d’une liste (list).

La sortie retournée est aussi une liste (ce qui explique le “l” de lapply) et a le même nombre d’éléments que l’objet qui lui est passé.

SimulatedData <- list(SimpleSequence = 1:4, Norm10 = rnorm(10),
    Norm20 = rnorm(20, 1), Norm100 = rnorm(100, 5))
# Apply mean to each element of the list

lapply(X = SimulatedData, FUN = mean)
## $SimpleSequence
## [1] 2.5
## 
## $Norm10
## [1] -0.3972813
## 
## $Norm20
## [1] 1.01914
## 
## $Norm100
## [1] 4.987916

Les opérations lapply() effectuées dans des objets différents d’une list seront converties en list via base::as.list().

15.3 sapply()

sapply() est une fonction ‘enveloppante’ pour lapply(), mais retourne une sortie simplifiée sous forme de vecteur (vector), au lieu d’une liste (list).

SimulatedData <- list(SimpleSequence = 1:4, Norm10 = rnorm(10),
    Norm20 = rnorm(20, 1), Norm100 = rnorm(100, 5))

# Apply mean to each element of the list
sapply(SimulatedData, mean)
## SimpleSequence         Norm10 
##      2.5000000      0.1311853 
##         Norm20        Norm100 
##      1.2072686      5.0339621

15.4 mapply()

mapply() fonctionne comme une version multivariée de sapply().

Il appliquera une fonction donnée au premier élément de chaque argument d’abord, puis au deuxième élément, et ainsi de suite. Par exemple :

lilySeeds <- c(80, 65, 89, 23, 21)
poppySeeds <- c(20, 35, 11, 77, 79)

# Output
mapply(sum, lilySeeds, poppySeeds)
## [1] 100 100 100 100 100

15.5 tapply()

tapply() est utilisé pour appliquer une fonction sur des sous-ensembles d’un vecteur.

Elle est principalement utilisée lorsque l’ensemble de données contient des groupes différents (i.e. niveaux/facteurs) et que nous voulons appliquer une fonction à chacun de ces groupes.

head(mtcars)
##                    mpg cyl
## Mazda RX4         21.0   6
## Mazda RX4 Wag     21.0   6
## Datsun 710        22.8   4
## Hornet 4 Drive    21.4   6
## Hornet Sportabout 18.7   8
## Valiant           18.1   6
##                   disp  hp
## Mazda RX4          160 110
## Mazda RX4 Wag      160 110
## Datsun 710         108  93
## Hornet 4 Drive     258 110
## Hornet Sportabout  360 175
## Valiant            225 105
##                   drat    wt
## Mazda RX4         3.90 2.620
## Mazda RX4 Wag     3.90 2.875
## Datsun 710        3.85 2.320
## Hornet 4 Drive    3.08 3.215
## Hornet Sportabout 3.15 3.440
## Valiant           2.76 3.460
##                    qsec vs am
## Mazda RX4         16.46  0  1
## Mazda RX4 Wag     17.02  0  1
## Datsun 710        18.61  1  1
## Hornet 4 Drive    19.44  1  0
## Hornet Sportabout 17.02  0  0
## Valiant           20.22  1  0
##                   gear carb
## Mazda RX4            4    4
## Mazda RX4 Wag        4    4
## Datsun 710           4    1
## Hornet 4 Drive       3    1
## Hornet Sportabout    3    2
## Valiant              3    1
# get the mean hp by cylinder groups
tapply(mtcars$hp, mtcars$cyl, FUN = mean)
##         4         6         8 
##  82.63636 122.28571 209.21429