Utilisation du logiciel libre R
Pourquoi R ? Parce que c’est l’outil statistique à la mode.
Mais on pourrait tout aussi bien utiliser Python (et Pandas). Tout outil pour “faire dire tout et n’importe quoi” des data
sera approprié.
Ceci est un “notebook”, c’est à dire un document qui fait apparaître les traitements appliqués sur les données en parallèle avec les commentaires, avisés ou pas, du rédacteur.
Un extrait du catalogue Hipparcos, contenant une liste de 9999 étoiles. Seuls les champs suivants ont été retenus :
Certaines lignes sont incomplètes.
cata1
.cata1 <-read.csv2("hip9999.csv")
names(cata1)
## [1] "SpType" "Fe_H" "B_V" "VMag"
Listons maintenant les types des données (chaînes de caractères, nombres, autres…)
str(cata1)
## 'data.frame': 9999 obs. of 4 variables:
## $ SpType: Factor w/ 1521 levels " ",..: 608 1269 448 526 999 1355 1150 1484 895 694 ...
## $ Fe_H : Factor w/ 184 levels " "," 0.00",..: 1 1 1 92 1 1 1 1 1 1 ...
## $ B_V : Factor w/ 1859 levels " "," 0.000",..: 481 990 1744 369 894 1318 739 1091 1056 488 ...
## $ VMag : Factor w/ 1018 levels ""," 0.00"," 0.01",..: 1 584 961 247 1 1 582 1 1 381 ...
Quelque chose d’ennuyeux ici : les champs Fe_H, B_V, Vmag sont considérés comme des factor
(pas des nombres flottants). Il va falloir effectuer une conversion.
Exemple ici : convertir les indices de couleur en nombres flottants. Les valeurs converties sont stockées dans la variable BV
.
BV<-as.numeric(as.character(cata1$B_V))
Les valeurs B-V initiales (cinq premières valeurs) :
cata1$B_V[0:5]
## [1] 0.482 0.999 -0.019 0.370 0.902
## 1859 Levels: 0.000 0.001 0.002 0.003 0.004 0.005 ... -0.359
Les mêmes, converties en nombres flottants.
BV[1:5]
## [1] 0.482 0.999 -0.019 0.370 0.902
C’est bon : les valeurs numériques décimales sont listées comme les valeurs textuelles dont elles découlent.
La fonction summary
de R est particulièrement instructive.
summary(BV)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## -0.3590 0.4228 0.6500 0.7456 1.0840 2.8350 83
Voici la liste des informations listées dans chaque colonne :
On appelle ce genre de représentation une “boîte à moustache”.
Voici comment la tracer avec R.
boxplot(BV, xlab = "B-V")
Remarques :