qu’est-ce que - julie schollerprÉsentation gÉnÉrale de r julie scholler - bureau b246...
TRANSCRIPT
PRÉSENTATION GÉNÉRALE DE R
Julie Scholler - Bureau B246
septembre 2018
I. Présentation
Qu’est-ce que ?• langage orienté vers le traitement de données et l’analyse
statistique• logiciel libre publié sous licence GNU GPL
I. Présentation
Usages
Les outils les plus courants permettent de réaliser des analysesstatistiques telles que
• statistiques descriptives : moyenne, médiane, variance, etc• tests d’hypothèses et intervalles de confiance• régressions linéaires• analyse factorielle• machine learning
et bien sûr• des graphiques
I. Présentation
Pourquoi utiliser R ?
Avantages
• multiplateforme (Linux, Mac oS X, Windows)• gratuit• très puissant car les fonctionnalités de base peuvent être
étendues à l’aide d’extensions (plus de 10 000)• possibilités de manipulation de données supérieures à un tableur• bonnes capacités graphiques et nombreuses possibilités d’export• les méthodes statistiques récentes sont rapidement disponibles
• communauté d’utilisateurs et de développeurs très active etréactive
• beaucoup d’aide, d’informations et de forum à ce propos sur leweb
I. Présentation
Inconvénients• logiciel et documentation de base en anglais (mais de plus en
plus de ressources en ligne en français)• R s’apparente davantage à un langage de programmation qu’à
un logiciel proprement dit
II. Installation
Logiciel R
http://www.r-project.org/
• rubrique Download, cliquer sur CRAN• choisir un site miroir en France• choisir la version en fonction de votre système d’exploitation
(pour Linux, il y a de fortes chances que R soit directementdisponible via le gestionnaire de paquets)
II. Installation
Logiciel R
http://www.r-project.org/
• rubrique Download, cliquer sur CRAN• choisir un site miroir en France• choisir la version en fonction de votre système d’exploitation
(pour Linux, il y a de fortes chances que R soit directementdisponible via le gestionnaire de paquets)
II. Installation
Logiciel R
http://www.r-project.org/
• rubrique Download, cliquer sur CRAN• choisir un site miroir en France• choisir la version en fonction de votre système d’exploitation
(pour Linux, il y a de fortes chances que R soit directementdisponible via le gestionnaire de paquets)
II. Installation
Interface RStudio
https://www.rstudio.com/
• cliquer sur Download RStudio dans le caroussel• choisir la version free de RStudio Desktop• choisir la version en fonction de votre système d’exploitation
(pour Linux, il y a des chances que RStudio soit directementdisponible via le gestionnaire de paquets)
II. Installation
Interface RStudio
https://www.rstudio.com/
• cliquer sur Download RStudio dans le caroussel• choisir la version free de RStudio Desktop• choisir la version en fonction de votre système d’exploitation
(pour Linux, il y a des chances que RStudio soit directementdisponible via le gestionnaire de paquets)
II. Installation
Interface RStudio
https://www.rstudio.com/
• cliquer sur Download RStudio dans le caroussel• choisir la version free de RStudio Desktop• choisir la version en fonction de votre système d’exploitation
(pour Linux, il y a des chances que RStudio soit directementdisponible via le gestionnaire de paquets)
III. RStudio
À l’ouverture de Rstudio, la fenêtre se partage ainsi :
ConsoleConsole Aide, fenêtre graphique, fichiers, packages
Scripts Données, historique
III. RStudio
À l’ouverture de Rstudio, la fenêtre se partage ainsi :
Console
Console Aide, fenêtre graphique, fichiers, packages
Scripts Données, historique
III. RStudio
À l’ouverture de Rstudio, la fenêtre se partage ainsi :
ConsoleConsole
Aide, fenêtre graphique, fichiers, packages
Scripts Données, historique
III. RStudio
À l’ouverture de Rstudio, la fenêtre se partage ainsi :
ConsoleConsole Aide, fenêtre graphique, fichiers, packages
Scripts
Données, historique
III. RStudio
À l’ouverture de Rstudio, la fenêtre se partage ainsi :
ConsoleConsole Aide, fenêtre graphique, fichiers, packages
Scripts
Données, historique
III. RStudio
À l’ouverture de Rstudio, la fenêtre se partage ainsi :
Console
Console
Aide, fenêtre graphique, fichiers, packages
Scripts Données, historique
IV. Premières manipulation
Début avec R
• R est une calculatrice
• création d’objet
• utilisation d’un script
• différents types d’objets
IV. Premières manipulation
Mode d’un objet
Les principaux modes d’un objet de R sont• numeric (valeur numérique) : 1, pi, 3.1416• logical (booléen, valeur logique) : TRUE, FALSE, T, F• character (chaîne de caractères) : "blabla"
Commande autour du mode d’un objet• connaître le mode d’un objet x : mode(x)• tester l’appartenance d’un objet à un mode en particulier :
is.numeric(x), etc.• convertir un objet d’un mode à l’autre : as.character(x)
IV. Premières manipulation
Structures de données
Vecteur• ensemble de valeurs toutes du même mode (numérique,
logique, etc.)
Matrice• tableau de valeurs toutes du même mode (numérique, logique,
etc.)
Facteur• vecteur adapté aux données qualitatives
Data frame• tableau dont les colonnes ont la même longueur mais les
colonnes peuvent être de modes différents
IMPORTATION, EXPORTATION DEDONNÉES ET DE GRAPHIQUES
Julie Scholler - Bureau B246
octobre 2018
I. Répertoire de travail
Connaître le répertoire de travail getwd()
Fixer le répertoire de travail setwd("nouveau-répertoire")
À la main
I. Répertoire de travail
Connaître le répertoire de travail getwd()
Fixer le répertoire de travail setwd("nouveau-répertoire")
À la main
II. Importation de données
• données extérieures sous forme de fichiers• formats : .txt., .csv, .xls, .xlsx, etc.
Pour les formats : txt et csv• read.table() ou read.csv() ou read.csv2()
Pour les formats : xls et xlsx• package xlsx• read.xlsx() ou read.xlsx2()
II. Importation de données
df <- read.table(file="fichierdedonnees.txt",header=FALSE, sep="",dec=".",row.names=-1,...)
• file : chemin vers le fichier (peut être une url)• header : si la première ligne contient les noms des variables• sep : caractère utilisé pour séparer les données• dec : séparateur décimal• row.names : valeur numérique spécifiant le numéro de la
colonne contenant les noms ou numéros d’individuss’il n’y en a pas row.names=-1
II. Importation de données
read.table(file, header=FALSE, sep="",dec=".")
read.csv(file, header=TRUE, sep=",",dec=".")
read.csv2(file, header=TRUE, sep=";",dec=",")
II. Importation de données
Formats Excel
Il faut d’abord avoir installer le package xlsx.
library("xlsx")
read.xlsx(file, sheetIndex, header=TRUE,...)
read.xlsx2(file, sheetIndex, header=TRUE,...)
• sheetIndex : nombre ou nom indiquant la feuille dudocument à importer
III. Exportation de données
write.table(x, file, sep = " ",dec = ".", row.names = TRUE, col.names = TRUE)
• x : objet R à écrire dans le fichier• file : chemin du fichier à créer• sep et dec : séparateurs de données et séparateur décimal à
utiliser dans le fichier créer• row.names et col.names : si les noms de ligne et de colonnes
sont conservés ou non dans le fichier créé
III. Exportation de données
Autres commandes
write.csv(x, file, sep = ",", dec = ".",row.names = TRUE, col.names = TRUE)
write.csv2(x, file, sep = ";", dec = ",",row.names = TRUE, col.names = TRUE)
library("xlsx")write.xlsx(x, file, sheetName="Sheet1", col.names=TRUE,
row.names=TRUE, append=FALSE)write.xlsx2(x, file, sheetName="Sheet1",col.names=TRUE,
row.names=TRUE, append=FALSE)
• append : si on ajoute la feuille à un nouveau document ou sion crée un nouveau fichier
IV. Exportation de graphiques
Syntaxe de base
pdf(file="nom_souhaité_du_fichier_du_graphique.pdf")#code de construction du graphiquedev.off()
jpeg(file="nom_souhaité_du_fichier_du_graphique.jpg")#code de construction du graphiquedev.off()
png(file="nom_souhaité_du_fichier_du_graphique.png")#code de construction du graphiquedev.off()
IV. Exportation de graphiques
Options générales
• height, width : hauteur et largeur de l’image (en pouces pourles pdf, en pixel sinon)
• pointsize : taille de l’écriture sur les graphiques (par défaut12)
Pur les pdf
• paper : taille du document• family : famille d’écriture
Pour les jpeg
• quality : qualité de l’image/taux de compression (entre 1 et100, par défaut 75)