Sei sulla pagina 1di 20

[00:01] Dans cette premire session, on va sintresser au langage de base donc :

- comment importer des donnes enregistres, par exemple, dans un fichier Excel ?
- comment manipuler des variables de type numrique et des variables de type catgoriel ?

1
[00:14] Pour interagir avec R, on va utiliser le logiciel R Studio qui se tlcharge sur le site
rstudio.com. En bas de la page, on trouvera un lien pour le tlchargement. Cest un logiciel
qui fonctionne sous Linux, sous Windows et sous Mac et qui, globalement, facilite
grandement linteraction avec R.

2
[00:30] On a ici un panneau qui sappelle console (et qui est globalement la console que
vous avez lorsque vous lancez R depuis Mac ou Windows), dans laquelle on peut taper des
commandes. On va avoir accs un explorateur de fichiers ; donc, pour toute la dure de ces
sessions, on va crer un fichier ou on va supposer que vous avez cr un rpertoire qui
sappelle mooc

3
[00:50] dans lequel vous avez enregistr le fichier smp2.csv que vous pouvez trouver en
tlchargement sur le site du cours. Cest un fichier tabul qui a t, par exemple, gnr
partir dExcel et qui comporte des variables en colonnes et des observations en lignes.

4
[01:07] Ce que lon va faire dans un premier temps, cest dfinir ce rpertoire-l comme le
rpertoire de travail

5
[01:12] et charger le fichier en tapant la commande read.csv2(). On va associer ce
fichier une variable que lon appellera smp et on utilisera toujours ce nom de variable
pour tous les labs. Donc ici on va taper simplement le dbut du nom de fichier et taper sur la
touche tab qui permet de complter automatiquement les noms de fichier ou les noms
de commande. On voit que la variable smp , qui est ce que lon appelle un data frame
sous R, comprend 799 observations et 26 variables. On peut mme visualiser directement les
donnes laide du visualisateur interne. On a par exemple la premire variable, ici age ,
pour laquelle on a les observations. Donc le premier individu a 31 ans, le deuxime a 49 ans.

6
[01:59] Pour avoir accs au nom des variables, on utilise la commande names() et R va
nous renvoyer le nom de lensemble des variables qui sont contenues dans le data frame.

7
[02:08] On peut galement utiliser la commande str() qui nous permet dafficher, pour
chacune des variables, son mode de reprsentation. Ici une variable quantitative, donc des
nombres, et pour la profession, une variable qualitative que R appelle des facteurs avec 8
niveaux. On a gnralement accs un aperu des premires observations.

8
[02:32] On peut galement utiliser la commande summary() qui va nous fournir un rsum
numrique univari pour chacune des variables (pour les variables numriques : les
indicateurs de tendance centrale, de dispersion et dtendue et pour les variables
qualitatives : un tableau deffectifs associs chacune des modalits). On voit par exemple
quici on a une variable numrique, ici une variable catgorielle

9
[02:55] et par exemple la variable abus est une variable binaire mais R, ici, la traite
comme une variable numrique ; on y reviendra juste aprs.

10
[03:01] La commande summary() fonctionne galement pour les variables directement et
non pas seulement pour les data frames. Pour accder une variable sous R, on tapera le
nom du data frame suivi de dollar et suivi du nom de la variable qui nous intresse. Donc
ici, la commande summary() est applique directement la variable age . Le minimum
vaut 19, le maximum vaut 83 et on a ici deux valeurs manquantes qui sont reprsentes par
le symbole NA .

11
[03:28] On peut trs bien taper directement smp$age mais dans ces cas-l, R va nous
renvoyer lensemble des observations, ce qui nest pas toujours trs pratique.

12
[03:28] On peut, en revanche, nafficher que la premire observation. Dans ces cas-l, on
mettra entre crochets le numro dobservation qui nous intresse. Ici la premire
observation ; on peut vrifier quil sagit bien dun ge de 31. On peut galement indiquer
1:10, cest--dire de la premire la dixime observation.
Notez ici que ce nest pas toujours la peine de retaper systmatiquement les commandes. En
utilisant les flches haut et bas , vous pouvez naviguer dans lhistorique des
commandes.

On peut par exemple chercher la valeur minimale pour lge et on saperoit finalement que
R va nous renvoyer la valeur NA .

13
[04:16] Pourquoi ? Alors il suffit daller regarder laide, laide de la commande help(), et
de taper le nom de la commande qui nous intresse. On saperoit que lorsque R calcule le
minimum, il nenlve pas les valeurs manquantes. Dans ces cas-l, il renverra une valeur
NA pour dire quil ne peut pas calculer lge minimum.

14
[04:33] On peut par contre prciser que, pour calculer la valeur minimale, on souhaite
enlever les valeurs manquantes, en rajoutant loption na.rm=TRUE.

Si on sintresse maintenant la variable abus , on peut regarder par exemple les


premires valeurs de la variable abus . On voit quon a des valeurs en 0 et 1. On peut
dailleurs utiliser la commande unique() pour lister lensemble des modalits uniques qui
sont observes pour cette variable. Dailleurs, plutt que de taper directement
smp$abus[1:10], on peut trs bien utiliser la commande smp, la commande head()
pardon, avec smp et indiquer quon veut afficher les dix premires valeurs.

15
[05:24] Nous avons donc une variable, abus , qui est contenue dans le data frame smp .
Le nombre total dobservations sobtient avec la commande length() par exemple. a
correspond globalement au nombre de lignes de notre tableau smp . On peut utiliser la
commande table() qui va nous renvoyer le tableau deffectifs associs chacune des
modalits. Or on voit ici quune des modalits qui avait t liste est la valeur NA , ce qui
suggre quil y a des valeurs manquantes pour notre variable smp$abus . Donc, lorsquon
utilise la commande table(), on utilisera toujours useNA="always" comme option
pour tre sr de bien afficher les valeurs manquantes. Ici, R nous liste 7 valeurs manquantes
pour cette variable-l.

La variable ici est toujours traite comme une variable numrique. Dailleurs si on fait
summary(smp$abus), on a bien un rsum avec les autres indicateurs dtendue.
Souvent on prfrerait que cette variable-l soit bien traite comme une variable qualitative
et pour a, on va utiliser la commande factor(). Donc, lorsquon regarde les premires
observations, on va juste remplacer notre variable en utilisant la commande factor(). Ce
qui va changer : R ne change rien aux valeurs de la variable mais il va lui associer des niveaux
et ici les niveaux sont 0 et 1 .

16
[06:47] Donc ce quon va faire, cest par exemple crer une nouvelle variable et dire que cest
la variable smp$abus mais traite comme facteur. Il faut rajouter par contre, cest que
lon va lui spcifier que les niveaux quil a associs, donc 0 et 1 , vont tre associs aux
tiquettes non et oui . Donc la variable abus a t cre dans lespace de travail ;
elle est spare, distincte, du data frame et on voit maintenant que notre variable a donc les
modalits non et oui qui ont t associes aux niveaux 0 et 1 . On peut toujours
lister les valeurs manquantes sparment.

[07:31] Regardons maintenant une autre variable qualitative, par exemple le nombre
denfants. Le nombre denfants qui a t rapport par les rpondants. Donc si on regarde les
premires observations de cette variable-l, on voit quon a des valeurs numriques.
Dailleurs on peut utiliser summary() et vrifier que R considre que cette variable-l est
une variable numrique. Mais maintenant regardons effectivement la rpartition des
effectifs : on saperoit que le nombre denfants minimal vaut 0 et le nombre denfants
maximal vaut 13 . Cest ce que lon avait dans le rsum numrique prcdent.

17
[08 :12] Et on peut regarder galement le nombre denfants qui sont suprieurs 4 par
exemple. Donc on a 58 valeurs qui remplissent la condition le nombre denfants est
suprieur 4 , ce qui correspond globalement lensemble de ces valeurs-l. Donc ce quon
pourrait trs bien faire, cest crer une nouvelle variable nombre denfants quon va
appeler cat , qui est en fait notre variable nombre denfants traite cette fois-ci
comme un facteur et pour laquelle on va simplement dresser un tableau deffectifs. Cette
fois-ci on peut vrifier que la variable a bien des niveaux qui lui sont associs. Donc ici jai pris
la valeur n.enfant , il faudrait prendre la valeur n.enfant.cat . Donc on a bien 13 niveaux
qui ont t associs. On peut dailleurs vrifier le nombre de niveau avec la commande
nlevels(). Supposons maintenant quon souhaite agrger les derniers niveaux ; on va
simplement reprendre linstruction levels() et on va indiquer que pour les niveaux allant
de 6 13, on va considrer que cest une modalit unique qui sappelle 5+ . Si maintenant
on redresse un tableau deffectifs de notre nouvelle variable (si on appuie sur la touche
tab on a deux choix possibles, donc on va prendre n.enfant.cat ), on voit bien que les
effectifs ici ont t agrgs dans la mme classe, donc a correspond tous ces effectifs-l.
On peut faire exactement la mme chose avec une variable numrique comme cest indiqu
dans le tutoriel en version pdf pour ce lab (fichier labs.pdf).

18
[09:48] Maintenant on va simplement sauvegarder notre fichier de donnes smp en
format R (on voit quon a une variable n.enfant.cat qui a t ajoute ce fichier) en
utilisant la commande save(). On va lui donner le nom du data frame suivi du nom du
fichier. On va appeler a smp_v1.rda et on peut vrifier que dans notre rpertoire de
travail, on a bien un fichier smp_v1.rda qui a t cr.

19
[10:18] On peut faire la mme chose avec lhistorique (ici R enregistre automatiquement
toutes les commandes quon tape) et pour a on va utiliser la commande savehistory()
et on va simplement donner le nom dun fichier, quon va appeler ici commandes.R .

20

Potrebbero piacerti anche