Sei sulla pagina 1di 3

COMANDO SPIEGAZIONE

#COMAMDI INTRODUTTIVI DI R (SI VEDA IL MANUALE PER ULTERIORI INFORMAZIONI)


getwd() per identificare la directory di lavoro
setwd("nome") per cambiare la directory, ma più veloce usare
il menù a tendina file -> cambia directory
ls() serve per vedere la lista degli oggetti inclusi
nella directory
x<-21.2 | y<-"prova" inserire un oggetto x (si può usare anche l’ = )
z<-c(2,-4,5.2,-4,6) Per inserire una lista di oggetti
w<-c("questa", "è", "una", "prova")
str(z) per vedere la struttura dell'oggetto
# PER ESTRARRE DEGLI ELEMENTI SI USANO GLI INDICI CORRISPONDENTI IN PARENTESI QUADRA
z[2] | z[1:4] | z[c(1,3)] Per estrarre degli elementi
length(z) per vedere il numero di elementi
rm(y) per rimuovere un oggetto
rm(list=ls()) per rimuovere TUTTO
z_pos<-(z>0) Per scoprire proprietà di un oggetto (T/F)
z==2 per vedere se ci sono elementi =2
is.na(z) Per vedere se ci sono dati mancanti (NA)
#MATRICI (SONO RIEMPITE PER RIGA, SALVO ARGOMENTI AGGIUNTIVI NEL COMANDO)
A<-matrix(data=c(2,1,4,5,1,2,4,7,6,10,3,12), Per creare la matrice
nrow=3, ncol=4, byrow=TRUE) cosa succede se mettete un vincolo errato?
Se minori taglia dati, se maggiori ricomincia a
scrivere i dati
Se scordo nrow/ncol: mette in automatico
A[1,2] | A[2,] | A[c(1,3),1:3] per selezionare elementi della matrice
dim(A) per vedere le dimensioni della matrice A
# DATI QUALITATIVI:
dati<-c("s","i","b","b","o","s","i","b" …) usato per definire le modalità di una variabile
risultato<-factor(dati) qualitativa (o categorica)
levels(risultato) per conoscere i livelli del fattore
risultato<-factor(dati, levels=c("i","s","b","o"), se la variabile è ordinabile posso (devo)
ordered=TRUE) ordinare i livelli
#DATA FRAME CONTENGONO TUTTI I DATI (DI QUALSIASI TIPO)
classe<-data.frame(esami_superati,risultato) DATA FRAME contengono tutti i dati (di
qualsiasi tipo)
View(classe) per vedere il data-set nella workshop
classe$esami_superati gli oggetti definiti nel data-frame vanno
richiamati come: NOME DATA-FRAME$NOME
OGGETTO
attach() evitare di richiamare il nome del data frame
(attenzione ai nomi uguali!)
# HELP
help(“nome oggetto”) | ?”nome oggetto” vedere la sua sintassi e gli argomenti previsti
mean(esami_superati) Media
mean(esami2, na.rm=TRUE) si devono togliere i dati mancanti (non calcola)
#PRIMI COMANDI DI STATISTICA DESCRITTIVA (IN PROGRAMMA)
# DISTRIBUZIONI DI FREQUENZA
table(risultato) in termini di frequenze assolute
table(risultato)/lenght(risultato) in termini di frequenze relative
# GRAFICI
pie(distr_risultato) Grafico a torta
main Titolo
labels Etichette
col=rainbow(4) Colore arcobaleno 4
col=c(“purple”,”green”) Colori definiti
Barplot|xlab=”nome”|names.arg=c(“…”,”…”,”…”) Diagramma a barre | nome x/y | nome barra
hist(“nomevariabile”,breaks=c(10,20,…)| n.classi) Crea un istogramma
Boxplot(“nome_variabile”) Crea il boxplot
#ALTRO
pizzerie$Price Nome_data_frame$nome_variabile
nome<-read.csv2("nome_file.csv", na.string=aaa) na.string si usa se in Excel il carattere "aaa" è
stato usato per segnalare i dati mancanti, se la
casella è vuota non si mette nulla
Se il file non è nella directory di lavoro di R, il nome del file deve contenere tutto il percorso
Alternativamente si cambia la directory di lavoro e la si posiziona nella cartella dove c'è il file da
aprire Rstudio ha un menù che consente l'importazione diretta di vari tipi di file, compresi Excel

# MODELLO DI REGRESSIONE SEMPLICE


COMANDO SPIEGAZIONE
plot(x,y, main="diagramma di dispersione", Diagramma di dispersione
xlab="prezzo", ylab="incremento % vendite")
cor(x,y) coefficiente di correlazione fra X e Y

#MODELLO LINEARE
COMANDO SPIEGAZIONE
mod1<-lm(y~x) effettua la regressione di Y su X
mod1 fornisce solo la retta di regressione

#GRAFICO
COMANDO SPIEGAZIONE
plot(y~x, main="diagramma di dispersione", Diagramma di dispersione
xlab="prezzo", ylab="incremento % vendite")
abline(mod1, col="red") aggiunge la retta di regressione (colore rosso)

#ALTRE INFORMAZIONI
COMANDO SPIEGAZIONE
summary(mod1) fornisce molti risultati utili (vedere il manuale)

#SCOMPOSIZIONE DELLA VARIANZA (ANOVA): R2 E STIMA DELLA VARIANZA DEL MODELLO


COMANDO SPIEGAZIONE
anova(mod1)
SSR<-anova(mod1)[1,2]
SSE<-anova(mod1)[2,2]
SST<-sum(anova(mod1)[,2])
R_squared<-SSR/SST in "R" il coefficiente di determinazione è chiamato
Multiple R-squared
sigma_2_hat<-SSE/(n-2) stima di 𝜎 2 , coincide con Mean Sq Residuals (MSE)
sqrt(sigma_2_hat) stima di 𝜎, coincide con Residual standard error
#INFERENZA SUI COEFFICIENTI
COMANDO SPIEGAZIONE
summary(mod1) stima puntuale e test
confint(mod1,level=0.99) stima per intervallo

#PREVISIONE (SI PUÒ FARE PER UNO O PIÙ VALORI DI X)


COMANDO SPIEGAZIONE
dati_previsione<-data.frame(x=c(12250,13500)) previsione per x=12250 e x=13500
predict(object=mod1,newdata=dati_previsione) stima puntuale
predict(object=mod1,newdata=dati_previsione,interval per un intervallo sulla previsione della media
= "confidence",level=0.95)
predict(object=mod1,newdata=dati_previsione,interval per un intervallo sulla previsione di una singola
= "prediction",level=0.95) unità

#GRAFICO RESIDUI
COMANDO SPIEGAZIONE
plot(mod1) produce diversi grafici, ottenibili dando ogni volta
un invio; il primo grafico è quello dei residui verso i
valori stimati; per proseguire si deve finire di
vedere i grafici
plot(mod1, which=1) produce solo il primo grafico

Potrebbero piacerti anche