We extract all the scientific texts from an imaginary corpus containing various genres of text. Our
hypothesis is that in scientific texts the number of verbs for each sentence is larger that that in the
population.
The file general.txt contains the measures obtained from the population while in the file scitexts.txt
we have the measures from scientific texts.
Each row contains the mean number of verbs for each sentence contained in a specific text.
Test our hypothesis and draw some conclusions.
H0: La media del numero dei verbi per frase nei testi scientifici non differisce in maniera
statisticamente significativa dalla media del numero dei verbi per frase nella popolazione dei testi;
X = mugenverbs or X-mugenverbs = 0
H1: La media del numero dei verbi per frase nei testi scientifici differisce in maniera statisticamente
significativa dalla media del numero dei verbi per frase nella popolazione dei testi;
X ≠ mugenverbs or X-mugenverbs ≠ 0
Descrizione dei dati
Prima di tutto, è necessario estrarre i dati, caricare su R le tabelle contenenti rispettivamente i valori
del campione di testi scientifici e i valori della popolazione e mostrarne le strutture (“str”)
corrispondenti.
Poiché sia i verbi dei testi scientifici sia quelli della popolazione sono denominati indistintamente
“VERBS”, è più che opportuno salvarli in due vettori diversi (“sciverbs” per i verbi dei testi scientifici
e “genverbs” per i verbi dei testi della popolazione).
Calcoliamo quindi le medie per “sciverbs” e “genverbs” con le rispettive variazioni standard.
Possiamo osservare che la media del numero dei verbi dei testi scientifici è
sicuramente più alta rispetto alla media di quelli della popolazione.
Test statistici
Per potere concludere che la media del numero dei verbi nei testi scientifici è più grande in maniera
statisticamente significativa rispetto alla media del numero dei verbi presenti nella popolazione
servirà eseguire il t-test goodness-of-fit.
Per potere eseguire questo test, sarà però prima necessario eseguire per due volte il test Shapiro-
Wilk (una per “sciverbs”, l’altra per “genverbs”) per constatare che i dati sono distribuiti in maniera
statisticamente non dissimile dalla distribuzione normale. Se “sciverbs” e “genverbs” sono distribuiti
in maniera statisticamente non dissimile dalla distribuzione normale, potremo allora eseguire il t-
test goodness-of-fit.
Formuliamo le ipotesi per i due test Shapiro Wilk (il test si applica su H0):
1) “sciverbs”
H0: I dati sono distribuiti in maniera statisticamente non dissimile dalla distribuzione normale;
W = 0;
H1: I dati sono distribuiti in maniera statisticamente dissimile dalla distribuzione normale;
W ≠ 0.
Avendo constatato che le due diverse misure di “sciverbs” e “genverbs” sono distribuite
normalmente, possiamo eseguire il t-test goodness of fit, che ci permetterà di concludere se la
media del numero dei verbi nei testi scientifici è più grande in maniera statisticamente significativa
rispetto alla media del numero dei verbi presenti nella popolazione (mu=2.984291).
Concludiamo dunque: la media del numero di verbi nei testi scientifici è di 3.47377 con una
deviazione standard di 1.589029. Secondo un t-test one-sample, questa media è più grande in modo
molto significativo rispetto alla media del numero dei verbi presenti nella popolazione (mu =
2.984291, sd. = 0.8088): t = 3.0779, df = 99, 0.001 < ptwotailed < 0.01.
PROJECT 5
We are often interested in the relationship between variables. For example, we may want to
investigate the link between examination stress during University exams and examination
performance. The variables we may want to measure are the following:
Subject
Revise: number of hours spent revising
Exam: mark on the exam as a percentage
Anxiety: the score on an Exam Anxiety Questionnaire (0-100)
Gender
In this example experiment there were 103 subjects.
Explore possible dependencies between all the experiment variables, in particular among Revise,
Exam and Anxiety.
Prima di tutto, carichiamo il data frame in R, eseguiamo l’attach e mostriamo la struttura del data
frame.
1) Revise
2) Anxiety
3) Exam
1) Revise
La media dei voti all’esame è di 56.57282 con un valore di deviazione standard pari a
25.94058. In questo istogramma rappresentante i voti all’esame si evidenzia più
omogeneità rispetto ai due precedenti. Una buona fetta di studenti ha comunque
preso un voto tra 60 e 80 all’esame.
In generale, i dati di “Revise” e “Anxiety” non sembrano essere distribuiti normalmente, mentre
potrebbero esserlo i dati di “Exam”. Possiamo toglierci ogni dubbio eseguendo tre diversi test
Shapiro-Wilk per ciascuna delle variabili.
Test Shapiro Wilk
1) Revise
Formuliamo le seguenti ipotesi:
H0: I dati di Revise sono distribuiti in maniera statisticamente non dissimile dalla distribuzione
normale;
W = 0;
H1: I dati di Revise sono distribuiti in maniera statisticamente dissimile dalla distribuzione
normale;
W ≠ 0.
2) Anxiety
Formuliamo le seguenti ipotesi:
H0: I dati di Anxiety sono distribuiti in maniera statisticamente non dissimile dalla distribuzione
normale;
W = 0;
H1: I dati di Anxiety sono distribuiti in maniera statisticamente dissimile dalla distribuzione
normale;
W ≠ 0.
W = 0;
H1: I dati di Exam sono distribuiti in maniera statisticamente dissimile dalla distribuzione normale;
W ≠ 0.
Nessuna delle tre variabili è distribuita in maniera statisticamente simile alla distribuzione
normale.
Per esplorare tutte le possibili dipendenze, è utile intrecciare i valori di ciascuna variabile tramite
la funzione pairs.
Osserviamo dal grafico delle possibili dipendenze tra le variabili Revise, Exam e Anxiety, mentre non
sembrano affatto esservi dipendenze tra ciascuno dei due livelli di Gender (“male” e “female”) e
ciascuna delle altre tre variabili.
Esploriamo la presenza di possibili dipendenze tra le singole variabili di tipo razionale. Seguiamo
questo ragionamento: “Exam” possiamo considerarla sempre come variabile dipendente, poiché
l’esito dell’esame può solo dipendere dalle ore di ripasso e dall’ansia da esame e non viceversa; non
è invece semplice stabilire quale sia la variabile dipendente e quale quella indipendente tra “Revise”
e “Anxiety”, poiché l’una potrebbe dipendere dall’altra e viceversa: ovvero, le ore di ripasso possono
incidere sull’ansia da esame, ma l’ansia da esame può incidere sulle ore di ripasso.
Non avendo condotto in prima persona l’esperimento, osserviamo soltanto la possibile relazione tra
Revise e Anxiety e supponiamo siano entrambe variabili indipendenti rispetto a Exam.
Per visualizzare più da vicino la presenza di possibili correlazioni tra le coppie di variabili possiamo
realizzare con R tre diversi scatterplot, uno per ogni coppia.
1) Revise e Anxiety
Sembra esservi una relazione tra i dati di Anxiety e Revise: chi ha un punteggio d’ansia
di almeno 60 ha ripassato per meno o poco più di 40 ore. Gli studenti con un
punteggio d’ansia inferiore a 40 hanno invece tutti ripassato per almeno 60 ore. C’è
anche un outlier: uno studente ha ripassato neppure per 5 ore, eppure ha un
punteggio d’ansia inferiore a 20; evidentemente sarà molto sicuro di sé.
2) Exam ~ Anxiety
Sembra esservi una possibile relazione, seppur non forte, tra i dati di Anxiety e i dati
di Exam. Facciamo qualche ragionamento: chi ha preso un voto inferiore a 40 aveva
fatto un punteggio di ansia almeno pari a 60; invece, per quanto riguarda i voti più
alti, due dei tre 100 all’esame sono stati presi da chi aveva un punteggio d’ansia
uguale o inferiore a 20. Tuttavia, non mancano studenti con voti superiori a 80 e che
avevano fatto un punteggio d’ansia superiore a 60.
3) Exam ~ Revise
Potrebbe esservi una relazione, seppur non forte, tra i dati di Exam e Revise. Facciamo
qualche considerazione: chi ha preso un voto uguale o inferiore a 60 non ha superato
le 50 ore di ripasso; tuttavia, i voti più alti sono stati presi anche da chi ha ripassato
per meno di 40 ore e, in tal senso, il caso emblematico è il 100 di uno studente
all’esame con meno di 5 ore di ripasso. In generale, però, chi ha ripassato almeno per
60 ore ha preso un voto superiore a 60.
Per avere il coefficiente di correlazione tra le coppie di variabili eseguiamo in R la funzione cor,
specificando il metodo Kendall visto che le singole variabili non sono distribuite normalmente.
Il coefficiente di correlazione tra Revise e Anxiety è -0.48556, valore che indica una correlazione
intermedia negativa. Come abbiamo visto, al crescere del punteggio d’ansia tendevano ad essere
più bassi i valori di Revise.
Il coefficiente di correlazione tra Anxiety ed Exam è -0.2847919, valore che indica una correlazione
intermedia negativa. Come abbiamo visto, chi ha preso voti più alti tendeva ad avere meno ansia da
esame, nonostante alcune eccezioni degne di nota. Infatti, la correlazione ha un valore tendente
allo 0, ovvero non statisticamente significativo.
Il coefficiente di correlazione tra Revise ed Exam è 0.2633259, valore che indica una correlazione
intermedia positiva. Come abbiamo visto, chi ha ripassato di più ha preso comunque dei buoni voti,
nonostante alcuni studenti abbiano preso voti alti anche ripassando per poche ore. Difatti, la
correlazione è anche in questo caso vicino a 0.
Possiamo infine eseguire per ciascuna coppia di variabili un cor.test, così da potere concludere se
tali correlazioni sono statisticamente significativi:
H0: Le frequenze dei due livelli della variabile sono identiche e se c’è una differenza questa è dovuta
al caso. “With [ü]” non è sotto-rappresentato rispetto a “without [ü]”.
i. “with [ü]” – 0
“without [ü]” – 100
Costruiamo i vettori contenenti i valori dei livelli dei quattro campioni (“i”, “ii”, “iii”, “iv”):
Osserviamo graficamente la distribuzione dei valori attraverso dei barplot per ciascuno dei quattro
campioni:
i)
I due livelli sono stavolta vicini fra di loro. “With [ü]” potrebbe stavolta non essere
sottorappresentato.
iii)
C’è una certa differenza tra i due livelli. “With [ü]” sembra essere sottorappresentato.
iv)
C’è una certa differenza tra i due livelli. “With [ü]” sembra essere sottorappresentato.
Per ogni campione la distribuzione attesa per “with [ü]” e “without [ü]” equivale a 50. Per
completezza, possiamo ricavare il valore della distribuzione attesa tramite la seguente funzione di
R e visualizzarne i valori con il suo corrispondente barplot:
Test statistici
Per concludere che nei singoli campioni il livello “with [ü]” è sottorappresentato, è necessario
eseguire il test chi-quadro goodness-of-fit. Questo test si applica quando si ha una sola variabile
dipendente e si intende testare il grado di accordo tra la distribuzione osservata e quella attesa,
come in questo caso.
Il test si applica su H0. Per postulare che “with [ü]” è sottorappresentato, servirà quindi rigettare H0
con un p-value almeno inferiore a 0.05.
i)
Concludiamo:
Secondo un test chi-quadro goodness-of-fit, la distribuzione di “with [ü]” devia in maniera altamente
significativa dalla distribuzione attesa (X-squared = 100; df= 1; ptwo-tailed < 0.001): “without [ü]” è
osservato 100 volte anche se era atteso per 50 volte e “with [ü]” è osservato 0 volte anche se era
atteso per 50 volte.
Possiamo quindi rigettare H0 e concludere che in questo campione “with [ü]” è sottorappresentato.
ii)
Concludiamo:
Secondo un test chi-quadro goodness-of-fit, la distribuzione di “with [ü]” non devia in maniera
significativa dalla distribuzione attesa (X-squared = 1; df= 1; ptwo-tailed > 0.05).
Non possiamo quindi rigettare H0. La differenza tra i valori dei due livelli è dovuta al caso.
iii)
Il p-value è 0.0455, un valore molto vicino allo 0.05. In situazioni di questo tipo potremmo anche
scegliere di non rigettare H0, ma non avendo particolari motivi per farlo rigettiamo H0 anche
stavolta:
Quindi concludiamo:
Secondo un test chi-quadro goodness-of-fit, la distribuzione di “with [ü]” devia in maniera
significativa dalla distribuzione attesa (X-squared = 4; df= 1; 0.01 < ptwo-tailed < 0.05): “without [ü]”
è osservato 60 volte anche se era atteso per 50 volte e “with [ü]” è osservato 40 volte anche se era
atteso per 50 volte.
iv)
Concludiamo:
Secondo un test chi-quadro goodness-of-fit, la distribuzione di “with [ü]” devia in maniera molto
significativa dalla distribuzione attesa (X-squared = 9; df= 1; 0.001 < ptwo-tailed < 0.01): “without
[ü]” è osservato 65 volte anche se era atteso per 50 volte e “with [ü]” è osservato 35 volte anche se
era atteso per 50 volte.
Possiamo quindi rigettare H0 e concludere che in questo campione “with [ü]” è sottorappresentato.