Sei sulla pagina 1di 2

METODI STATISTICI PER LA BIOINGEGNERIA

PROVA MATLAB – punti 33

Nel file DATA.mat sono contenute le seguenti variabili:

Y = vettore 72 x1, 72 = numero di soggetti di cui si ha il campiono ematico


X = matrice 72 x 70, 72 numero di soggetti di cui si ha il campiono ematico, 70 = variabili a
disposizione ognuna con una unità di misura diversa

1) Caricare i dati contenuti in DATA.mat

2) Impostare il seed del generatore di numeri casuali, con metodo di default, al valore 1

3) Si proceda all’eliminazione dei soggetti che contengono valori non fisiologici nelle variabili
in X e in Y e si memorizzi nella variabile Nsoggetti il numero di soggetti rimanenti

4) Si generi la matrice: correlazione (70 x 70) in cui ogni elemento (i,j) contiene il valore di
correlazione tra la variabile i e la variabile j

5) Per ogni coppia di variabili i-j della triangolare superiore della matrice correlazione si faccia
un t-test e si riporti il valore del p_value in una matrice

ttest Matrice 70 x 70 che avrà valori diversi da zero solo nella parte triangolare superiore

Applicando la correzione più restrittiva di Bonferroni (si ricorda che il p-value in questo
caso va diviso per il numero di t-test effettuati, in questo caso è pari a N(N-1)/2 ), si generi
anche la matrice

Risultato_ttest Matrice 70 x 70 che avrà valore pari a 1 se il t-test rifiuta l’ipotesi nulla,
pari a 2 se il t-test accetta l’ipotesi nulla, zero in tutti gli altri elementi della matrice (ossia
fuori la porzione triangolare superiore)

6) Si esegua lo zscore (su X e su Y)

7) Si esegua una PCA sui dati della matrice X. Si ricorda che Matlab restituisce

[coeff,score,latent,tsquared,explained] = pca(___)

Si applichi la regola di Kaiser (utilizzare gli autovalori non normalizzati) e si crei una
variabile Kaiser_sel che riporti il numero di componenti selezionate con tale regola.

Si ricostruiscano i dati originali, ossia la matrice X, eliminando le ultime 3 componenti


principali. La si chiami:

var_X (Nsoggetti x 70)


8) Si applichi il clustering K-means (10 repliche e 200 iterazioni massime) con distanza Euclidea
alle variabili che costituiscono le colonne della matrice X imponendo un numero di cluster
pari al numero di riportato nella variabile Kaiser_sel.
Si crei la matrice:
regressori (Nsoggetti x Kaiser_sel)

riportando nelle colonne i centroidi del clustering K-means

9) Si stimi tramite il seguente modello lineare i valor dei parametri beta:

𝑌 = 𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑜𝑟𝑖 ∙ 𝛽 + 𝜖

con 𝜖 errore di modello additivo, scorrelato, gaussiano a media nulla e varianza unitaria. Si
generino le seguenti variabili:

beta = vettore della stime dei parametri del modello


predizione = predizione del modello
error = vettore delle deviazione standard dell’errore di stima di beta
correlazione = correlazione di Pearson tra predizione e variabile predetta
R2 = coefficiente di determinazione

Potrebbero piacerti anche