Sei sulla pagina 1di 6

20486 - DATA ANALISI/DATA ANALYSIS - MOCK 1 (8164161)

Current Score:
Question
Points

1.

0/15.5
1
0/15.5

Total
0/15.5

0/15.5 points

20486_mock_exam_1_all_questions [3436448]

Il data set Layoffs.xls contiene alcuni dati relativi alla situazione lavorativa per n = 47 lavoratori. Le variabili incluse nel
dataset sono:
Weeks: numero di settimane in cui il lavoratore stato disoccupato a causa di un licenziamento
Age: et del lavoratore (anni)
Educ: numero di anni di scolarit
Married: variabile dummy (1 se sposato, 0 altrimenti)
Head: variabile dummy (1 se capofamiglia, 0 altrimenti)
Tenure: numero di anni in cui ha svolto il precedente lavoro
Manager: variabile dummy (1 se svolge attivit dirigenziale, 0 altrimenti)
Sales: variabile dummy (1 se svolge attivit in ambito commerciale, 0 altrimenti)
Long_U: variabile dummy (1 se il lavoratore disoccupato da molto tempo, 0 altrimenti)
Ogni domanda vale 1 punto, salvo quella indicata con (*), che vale 0.5 punti.
The data set Layoffs.xls contains the information about employment conditions for n = 47 workers. The variables included in
the data set are:
Weeks: number of weeks the worker has been unemployed due to a layoff
Age: age of the worker (years)
Educ: number of years of education
Married: dummy variable (1 if married, 0 otherwise)
Head: dummy variable (1 if head of the household, 0 otherwise)
Tenure: number of years in the old job
Manager: dummy variable (1 if in a management position, 0 otherwise)
Sales: dummy variable (1 if sales occupation, 0 otherwise)
Long_U: dummy variable (1 if the worker is experiencing a long period of unemployment, 0 otherwise)
Each question gives 1 point except that marked with (*), which gives 0.5 points.
D1. Si stimi un modello di regressione lineare con Weeks come variabile dipendente e Married come variabile indipendente.
Si indichi la corretta equazione stimata per questo modello.
Q1. Estimate a linear regression model with Weeks as the response variable and Married as regressor. Choose the correct
estimated equation for that model.

D2. Utilizzando il modello di regressione lineare con Weeks come variabile dipendente e Married come variabile
indipendente, si riporti il limite inferiore dell'intervallo di confidenza al 95% per la differenza nel numero di settimane di
disoccupazione tra lavoratori sposati e non sposati.
Q2. Using the linear regression model with Weeks as the response variable and Married as the regressor, report the lower
bound of the 95% confidence interval for the difference in the number of unemployment weeks between married and
unmarried workers.
Il limite inferiore dell'intervallo di confidenza al 95% (si riportino 4 cifre decimali arrotondando l'ultima cifra in modo
opportuno):
The 95% confidence interval lower bound is (use 4 decimal digits rounding properly the last one):

-19.4142

D3. E' ragionevole affermare che un maggior livello di scolarit contribuisce a ridurre il numero di settimane trascorse in
disoccupazione? Per rispondere si stimi un modello di regressione lineare per Weeks contro Educ e si riporti il p-value
appropriato.
Q3. Is it reasonable to state that a longer education is helpful in reducing the number of weeks spent in unemployment? To
answer the question, estimate a linear regression model of Weeks on Educ and report the appropriate p-value.
Il p-value appropriato (non si riporti il simbolo di percentuale, ma solo il numero; si riportino 4 cifre decimali arrotondando
l'ultima cifra in modo opportuno):
The appropriate p-value is (do not write the percentage symbol, just the number; use 4 decimal digits rounding properly the
last one):
53.9513 %,
pertanto l'affermazione precedente non ragionevole.
therefore the statement above is not reasonable.
D4. E' possibile affermare che la variabile Tenure ha un effetto diverso sul numero di settimane di disoccupazione per un
lavoratore che svolge la sua attivit in ambito commerciale rispetto a un lavoratore che svolge la sua attivit in un ambito
diverso da quello commerciale? Per rispondere si stimi un modello di regressione lineare per Weeks contro Age, Head,
Tenure e le ulteriori variabili dummy e slope-dummy necessarie.
Q4. Can we state that Tenure has a different effect on the weeks of unemployment for workers in sales department with
respect to non-sales workers? To answer estimate a linear regression model for Weeks against Age, Head, Tenure and the
other dummy and slope dummy variables required.
S, perch solo la dummy significativa al 5%, ma la slope dummy no. Yes, because only the dummy is significant
at the 5% while the slope dummy is not.
S, perch nessuna delle variabili significativa al 5%. Yes, because none of the variables is significant at the
5%.
No, perch solo la slope dummy significativa al 5%, mentre la dummy no. No, because only the slope dummy is
significant at the 5% while the dummy is not.
S, perch il test F per le variabili dummy e slope dummy significativo al 5%. Yes, because the F test for both
the dummy and slope dummy variables is significant at the 5%.
No, perch le variabili sono affette da multicollinearit. No, because the variables are affected by multicollinearity.
No, perch ne' la dummy ne' la slope dummy sono significative al 5%. No, because neither the dummy nor the
slope dummy are significant at the 5%.

D5. Si stimi un modello di regressione lineare per Weeks contro Age, Head, Married, Manager, Tenure, Sales, e la slope
dummy relativa a queste ultime due variabili. Per valutare se le variabili Married e Sales devono rimanere nel modello, si
effettui un test appropriato. Si scelga tra quelle disponibili la risposta che riporta le ipotesi da testare e il corrispondente pvalue per tale test.
Q5. Estimate a linear regression model for Weeks versus Age, Head, Married, Manager, Tenure, Sales, and the slope
dummy for the last two variables. Conduct an appropriate test to check if the variables Married and Sales should be kept in
the model. Choose the correct set of hypotheses and the corresponding p-value for that test.
H0: Married = Sales = 0 vs. H1: almeno uno tra Married e Sales 0 p-value = 58.62%
H0: Married = Sales = 0 vs. H1: at least one between Married and Sales is 0 p-value = 58.62%
H0: Married = Sales = 0 vs. H1: almeno uno tra Married e Sales 0 p-value = 51.40%
H0: Married = Sales = 0 vs. H1: at least one between Married and Sales is 0 p-value = 51.40%
H0: Married = Sales = 0 vs. H1: Married 0 e Sales 0 p-value = 51.40%
H0: Married = Sales = 0 vs. H1: Married 0 and Sales 0 p-value = 51.40%
H0: Married = Sales = 0 vs. H1: Married 0 e Sales 0 p-value = 11.50%
H0: Married = Sales = 0 vs. H1: Married 0 and Sales 0 p-value = 11.50%
H0: Married = Sales < 0 vs. H1: Married = Sales > 0 p-value = 58.62%
H0: Married = Sales < 0 vs. H1: Married = Sales > 0 p-value = 58.62%
H0: Married = Sales = 0 vs. H1: Married 0 e Sales 0 p-value = 58.62%
H0: Married = Sales = 0 vs. H1: Married 0 and Sales 0 p-value = 58.62%

D6.(*) Si consideri il modello di regressione lineare per Weeks contro Age, Head, Married, Manager, Tenure, Sales, e la
slope dummy relativa a queste ultime due variabili. La variabile Age non affetta da multicollinearit poich il suo fattore di
inflazionamento della varianza (VIF) pari a (si riportino 4 cifre decimali arrotondando in modo opportuno l'ultima cifra):
Q6.(*) Consider the linear regression model for Weeks versus Age, Head, Married, Manager, Tenure, Sales, and the
slope dummy for the last two variables. The variable Age is not affected by multicollinearity, because its variance inflation
factor (VIF) is equal to (use 4 decimal digits rounding properly the last one):
1.4560
D7. Si consideri il modello di regressione lineare per Weeks contro Age, Head, Married, Manager e Tenure. Si indichi la
corretta interpretazione per il coefficiente stimato di Age:
Q7. Consider the linear regression model for Weeks versus Age, Head, Married, Manager and Tenure. Choose the correct
interpretation for the Age estimated coefficient:
Aumentando l'et di un lavoratore di 1 anno, il numero medio di settimane di permanenza in disoccupazione
diminuisce di 1.7394, a parit delle altre variabili. Increasing the age by 1 year will decrease the average number
of weeks of unemployment by 1.7394, assuming the other variables are fixed.
Aumentando l'et di un lavoratore di 1 anno, il numero medio di settimane di permanenza in disoccupazione
diminuisce di 1.4560, a parit delle altre variabili. Increasing the age by 1 year will decrease the average number
of weeks of unemployment by 1.4560, assuming the other variables are fixed.
Aumentando l'et di un lavoratore di 1 anno, il log-odds del numero di settimane di permanenza in disoccupazione
aumenta di 1.4560, a parit delle altre variabili. Increasing the age by 1 year will increase the log-odds of the
number of weeks of unemployment by 1.4560, assuming the other variables are fixed.
Aumentando l'et di un lavoratore di 1 anno, il numero medio di settimane di permanenza in disoccupazione
aumenta di 1.4937, a parit delle altre variabili. Increasing the age by 1 year will increase the average number of
weeks of unemployment by 1.4937, assuming the other variables are fixed.
Aumentando l'et di un lavoratore di 1 anno, il numero di settimane di permanenza in disoccupazione diminuisce di
1.4937, a parit delle altre variabili. Increasing the age by 1 year will increase the number of weeks of
unemployment by 1.4937, assuming the other variables are fixed.
Aumentando l'et di un lavoratore di 1 anno, il numero medio di settimane di permanenza in disoccupazione
aumenta di 1.4560, a parit delle altre variabili. Increasing the age by 1 year will increase the average number of
weeks of unemployment by 1.4560, assuming the other variables are fixed.

D8. Utilizzando il modello di regressione lineare per Weeks contro Age, Head, Married, Manager e Tenure si fornisca la
previsione per il numero di settimane di disoccupazione per un lavoratore sposato, capofamiglia, di 40 anni, con 10 anni di
esperienza nel precedente lavoro e che svolge un'attivit non dirigenziale.
Q8. Using the linear regression model for Weeks versus Age, Head, Married, Manager and Tenure, provide the prediction
for the number of weeks of unemployment of a worker that is married and head of the household, aged 40, with a tenure of
10 years and not in a management position.
La previsione pari a (si riportino 4 cifre decimali arrotondando in modo opportuno l'ultima cifra):
The prediction is equal to (use 4 decimal digits rounding properly the last one):
42.4823

D9. Utilizzando il modello di regressione lineare per Weeks contro Age, Head, Married, Manager e Tenure, si fornisca il
limite inferiore dell'intervallo di previsione al 90% per il numero di settimane di disoccupazione per un lavoratore sposato,
capofamiglia, di 50 anni, con 15 anni di esperienza nel precedente lavoro e che svolge un'attivit non dirigenziale.
Q9. Using the linear regression model for Weeks versus Age, Head, Married, Manager and Tenure, provide the lower
bound of the 90% prediction interval for the number of weeks of unemployment of a worker that is married and head of the
household, aged 50, with a tenure of 15 years and not in a management position.
Il limite inferiore dell'intervallo di previsione al 90% (si riportino 4 cifre decimali arrotondando in modo opportuno l'ultima
cifra):
The lower bound of the 90% prediction interval is (report 4 decimal digits rounding properly the last one):
28.5191
D10. Che cosa si intende per eteroschedasticit in un'analisi di regressione lineare?
Q10. What does it mean that in a linear regression analysis we have an heteroskedasticity issue?

Si intende che i dati forniscono evidenza di una varianza non costante degli errori. It means that there is
evidence from the data of a non-constant error variance.
Si intende che i leverage di alcune osservazioni sono particolarmente grandi. It means that some leverages are
particularly large.
Si intende che gli standard error dei coefficienti sono inflazionati. It means that the estimated coefficients' standard
errors are inflated.
Si intende che alcune delle variabili X sono fortemente correlate in modo lineare tra loro. It means that some of the
X variables are strongly linearly correlated among themselves.
Si intende che alcune osservazioni esercitano un'influenza molto forte sui risultati dell'analisi. It means that some
of the data are unduly influencing the results of the analysis.
Si intende che la stima dei coefficienti distorta. It means that the estimated coefficients are biased.

D11. Come si identifica un problema di eteroschedasticit in un'analisi di regressione lineare? E quali conseguenze
comporterebbe un problema di quel tipo?
Q11. How would you identify an heteroskedasticity problem in a linear regression analysis? And what would be the
consequences of such a situation?
Un problema di eteroschedasticit si identifica con il test di Durbin-Watson. Le conseguenze principali sono stime
dei coefficienti non distorte, ma standard error degli stessi inaffidabili. An heteroskedasticity problem is identified
with the Durbin-Watson test. The main consequences are unbiased model's coefficient estimates but unreliable
standard errors.
Un problema di eteroschedasticit si identifica con il test F. Le conseguenze principali sono dei p-value dei
coefficienti pi grandi. An heteroskedasticity problem is identified with the F test. The main consequences are
larger p-values of the model's coefficients.
Un problema di eteroschedasticit si identifica con il test di Breusch-Pagan. Le conseguenze principali sono
stime dei coefficienti non distorte, ma standard error degli stessi inaffidabili. An heteroskedasticity problem is
identified with the Breusch-Pagan test. The main consequences are unbiased model's coefficient estimates but
unreliable standard errors.
Un problema di eteroschedasticit si identifica con il test t sui coefficienti. Le conseguenze principali sono dei VIF
molto alti. An heteroskedasticity problem is identified with the t tests on the coefficients. The main consequences
are very large VIF.
Un problema di eteroschedasticit si identifica con i fattori di inflazionamento delle varianza (VIF). Le conseguenze
principali sono p-value dei coefficienti molto grandi. An heteroskedasticity problem is identified with the variance
inflation factors (VIF). The main consequences are very large p-values of the model's coefficients.
Un problema di eteroschedasticit si identifica con il test di Breusch-Pagan. Le conseguenze principali sono dei pvalue dei coefficienti pi grandi. An heteroskedasticity problem is identified with the Breusch-Pagan test. The main
consequences are larger p-values of the model's coefficients.

D12. Si supponga di osservare il seguente grafico dei residui in un'analisi di regressione lineare:
Q12. Suppose that in a linear regression analysis you observe the following plot of the residuals:

Quale principale problema possibile riscontrare da questo grafico?


Which main problem does the plot show?

Il grafico mostra principalmente una violazione dell'ipotesi di linearit. The plot mainly shows a violation of the
linearity assumption.
Il grafico mostra principalmente la presenza di molti outlier. The plot mainly shows the presence of many outlying
observations.
Il grafico mostra principalmente una situazione di varianza degli errori decrescente. The plot mainly shows a
decreasing error variance.
Il grafico mostra principalmente una situazione di multicollinearit. The plot mainly shows the presence of a
multicollinearity issue.
Il grafico mostra principalmente la presenza di molte osservazioni con elevato leverage. The plot mainly shows the
presence of many high leverage observations.
Il grafico mostra principalmente un test F non significativo. The plot mainly shows a non significant F test.

D13. Si consideri il modello di regressione logistica di Long_U contro Age, Tenure e Head e si indichi la corrispondente
equazione stimata.
Q13. Consider the logistic regression model of Long_U against Age, Tenure and Head and choose the corresponding
estimated model equation.

D14. Si consideri il modello di regressione logistica di Long_U contro Age, Tenure e Head. Si fornisca la corretta
interpretazione per il coefficiente stimato della variabile Age.
Q14. Consider the logistic regression model of Long_U against Age, Tenure and Head. Provide an interpretation for the Age
estimated coefficient.
Il coefficiente stimato della variabile Age si interpreta come l'incremento nella stima dell'odds (di permanere in
disoccupazione per un lungo periodo) a fronte di un incremento unitario di Age. The estimated coefficient for the
variable Age is interpreted as the increase in the estimated odds (of having a long period of unemployment) for
each additional unit in Age.
Il coefficiente stimato della variabile Age si interpreta come l'incremento nella stima del log-odds (di permanere in
disoccupazione per un lungo periodo) a fronte di un incremento unitario di Age. The estimated coefficient for the
variable Age is interpreted as the increase in the estimated log-odds (of having a long period of unemployment)
for each additional unit in Age.
Il coefficiente stimato della variabile Age si interpreta come l'incremento nella media del numero di settimane di
disoccupazione a fronte di un incremento unitario di Age, assumendo fisse le altre variabili. The estimated
coefficient for the variable Age is interpreted as the increase in the average number of weeks of unemployment
for a unit increase in Age, keeping the other variables fixed.
Il coefficiente stimato della variabile Age si interpreta come l'incremento nella stima della probabilit di permanere
in disoccupazione per un lungo periodo a fronte di un incremento unitario di Age, assumendo fisse le altre
variabili. The estimated coefficient for the variable Age is interpreted as the increase in the estimated probability
of having a long period of unemployment for each additional unit in Age, keeping the other variables fixed.
Il coefficiente stimato della variabile Age si interpreta come l'incremento nella stima del log-odds (di
permanere in disoccupazione per un lungo periodo) a fronte di un incremento unitario di Age, assumendo fisse le
altre variabili. The estimated coefficient for the variable Age is interpreted as the increase in the estimated logodds (of having a long period of unemployment) for each additional unit in Age, keeping the other variables fixed.
Il coefficiente stimato della variabile Age si interpreta come l'incremento del logaritmo del numero di settimane di
disoccupazione a fronte di un incremento unitario di Age, assumendo fisse le altre variabili. The estimated
coefficient for the variable Age is interpreted as the increase in the log of the number of weeks of unemployment
for a unit increase in Age, keeping the other variables fixed.

D15. Utilizzando il modello di regressione logistica di Long_U contro Age, Tenure e Head si fornisca la stima della
probabilit di permanere per un lungo periodo in stato di disoccupazione per un lavoratore di 45 anni che non capo-famiglia
e che ha un'anzianit lavorativa di 8 anni.
Q15. Using the logistic regression model of Long_U against Age, Tenure and Head, provide the estimated probability of
experiencing a long period of unemployment for a worker aged 45 that is not head of the household and has a tenure of 8
years.
La stima della probabilit (in percentuale) pari a (non si riporti il simbolo di percentuale, solo il numero; si utilizzino 4 cifre
decimali arrotondando in modo opportuno l'ultima cifra):
The estimated probability (in percentage) is equal to (do not write the percentage symbol, just the number; use 4 decimal
digits rounding properly the last one):
62.6291 %

D16. Utilizzando il modello di regressione logistica di Long_U contro Age, Tenure e Head si fornisca il limite inferiore
dell'intervallo di confidenza al 90% per la probabilit di permanere per un lungo periodo in stato di disoccupazione per un
lavoratore di 40 anni che non capo-famiglia e che ha un'anzianit lavorativa di 10 anni.
Q16. Using the logistic regression model of Long_U against Age, Tenure and Head, provide the lower bound of the 90%
confidence interval for the probability of experiencing a long period of unemployment for a worker aged 40 that is not head of
the household and has a tenure of 10 years.
Il limite inferiore dell'intervallo di confidenza al 90% (non si riporti il simbolo di percentuale, solo il numero; si riportino 4
cifre decimali arrotondando in modo opportuno l'ultima cifra):
The lower bound of the 90% confidence interval is (do not write the percentage symbol, just the number; report 4 decimal
digits rounding properly the last one):
12.1084 %

Assignment Details