Sei sulla pagina 1di 6

20486 - DATA ANALISI/DATA ANALYSIS - MOCK 1 (8164161)

Current Score: 0/15.5 Question 1 Total 0/15.5 Points 0/15.5
Current Score:
0/15.5
Question
1 Total
0/15.5
Points
0/15.5

20486_mock_exam_1_all_questions [3436448]

Il data set Layoffs.xls contiene alcuni dati relativi alla situazione lavorativa per n = 47 lavoratori. Le variabili incluse nel

dataset sono:

Weeks: numero di settimane in cui il lavoratore è stato disoccupato a causa di un : numero di settimane in cui il lavoratore è stato disoccupato a causa di un licenziamento

Age: età del lavoratore (anni) età del lavoratore (anni)

Educ: numero di anni di scolarità numero di anni di scolarità

Married: variabile dummy (1 se sposato, 0 altrimenti) variabile dummy (1 se sposato, 0 altrimenti)

Head: variabile dummy (1 se capofamiglia, 0 altrimenti) variabile dummy (1 se capofamiglia, 0 altrimenti)

Tenure: numero di anni in cui ha svolto il precedente lavoro numero di anni in cui ha svolto il precedente lavoro

Manager: variabile dummy (1 se svolge attività dirigenziale, 0 altrimenti) variabile dummy (1 se svolge attività dirigenziale, 0 altrimenti)

Sales: variabile dummy (1 se svolge attività in ambito commerciale, 0 altrimenti) variabile dummy (1 se svolge attività in ambito commerciale, 0 altrimenti)

Long_U: variabile dummy (1 se il lavoratore è disoccupato da molto tempo, 0 altrimenti) variabile dummy (1 se il lavoratore è disoccupato da molto tempo, 0 altrimenti)

Ogni domanda vale 1 punto, salvo quella indicata con (*), che vale 0.5 punti.

The data set Layoffs.xls contains the information about employment conditions for n = 47 workers. The variables included in

the data set are:

Weeks : number of weeks the worker has been unemployed due to a layoff : number of weeks the worker has been unemployed due to a layoff

Age: age of the worker (years) age of the worker (years)

Educ: number of years of education number of years of education

Married: dummy variable (1 if married, 0 otherwise) dummy variable (1 if married, 0 otherwise)

Head: dummy variable (1 if head of the household, 0 otherwise) dummy variable (1 if head of the household, 0 otherwise)

Tenure: number of years in the old job number of years in the old job

Manager: dummy variable (1 if in a management position, 0 otherwise) dummy variable (1 if in a management position, 0 otherwise)

Sales: dummy variable (1 if sales occupation, 0 otherwise) dummy variable (1 if sales occupation, 0 otherwise)

Long_U: dummy variable (1 if the worker is experiencing a long period of unemployment, 0 otherwise) dummy variable (1 if the worker is experiencing a long period of unemployment, 0 otherwise)

Each question gives 1 point except that marked with (*), which gives 0.5 points.

1 point except that marked with (*), which gives 0.5 points. D1. Si stimi un modello

D1. Si stimi un modello di regressione lineare con Weeks come variabile dipendente e Married come variabile indipendente.

Si indichi la corretta equazione stimata per questo modello.

Q1. Estimate a linear regression model with Weeks as the response variable and Married as regressor. Choose the correct

estimated equation for that model.

Choose the correct estimated equation for that model. D2. Utilizzando il modello di regressione lineare con
Choose the correct estimated equation for that model. D2. Utilizzando il modello di regressione lineare con
Choose the correct estimated equation for that model. D2. Utilizzando il modello di regressione lineare con

D2. Utilizzando il modello di regressione lineare con Weeks come variabile dipendente e Married come variabile

indipendente, si riporti il limite inferiore dell'intervallo di confidenza al 95% per la differenza nel numero di settimane di

disoccupazione tra lavoratori sposati e non sposati.

Q2. Using the linear regression model with Weeks as the response variable and Married as the regressor, report the lower

bound of the 95% confidence interval for the difference in the number of unemployment weeks between married and

unmarried workers.

Il limite inferiore dell'intervallo di confidenza al 95% é (si riportino 4 cifre decimali arrotondando l'ultima cifra in modo

opportuno):

The 95% confidence interval lower bound is (use 4 decimal digits rounding properly the last one):

-

-19.4142
-19.4142
-19.4142 D3. E' ragionevole affermare che un maggior livello di scolarità contribuisce a ridurre il numero

D3. E' ragionevole affermare che un maggior livello di scolarità contribuisce a ridurre il numero di settimane trascorse in disoccupazione? Per rispondere si stimi un modello di regressione lineare per Weeks contro Educ e si riporti il p-value appropriato. Q3. Is it reasonable to state that a longer education is helpful in reducing the number of weeks spent in unemployment? To answer the question, estimate a linear regression model of Weeks on Educ and report the appropriate p-value.

Il p-value appropriato é (non si riporti il simbolo di percentuale, ma solo il numero; si riportino 4 cifre decimali arrotondando l'ultima cifra in modo opportuno):

The appropriate p-value is (do not write the percentage symbol, just the number; use 4 decimal digits rounding properly the last one):

53.9513
53.9513

%,

pertanto l'affermazione precedente non è ragionevole. therefore the statement above is not reasonable.

therefore the statement above is not reasonable. D4. E' possibile affermare che la variabile Tenure ha

D4. E' possibile affermare che la variabile Tenure ha un effetto diverso sul numero di settimane di disoccupazione per un lavoratore che svolge la sua attività in ambito commerciale rispetto a un lavoratore che svolge la sua attività in un ambito diverso da quello commerciale? Per rispondere si stimi un modello di regressione lineare per Weeks contro Age, Head, Tenure e le ulteriori variabili dummy e slope-dummy necessarie. Q4. Can we state that Tenure has a different effect on the weeks of unemployment for workers in sales department with respect to non-sales workers? To answer estimate a linear regression model for Weeks against Age, Head, Tenure and the other dummy and slope dummy variables required.

Sì, perché solo la dummy è significativa al 5%, ma la slope dummy no. Yes, because only the dummy is significant at the 5% while the slope dummy is Yes, because only the dummy is significant at the 5% while the slope dummy is not.

Sì, perché nessuna delle variabili é significativa al 5%. Yes, because none of the variables is significant at the Yes, because none of the variables is significant at the

5%.

No, perché solo la slope dummy é significativa al 5%, mentre la dummy no. No, because only the slope dummy is significant at the 5% while the dummy is No, because only the slope dummy is significant at the 5% while the dummy is not.

Sì, perché il test F per le variabili dummy e slope dummy é significativo al 5%. Yes, because the F test for both the dummy and slope dummy variables is significant Yes, because the F test for both the dummy and slope dummy variables is significant at the 5%.

No, perché le variabili sono affette da multicollinearità. No, because the variables are affected by multicollinearity. No, because the variables are affected by multicollinearity.

No, perché ne' la dummy ne' la slope dummy sono significative al 5%. No, because neither the dummy nor the slope dummy are significant at the 5%. No, because neither the dummy nor the slope dummy are significant at the 5%.

the dummy nor the slope dummy are significant at the 5%. D5. Si stimi un modello

D5. Si stimi un modello di regressione lineare per Weeks contro Age, Head, Married, Manager, Tenure, Sales, e la slope dummy relativa a queste ultime due variabili. Per valutare se le variabili Married e Sales devono rimanere nel modello, si effettui un test appropriato. Si scelga tra quelle disponibili la risposta che riporta le ipotesi da testare e il corrispondente p- value per tale test. Q5. Estimate a linear regression model for Weeks versus Age, Head, Married, Manager, Tenure, Sales, and the slope dummy for the last two variables. Conduct an appropriate test to check if the variables Married and Sales should be kept in the model. Choose the correct set of hypotheses and the corresponding p-value for that test.

H 0 : β M a r r i e d = β S a l 0 : β Married = β Sales = 0 vs. H 1 : almeno uno tra β Married e β Sales é 0

p-value = 58.62%

H 0 : β Married = β Sales = 0 vs. H 1 : at least one between β Married and β Sales is 0 p-value = 58.62%

H 0 : β M a r r i e d = β S a l 0 : β Married = β Sales = 0 vs. H 1 : almeno uno tra β Married e β Sales é 0

p-value = 51.40%

H 0 : β Married = β Sales = 0 vs. H 1 : at least one between β Married and β Sales is 0 p-value = 51.40%

H 0 : β Married = β Sales = 0 v s . H 1 H 0 : β Married = β Sales = 0 vs. H 1 : β Married 0 e β Sales 0

p-value = 51.40%

H 0 : β Married = β Sales = 0 vs. H 1 : β Married 0 and β Sales 0

p-value = 51.40%

H 0 : β Married = β Sales = 0 v s . H 1 H 0 : β Married = β Sales = 0 vs. H 1 : β Married 0 e β Sales 0

p-value = 11.50%

H 0 : β Married = β Sales = 0 vs. H 1 : β Married 0 and β Sales 0

p-value = 11.50%

H 0 : β Married = β Sales < 0 v s . H 1 H 0 : β Married = β Sales < 0 vs. H 1 : β Married = β Sales > 0 H 0 : β Married = β Sales < 0 vs. H 1 : β Married = β Sales > 0

p-value = 58.62% p-value = 58.62%

H 0 : β Married = β Sales = 0 v s . H 1 H 0 : β Married = β Sales = 0 vs. H 1 : β Married 0 e β Sales 0

p-value = 58.62%

H 0 : β Married = β Sales = 0 vs. H 1 : β Married 0 and β Sales 0

p-value = 58.62%

D6.(*) Si consideri il modello di regressione lineare per Weeks contro Age, Head, Married, Manager, Tenure, Sales, e la slope dummy relativa a queste ultime due variabili. La variabile Age non è affetta da multicollinearità poiché il suo fattore di inflazionamento della varianza (VIF) è pari a (si riportino 4 cifre decimali arrotondando in modo opportuno l'ultima cifra):

Q6.(*) Consider the linear regression model for Weeks versus Age, Head, Married, Manager, Tenure, Sales, and the slope dummy for the last two variables. The variable Age is not affected by multicollinearity, because its variance inflation factor (VIF) is equal to (use 4 decimal digits rounding properly the last one):

1.4560
1.4560
D7. Si consideri il modello di regressione lineare per Weeks contro Age , Head ,

D7. Si consideri il modello di regressione lineare per Weeks contro Age, Head, Married, Manager e Tenure. Si indichi la corretta interpretazione per il coefficiente stimato di Age:

Q7. Consider the linear regression model for Weeks versus Age, Head, Married, Manager and Tenure. Choose the correct interpretation for the Age estimated coefficient:

 

Aumentando l'età di un lavoratore di 1 anno, il numero medio di settimane di permanenza in disoccupazione diminuisce di 1.7394, a parità delle altre variabili. Increasing the age by 1 year will decrease the average number of weeks of unemployment Increasing the age by 1 year will decrease the average number of weeks of unemployment by 1.7394, assuming the other variables are fixed.

Aumentando l'età di un lavoratore di 1 anno, il numero medio di settimane di permanenza in disoccupazione diminuisce di 1.4560, a parità delle altre variabili. Increasing the age by 1 year will decrease the average number of weeks of unemployment Increasing the age by 1 year will decrease the average number of weeks of unemployment by 1.4560, assuming the other variables are fixed.

Aumentando l'età di un lavoratore di 1 anno, il log-odds del numero di settimane di permanenza in disoccupazione aumenta di 1.4560, a parità delle altre variabili. Increasing the age by 1 year will increase the log-odds of the number of weeks Increasing the age by 1 year will increase the log-odds of the number of weeks of unemployment by 1.4560, assuming the other variables are fixed.

Aumentando l'età di un lavoratore di 1 anno, il numero medio di settimane di permanenza

Aumentando l'età di un lavoratore di 1 anno, il numero medio di settimane di permanenza in disoccupazione aumenta di 1.4937, a parità delle altre variabili. Increasing the age by 1 year will increase the average number of weeks of unemployment by 1.4937, assuming the other variables are fixed.

Aumentando l'età di un lavoratore di 1 anno, il numero di settimane di permanenza in disoccupazione diminuisce di 1.4937, a parità delle altre variabili. Increasing the age by 1 year will increase the number of weeks of unemployment by Increasing the age by 1 year will increase the number of weeks of unemployment by 1.4937, assuming the other variables are fixed.

Aumentando l'età di un lavoratore di 1 anno, il numero medio di settimane di permanenza

Aumentando l'età di un lavoratore di 1 anno, il numero medio di settimane di permanenza in disoccupazione aumenta di 1.4560, a parità delle altre variabili. Increasing the age by 1 year will increase the average number of weeks of unemployment Increasing the age by 1 year will increase the average number of weeks of unemployment by 1.4560, assuming the other variables are fixed.

age by 1 year will increase the average number of weeks of unemployment by 1.4560, assuming

D8. Utilizzando il modello di regressione lineare per Weeks contro Age, Head, Married, Manager e Tenure si fornisca la previsione per il numero di settimane di disoccupazione per un lavoratore sposato, capofamiglia, di 40 anni, con 10 anni di esperienza nel precedente lavoro e che svolge un'attività non dirigenziale. Q8. Using the linear regression model for Weeks versus Age, Head, Married, Manager and Tenure, provide the prediction for the number of weeks of unemployment of a worker that is married and head of the household, aged 40, with a tenure of 10 years and not in a management position.

 

La previsione é pari a (si riportino 4 cifre decimali arrotondando in modo opportuno l'ultima cifra):

The prediction is equal to (use 4 decimal digits rounding properly the last one):

42.4823
42.4823

42.4823

42.4823

D9. Utilizzando il modello di regressione lineare per Weeks contro Age, Head, Married, Manager e Tenure, si fornisca il limite inferiore dell'intervallo di previsione al 90% per il numero di settimane di disoccupazione per un lavoratore sposato, capofamiglia, di 50 anni, con 15 anni di esperienza nel precedente lavoro e che svolge un'attività non dirigenziale. Q9. Using the linear regression model for Weeks versus Age, Head, Married, Manager and Tenure, provide the lower bound of the 90% prediction interval for the number of weeks of unemployment of a worker that is married and head of the household, aged 50, with a tenure of 15 years and not in a management position.

Il limite inferiore dell'intervallo di previsione al 90% é (si riportino 4 cifre decimali arrotondando in modo opportuno l'ultima cifra):

The lower bound of the 90% prediction interval is (report 4 decimal digits rounding properly the last one):

28.5191
28.5191
28.5191
28.5191
28.5191

D10. Che cosa si intende per eteroschedasticità in un'analisi di regressione lineare? Q10. What does it mean that in a linear regression analysis we have an heteroskedasticity issue?

Si intende che i dati forniscono evidenza di una varianza non costante degli errori. It means that there is evidence from the data of a non-constant error variance. It means that there is evidence from the data of a non-constant error variance.

Si intende che i leverage di alcune osservazioni sono particolarmente grandi. It means that some leverages are particularly large. It means that some leverages are particularly large.

Si intende che gli standard error dei coefficienti sono inflazionati. It means that the estimated coefficients' standard errors are inflated. It means that the estimated coefficients' standard errors are inflated.

Si intende che alcune delle variabili X sono fortemente correlate in modo lineare tra loro. It means that some of the It means that some of the

X variables are strongly linearly correlated among themselves.

Si intende che alcune osservazioni esercitano un'influenza molto forte sui risultati dell'analisi. It means that some It means that some

of the data are unduly influencing the results of the analysis.

Si intende che la stima dei coefficienti é distorta. It means that the estimated coefficients are biased. It means that the estimated coefficients are biased.

D11. Come si identifica un problema di eteroschedasticità in un'analisi di regressione lineare? E quali

D11. Come si identifica un problema di eteroschedasticità in un'analisi di regressione lineare? E quali conseguenze comporterebbe un problema di quel tipo? Q11. How would you identify an heteroskedasticity problem in a linear regression analysis? And what would be the consequences of such a situation?

Un problema di eteroschedasticità si identifica con il test di Durbin-Watson. Le conseguenze principali sono stime dei coefficienti non distorte, ma standard error degli stessi inaffidabili. An heteroskedasticity problem is identified with the Durbin-Watson test. The main consequences are unbiased model's An heteroskedasticity problem is identified with the Durbin-Watson test. The main consequences are unbiased model's coefficient estimates but unreliable standard errors.

Un problema di eteroschedasticità si identifica con il test F. Le conseguenze principali sono dei p-value dei coefficienti più grandi. An heteroskedasticity problem is identified with the F test. The main consequences are larger p-values An heteroskedasticity problem is identified with the F test. The main consequences are larger p-values of the model's coefficients.

Un problema di eteroschedasticità si identifica con il test di Breusch-Pagan. Le conseguenze principali sono

Un problema di eteroschedasticità si identifica con il test di Breusch-Pagan. Le conseguenze principali sono stime dei coefficienti non distorte, ma standard error degli stessi inaffidabili. An heteroskedasticity problem is identified with the Breusch-Pagan test. The main consequences are unbiased model's coefficient estimates but unreliable standard errors.

Un problema di eteroschedasticità si identifica con il test t sui coefficienti. Le conseguenze principali sono dei VIF molto alti. An heteroskedasticity problem is identified with the t tests on the coefficients. The main consequences An heteroskedasticity problem is identified with the t tests on the coefficients. The main consequences are very large VIF.

Un problema di eteroschedasticità si identifica con i fattori di inflazionamento delle varianza (VIF). Le conseguenze principali sono p-value dei coefficienti molto grandi. An heteroskedasticity problem is identified with the variance inflation factors (VIF). The main consequences are An heteroskedasticity problem is identified with the variance inflation factors (VIF). The main consequences are very large p-values of the model's coefficients.

Un problema di eteroschedasticità si identifica con il test di Breusch-Pagan. Le conseguenze principali sono dei p- value dei coefficienti più grandi. An heteroskedasticity problem is identified with the Breusch-Pagan test. The main consequences are larger p-values An heteroskedasticity problem is identified with the Breusch-Pagan test. The main consequences are larger p-values of the model's coefficients.

is identified with the Breusch-Pagan test. The main consequences are larger p-values of the model's coefficients.

D12. Si supponga di osservare il seguente grafico dei residui in un'analisi di regressione lineare:

Q12. Suppose that in a linear regression analysis you observe the following plot of the residuals:

analysis you observe the following plot of the residuals: Quale principale problema è possibile riscontrare da

Quale principale problema è possibile riscontrare da questo grafico? Which main problem does the plot show?

Il grafico mostra principalmente una violazione dell'ipotesi di linearità. The plot mainly shows a violation of the linearity assumption. The plot mainly shows a violation of the linearity assumption.

Il grafico mostra principalmente la presenza di molti outlier. The plot mainly shows the presence of many outlying observations. The plot mainly shows the presence of many outlying observations.

Il grafico mostra principalmente una situazione di varianza degli errori decrescente. The plot mainly shows a decreasing error variance. The plot mainly shows a decreasing error variance.

Il grafico mostra principalmente una situazione di multicollinearità. The plot mainly shows the presence of a multicollinearity issue. The plot mainly shows the presence of a multicollinearity issue.

Il grafico mostra principalmente la presenza di molte osservazioni con elevato leverage. The plot mainly shows the presence of many high leverage observations. The plot mainly shows the presence of many high leverage observations.

Il grafico mostra principalmente un test F non significativo. The plot mainly shows a non significant F test. The plot mainly shows a non significant F test.

D13. Si consideri il modello di regressione logistica di Long_U contro Age, Tenure e Head
D13. Si consideri il modello di regressione logistica di Long_U contro Age, Tenure e Head e si indichi la corrispondente
equazione stimata.
Q13. Consider the logistic regression model of Long_U against Age, Tenure and Head and choose the corresponding
estimated model equation.

D14. Si consideri il modello di regressione logistica di Long_U contro Age, Tenure e Head. Si fornisca la corretta interpretazione per il coefficiente stimato della variabile Age. Q14. Consider the logistic regression model of Long_U against Age, Tenure and Head. Provide an interpretation for the Age estimated coefficient.

Il coefficiente stimato della variabile Age si interpreta come l'incremento nella stima dell'odds (di permanere in disoccupazione per un lungo Age si interpreta come l'incremento nella stima dell'odds (di permanere in disoccupazione per un lungo periodo) a fronte di un incremento unitario di Age. The estimated coefficient for the variable Age is interpreted as the increase in the estimated odds (of having a long period of unemployment) for each additional unit in Age.

Il coefficiente stimato della variabile Age si interpreta come l'incremento nella stima del log-odds (di permanere in disoccupazione per un Age si interpreta come l'incremento nella stima del log-odds (di permanere in disoccupazione per un lungo periodo) a fronte di un incremento unitario di Age. The estimated coefficient for the variable Age is interpreted as the increase in the estimated log-odds (of having a long period of unemployment) for each additional unit in Age.

Il coefficiente stimato della variabile Age si interpreta come l'incremento nella media del numero di settimane di disoccupazione a fronte Age si interpreta come l'incremento nella media del numero di settimane di disoccupazione a fronte di un incremento unitario di Age, assumendo fisse le altre variabili. The estimated coefficient for the variable Age is interpreted as the increase in the average number of weeks of unemployment for a unit increase in Age, keeping the other variables fixed.

Il coefficiente stimato della variabile Age si interpreta come l'incremento nella stima della probabilità di permanere in disoccupazione per un Age si interpreta come l'incremento nella stima della probabilità di permanere in disoccupazione per un lungo periodo a fronte di un incremento unitario di Age, assumendo fisse le altre variabili. The estimated coefficient for the variable Age is interpreted as the increase in the estimated probability of having a long period of unemployment for each additional unit in Age, keeping the other variables fixed.

Il coefficiente stimato della variabile Age si interpreta come l'incremento nella stima del log-odds (di permanere in disoccupazione per un Age si interpreta come l'incremento nella stima del log-odds (di permanere in disoccupazione per un lungo periodo) a fronte di un incremento unitario di Age, assumendo fisse le altre variabili. The estimated coefficient for the variable Age is interpreted as the increase in the estimated log- odds (of having a long period of unemployment) for each additional unit in Age, keeping the other variables fixed.

Il coefficiente stimato della variabile Age si interpreta come l'incremento del logaritmo del numero di settimane di disoccupazione a fronte Age si interpreta come l'incremento del logaritmo del numero di settimane di disoccupazione a fronte di un incremento unitario di Age, assumendo fisse le altre variabili. The estimated coefficient for the variable Age is interpreted as the increase in the log of the number of weeks of unemployment for a unit increase in Age, keeping the other variables fixed.

D15. Utilizzando il modello di regressione logistica di Long_U contro Age , Tenure e Head
D15. Utilizzando il modello di regressione logistica di Long_U contro Age , Tenure e Head

D15. Utilizzando il modello di regressione logistica di Long_U contro Age, Tenure e Head si fornisca la stima della

probabilità di permanere per un lungo periodo in stato di disoccupazione per un lavoratore di 45 anni che non è capo-famiglia

e

che ha un'anzianità lavorativa di 8 anni.

Q15. Using the logistic regression model of Long_U against Age, Tenure and Head, provide the estimated probability of

experiencing a long period of unemployment for a worker aged 45 that is not head of the household and has a tenure of 8

 

years.

La stima della probabilità (in percentuale) è pari a (non si riporti il simbolo di percentuale, solo il numero; si utilizzino 4 cifre

decimali arrotondando in modo opportuno l'ultima cifra):

The estimated probability (in percentage) is equal to (do not write the percentage symbol, just the number; use 4 decimal

digits rounding properly the last one):

62.6291
62.6291

%

 
 

D16. Utilizzando il modello di regressione logistica di Long_U contro Age, Tenure e Head si fornisca il limite inferiore

dell'intervallo di confidenza al 90% per la probabilità di permanere per un lungo periodo in stato di disoccupazione per un

lavoratore di 40 anni che non è capo-famiglia e che ha un'anzianità lavorativa di 10 anni.

Q16. Using the logistic regression model of Long_U against Age, Tenure and Head, provide the lower bound of the 90% confidence interval for the probability of experiencing a long period of unemployment for a worker aged 40 that is not head of

the household and has a tenure of 10 years.

Il limite inferiore dell'intervallo di confidenza al 90% é (non si riporti il simbolo di percentuale, solo il numero; si riportino 4

cifre decimali arrotondando in modo opportuno l'ultima cifra):

The lower bound of the 90% confidence interval is (do not write the percentage symbol, just the number; report 4 decimal

digits rounding properly the last one):

12.1084
12.1084

%

Assignment Details