Sei sulla pagina 1di 6

Alunas: Julyana Carvalho; Layra Lima; Maria Camyla.

Relatório
1) Para verificar a natureza linear da relação foi necessário plotar um gráfico de dispersão que
fornece uma indicação visual da intensidade e comportamento da relação entre as variáveis
estudadas que são tempo de estudo (variável explicativa) e nota (variável resposta). Com ele
pode-se verificar um comportamento linear crescente, ou seja, quanto maior o tempo de estudo
maior a nota. Também observa-se relativa proximidade entre os pontos, indicando uma associação
forte positiva.

2) O gráfico encontrado na primeira questão fornece uma indicação da linearidade da regressão,


nesta etapa verifica-se a veracidade desta indicação através da análise da regressão linear com o
software R, o qual apresentou o seguinte relatório:
Este relatório apresenta as seguintes informações, algumas serão exploradas nas próximas questões:

Confirmando o gráfico da questão 1, o valor de r é 0,8598, obtido da raiz quadrada do R²


(coeficiente de determinação=0,7392), o que indica uma associação positiva e considerada
relativamente forte mesmo que para esta confirmação seja feita, pelo menos até realizar algum teste
de hipótese.

O intercepto é o valor que a reta de regressão toca no eixo Y, que neste caso apresentou o valor de
21,3971, ou seja, mesmo que o aluno estude 0 horas (x=0), a média da nota será 21,3971. O
intercepto só possui significado, se o zero (x=0) for um valor possível no conjunto de dados
avaliados (horas estudadas), que neste caso pode ocorrer. Isto também pode ser comprovado pelo
valor de R² (coeficiente de determinação) com valor de 72,79 %, que representa o quanto da
variação do modelo pode ser explicado, assim, existe 27,21% de variação não explicada no modelo,
por isso faz sentido que mesmo que o aluno estude 0 horas possa obter uma nota de 21,3971. O
coeficiente angular é a inclinação da reta de regressão, como este coeficiente é positivo indica que a
cada hora estudada há um acréscimo de 1,6833 na nota do aluno. Conforme o valor-p obtido para os
teste T do coeficiente angular e intercepto, verifica-se que eles são significativamente diferentes de
zero.

Por fim, fornece a estatística F no valor de 65,2 referente ao ajuste geral do modelo, que quanto
mais distante de 0, melhor o ajuste do modelo. Ainda é apresentado o valor p, que para um nível de
significância de 0,05%. O valor-p da estatística F no valor de 3,657e-08 indica que se a hipótese de
que não relação entre o tempo de estudo e a nota enfrentamos o risco Tipo I equivalente ao valor-p
obtido.

3) Através do relatório da questão 2, obtém-se a seguinte reta de regressão:


Nota=21,3971+1,6833*tempo de estudo.

Em seguida, foram calculados os Intervalos de Confiança dos parâmetros da linha de regressão,


para o nível de confiança de 95%:
Como os intervalos de confiança tanto do intercepto quanto do coeficiente angular não possuem o
zero, mostra que ambos são significativamente diferentes de zero, implicando em influência na
variável resposta.

A partir da reta, obteve-se os seguintes valores de predição:

Estudante Tempo de estudo Nota Predição Resíduos


1 2 21,2 24,76 -3,56
2 5 30 29,81 0,19
3 15 40 46,65 -6,65
4 1 20 23,08 -3,08
5 3 25,6 26,45 -0,85
6 0 17,3 21,4 -4,1
7 7 39,1 33,18 5,92
8 12 37,7 41,6 -3,9
9 2 21,2 24,76 -3,56
10 6 35,5 31,5 4
11 10 38,5 38,23 0,27
12 8 31,2 34,86 -3,66
13 5 36,8 29,81 6,99
14 2 22,2 24,76 -2,56
15 7 35 33,18 1,82
16 0 16,8 21,4 -4,6
17 14 40 44,96 -4,96
18 7 38,6 33,18 5,42
19 9 40 36,55 3,45
20 1 18,4 23,08 -4,68
21 5 35 29,81 5,19
22 7 37 33,18 3,82
23 4 33,3 28,13 5,17
24 10 38,8 38,23 0,57
25 3 29,8 26,45 3,35

Verifica-se que a partir dos resultados dos resíduos (valore observados-valores estimados) que os
valores observados das notas não diferem muito dos valores estimados.

O gráfico abaixo apresenta o intervalo de confiança de predição dos resultados das notas, ou seja,
em 95% das vezes os valores estimados das notas estarão neste intervalo. Observa-se ainda que o
intervalo é mais estreito quando estiver perto da média, sendo mais preciso e mais largo nas
extremidades, onde é menos preciso.
4) Para verificar as condições de homogeneidade e normalidade, verifica-se os gráficos dos
resíduos.

-Rediduals vs Fitted: A linha vermelha representa os pontos dos resíduos e quanto mais próximo da
linha pontilhada seria caracterizada como homocedástico, ou seja, com variância constante, porém
isso não ocorre caracterizando o gráfico como heterocedástico. São apresentados também três
pontos críticos (3,7,13) para avaliação da variância.

-Normal Q-Q: Conforme apresentado no gráfico, verifica-se que a normalidade pode ser violada
pois o comportamento dos pontos não apresenta um formato linear exato, como os pontos 3,7,13
que se apresentam mais distantes da reta.

-Scale-Location: Indica característica de heterocedasticidade, visto que os pontos apresentam-se


relativamente distantes da linha vermelha, destacando como pontos críticos o 3,7 e o 13.

-Residuals vs Leverage: Mostra a influência de retirada dos valores, onde quanto mais um ponto se
aproxima da linha da distância de Cook mais influência no modelo. É o caso dos pontos 3,16 e 17.
Todos os gráficos destacam três pontos que possuem grande influência no modelo, todos estes
valores são incomuns, visto que são <=2 na escala dos resíduos padronizados.

De acordo com os gráficos acima existe indícios de que os valores não possuem variâncias
constantes, contudo, quando aplica-se o teste de Heterocedasticidade Breusch-Pagan, verifica-se
que o p-valor é < α, assim, os dados são considerados homocedasticos, não violando a primeira
suposição da avaliação de resíduos.
O gráfico forneceu um indicativo de não normalidade dos parâmetros em estudo, para uma
confirmação e embasamento mais consistente, foi feito o teste de normalidade de Shapiro-Wilk
através do software R que calcula uma estatística W que testa se uma amostra aleatória de tamanho
n provém de uma distribuição normal.

Logo, rejeita-se a hipótese de normalidade dos dados, visto que p-valor é < α.

Potrebbero piacerti anche