Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Total de dispensa de empregados, sob o regime da Consolidao das Leis do Trabalho - CLT
Professor: Marcio Valk Alunos: Douglas Roberto Mesquita Azevedo e Tiago Henrique Lenhard
INTRODUO
O presente trabalho tem por objetivo realizar modelagem e previso para um conjunto de dados observados ao longo de 14 anos. Dividiremos o trabalho em duas etapas: Etapa 1: Realizar a modelagem da srie de dados (Modelo I) e tambm do
logaritmo desta srie (Modelo II) para fins de comparao entre os resultados obtidos. Etapa 2: Utilizar a metodologia de previso adequada para o conjunto de
dados e comparar os resultados obtidos com os resultados reais. Todas as anlises foram feitas atravs do software R Verso 2.12.2.
Dados Os dados aqui trabalhados referem-se ao total de dispensa de empregados, sob o regime da Consolidao das Leis do Trabalho - CLT. Nesta srie os dados so observados mensalmente desde maio de 1999 e a ltima atualizao foi em 23 de maio de 2013, o que totaliza 168 observaes da varivel que chamaremos de Demisses. Destas 168 observaes retiramos as 14 observaes finais para que aps a modelagem da srie faamos previses e possamos comparar os resultados estimados com os resultados observados.
1. Modelagem
a. Observando os dados originais Primeiramente observaremos os dados originais da srie para que possamos fazer uma anlise visual dos dados que estamos trabalhando. Grfico das demisses no Brasil ao longo do tempo:
Srie histrica de demisses no Brasil (Modelo I)
600000
0
800000
1000000
50 Ms
100
150
Podemos observar atravs do grfico que existe uma tendncia de crescimento no nmero de demisses ao longo do tempo, alm disso, aparentemente no temos volatilidade nesta srie. Grfico do logaritmo natural das demisses no Brasil ao longo do tempo:
13.4
0
13.6
13.8
14.0
14.2
50 Ms
100
150
Podemos observar atravs do grfico que existe uma tendncia de crescimento no logaritmo natural do nmero de demisses ao longo do tempo. Alm disso, aparentemente no temos volatilidade nesta srie.
b. Tendncia e estacionariedade Para ambos os conjuntos de dados foi aplicado o teste aumentado de Dickey-Fuller com a finalidade de encontrar evidncias de no estacionariedade nos dados.
Nos dados originais, adotando um nvel de significncia de 5%, no h evidncias estatsticas significativas (p-valor = 0.5134), de que os dados sejam estacionrios, ou seja, no rejeitamos a hiptese de que os dados sejam no estacionrios. No logaritmo dos dados tambm no encontramos evidncias estatsticas significativas (p-valor = 0.3659) de que os dados sejam estacionrios. Com base nestas duas informaes (no estacionariedade e tendncia), aplicamos em ambas as sries uma diferena simples, a fim de eliminar tendncia e torna-las estacionrias. Abaixo podemos ver o grfico das duas sries diferenciadas.
Grfico do das demisses no Brasil ao longo do tempo com uma diferena Simples.
-3e+05
0
-2e+05
-1e+05
0e+00
1e+05
2e+05
3e+05
50 Ms
100
150
Aparentemente uma primeira diferena j tornou a srie estacionria e sem nenhuma tendncia. De qualquer forma foi novamente aplicado o teste da raiz unitria de Dickey-Fuller
onde foi constatado que a 5% de significncia h evidncias estatsticas significativas (p-valor < 0.01) de que a srie no possui mais razes unitrias. Grfico do logaritmo das demisses no Brasil ao longo do tempo com uma diferena Simples.
-0.3
0
-0.2
-0.1
0.0
0.1
0.2
0.3
50 Ms
100
150
Aparentemente uma primeira diferena j tornou a srie estacionria e sem nenhuma tendncia. De qualquer forma foi novamente aplicado o teste da raiz unitria de Dickey-Fuller onde foi constatado que a 5% de significncia h evidncias estatsticas significativas (p-valor < 0.01) de que a srie no possui mais razes unitrias.
c. Sazonalidade Com o objetivo de verificar se existe sazonalidade nos dados foi gerado o grfico das autocorrelaes de ambas as sries.
Grfico das autocorrelaes das demisses no Brasil ao longo do tempo com uma diferena Simples.
Autocorrelaes
-1.0
0
-0.5
0.0
0.5
1.0
20
40 Lag
60
80
100
possvel observar que as autocorrelaes nos lags mltiplos de 12 so os que possuem maiores valores, o que nos mostra um indcio de sazonalidade de perodo 12. Alm disso, vemos que a maioria das autocorrelaes esto fora da linha pontilhada, ou seja, a maioria das autocorrelaes so significativamente diferentes de zero.
Grfico das autocorrelaes do logaritmo das demisses no Brasil ao longo do tempo com uma diferena Simples.
Autocorrelaes
-1.0
0
-0.5
0.0
0.5
1.0
20
40 Lag
60
80
100
Tambm observamos que as autocorrelaes nos lags mltiplos de 12 so os que possuem maiores valores, o que nos mostra um indcio de sazonalidade de perodo 12. Alm disso, tambm vemos que a maioria das autocorrelaes esto fora da linha pontilhada, ou seja, a maioria das autocorrelaes so significativamente diferentes de zero.
Como em ambas as sries observamos autocorrelaes altas nos perodos mltiplos de 12, foi ento realizada uma diferena de lag 12 para ambas as sries com o proposito de extrair esta sazonalidade.
Nmero de demisses (Aps uma diferena simples e uma diferena sazonal de periodo 12)
-150000
0
-50000
50000
100000 150000
20
40
60 Ms
80
100
120
140
Grfico do logaritmo das demisses com uma diferena Simples e uma Sazonal.
Logaritmo do nmero de demisses (Aps uma diferena simples e uma diferena sazonal de periodo 12)
-0.2
0
-0.1
0.0
0.1
0.2
20
40
60 Ms
80
100
120
140
Aps tomarmos a diferena de lag 12 nas sries, fizemos novamente os grficos da autocorrelao e tambm da autocorrelao parcial.
10
Grfico das autocorrelaes e das autocorrelaes parciais das demisses no Brasil ao longo do tempo com uma diferena Simples e uma diferena Sazonal.
Figura 8 Grfico das autocorrelaes e das autocorrelaes parciais do Modelo I aps uma diferena simples e uma diferena sazonal.
Grfico das autocorrelaes Do Modelo I (Aps uma diferena simples e uma sazonal)
1.0 Autocorrelaes -1.0 -0.5 0.0 0.5
20
40 Lag
60
80
100
Grfico das autocorrelaes parciais Do Modelo I (Aps uma diferena simples e uma sazonal)
1.0 Autocorrelaes parciais -1.0 -0.5 0.0 0.5
20
40 Lag
60
80
100
11
Grfico das autocorrelaes e das autocorrelaes parciais do logaritmo das demisses no Brasil ao longo do tempo com uma diferena Simples e uma diferena Sazonal.
Grfico das autocorrelaes do Modelo II (Aps uma diferena simples e uma sazonal)
1.0 Autocorrelaes -1.0 -0.5 0.0 0.5
20
40 Lag
60
80
100
Grfico das autocorrelaes parciais do Modelo II (Aps uma diferena simples e uma sazonal)
1.0 Autocorrelaes parciais -1.0 -0.5 0.0 0.5
20
40 Lag
60
80
100
Figura 9 Grfico das autocorrelaes e das autocorrelaes parciais do Modelo II aps uma diferena simples e uma diferena sazonal.
Em ambos os casos vemos que para alguns lags ainda temos autocorrelaes altas, o que nos d indcios de sazonalidade estocstica. Desta forma partiremos para uma modelagem SARIMA.
12
d. Ajuste do modelo. Vrios modelos SARIMA foram testados, sempre observando os critrios de adequao do modelo (AIC, AIC corrigido e BIC) conjuntamente com a anlise dos resduos.
e. Ajuste do Modelo I Vrios modelos foram testados e o que nos trouxe um melhor resultado geral (critrios de adequao e anlise dos resduos) foi o modelo SARIMA(3,1,3)(3,1,3). Este modelo nos trouxe os seguintes resultados para os critrios de adequao do modelo: AIC = 3463.06 ; AICc = 3465.93 ; BIC = 3501.39 Quanto aos resduos comeamos primeiramente testando a hiptese de normalidade atravs do teste de Shapiro-Wilk. De acordo com o teste, no h evidncias estatsticas significativas (p-valor = 0.2491) de que os resduos no tenham distribuio normal. Em seguida foi testado se as autocorrelaes dos resduos eram significativamente diferentes de zero at o lag 15 (escolhido arbitrariamente), foi observado o resultado do teste Box-Pierce e tambm o resultado do teste Ljung-Box. (Na tabela abaixo os p-valores de cada um dos testes).
LjungLag Box-Pierce Box 1 0.95959 0.95919 2 0.96168 0.96070 3 0.99322 0.99295 4 0.90447 0.89821 5 0.95958 0.95615 6 0.97416 0.97135 7 0.98957 0.98821 8 0.99469 0.99385 9 0.99801 0.99765 10 0.99750 0.99688 11 0.99567 0.99430 12 0.99790 0.99714 13 0.99526 0.99318 14 0.99751 0.99628 15 0.99797 0.99683 Para todos os lags testados no foi rejeitada a hiptese de que as autocorrelaes entre os resduos so iguais a zero.
13
Para termos uma viso grfica dos resduos, foi plotado o histograma sobreposto pela curva normal terica.
Densidade
0e+00
-2e+05
2e-06
4e-06
6e-06
8e-06
1e-05
-1e+05
0e+00 Resduos
1e+05
2e+05
Vemos que apesar do histograma no estar perfeitamente similar ao histograma de dados com distribuio normal, esse desvio no foi suficiente para rejeitarmos a hiptese de normalidade para os dados. Esses mesmo desvios na normalidade no so to evidentes no grfico de probabilidade normal.
14
-2
-1
0 Quantis teoricos
Para nos certificarmos de que o modelo ajustado no possua volatilidade foi feito o grfico das autocorrelaes do quadrado dos resduos. Caso para algum lag houvesse valores fora dos intervalos de confiana teramos que pensar em uma modelagem diferente, levando em conta essa volatilidade.
15
-1.0
0
-0.5
0.0
0.5
1.0
20
40 Lag
60
80
100
Observamos que no existe para nenhum lag autocorrelaes fora do intervalo de confiana. Por ltimo fizemos o grfico acumulado do periodograma dos resduos com a finalidade de nos certificarmos que os resduos do nosso modelo seguem uma distribuio Rudo Branco.
16
0.2
0.4
0.6
0.8
0.1
0.2 frequency
0.3
0.4
0.5
Vemos que em nenhum momento a acumulada sai do intervalo de confiana, dessa forma no rejeitamos a hiptese de que os resduos tenham distribuio Rudo Branco. Ento assumimos que os resduos esto atendendo todas as especificidades do modelo, desta forma este modelo ser utilizado para gerar previses para essa srie.
17
f.
Ajuste do Modelo II
Vrios modelos foram testados e o que nos trouxe um melhor resultado geral (critrios de adequao e anlise dos resduos) foi o modelo SARIMA(0,1,1)(4,1,0). Este modelo nos trouxe os seguintes resultados para os critrios de adequao do modelo: AIC = -422.08 ; AICc = -421.45 ; BIC = -404.39 Quanto aos resduos comeamos primeiramente testando a hiptese de normalidade atravs do teste de Shapiro-Wilk. De acordo com o teste, no h evidncias estatsticas significativas (p-valor = 0.3397) de que os resduos no tenham distribuio normal. Em seguida foi testado se as autocorrelaes dos resduos eram significativamente diferentes de zero at o lag 15 (escolhido arbitrariamente), foi observado o resultado do teste Box-Pierce e tambm o resultado do teste Ljung-Box. (Na tabela abaixo os p-valores de cada um dos testes).
LjungLag Box-Pierce Box 1 0.92876 0.92807 2 0.82524 0.82110 3 0.12272 0.11305 4 0.21482 0.20016 5 0.32260 0.30368 6 0.29881 0.27607 7 0.28086 0.25447 8 0.37498 0.34431 9 0.40997 0.37496 10 0.22782 0.19047 11 0.29476 0.25073 12 0.34952 0.29994 13 0.34138 0.28661 14 0.40161 0.34157 15 0.47494 0.41140 Para todos os lags testados no foi rejeitada a hiptese de que as autocorrelaes entre os resduos so iguais a zero. Para termos uma viso grfica dos dados, foi plotado o histograma sobreposto pela curva normal terica.
18
Densidade
0
-0.15
-0.10
-0.05
0.00 Resduos
0.05
0.10
0.15
Vemos que apesar do histograma no estar perfeitamente similar ao histograma de dados com distribuio normal, esse desvio no foi suficiente para rejeitarmos a hiptese de normalidade para os resduos. Esses mesmo desvios na normalidade no so to evidentes no grfico de probabilidade normal.
19
Quantis observados
-0.10
-0.05
0.00
0.05
0.10
0.15
-2
-1
0 Quantis teoricos
Por ltimo, para nos certificarmos de que o modelo ajustado no possua volatilidade foi feito o grfico das autocorrelaes do quadrado dos resduos. Caso para algum lag houvesse valores fora dos intervalos de confiana teramos que pensar em uma modelagem diferente, levando em conta essa volatilidade.
20
-1.0
0
-0.5
0.0
0.5
1.0
20
40 Lag
60
80
100
Observamos que no existe para nenhum lag autocorrelaes fora do intervalo de confiana. Por ltimo fizemos o grfico acumulado do periodograma dos resduos com a finalidade de nos certificarmos que os resduos do nosso modelo seguem uma distribuio Rudo Branco.
21
0.0
0.0
0.2
0.4
0.6
0.8
1.0
0.1
0.2 frequency
0.3
0.4
0.5
Vemos que em nenhum momento a acumulada sai do intervalo de confiana, dessa forma no rejeitamos a hiptese de que os resduos tenham distribuio Rudo Branco. Ento assumimos que os resduos esto atendendo todas as especificidades do modelo, desta forma este modelo ser utilizado para gerar previses para essa srie.
22
2. Previso
Depois de termos encontrado um modelo apropriado para modelagem da srie, vamos agora fazer previses e comparar com os valores observados na srie.
a. Modelo I Usaremos o modelo encontrado na primeira parte do trabalho - SARIMA(3,1,3)(3,1,3) e faremos previses para os 14 meses seguintes (amostra definida para teste). Essas previses foram plotadas juntamente com o intervalo de confiana e com os valores reais observados.
Previso Modelo I
600000 800000
0
1200000
1600000
50 Ms
100
150
23
Aparentemente as previses esto coerentes com os valores observados na srie original, para termos uma viso mais clara plotamos o mesmo grfico observando apenas as ltimas 30 observaes.
Previso Modelo I
1500000
0
1600000
1700000
1800000
1900000
10
15 Ms
20
25
30
Figura 19 Grfico do Modelo I com suas previses e intervalos de confiana (Apenas as ltimas 30 observaes).
Vemos que as primeiras 6 previses so muito prximas dos verdadeiros valores da srie e a medida que tentamos realizar previses para tempos distantes as previses ficam menos precisas.
24
b. Modelo II
Usaremos o modelo encontrado na primeira parte do trabalho - SARIMA(0,1,1)(4,1,0) e faremos previses para os 14 meses seguintes (amostra definida para teste). Essas previses foram plotadas juntamente com o intervalo de confiana e com os valores reais observados para o logaritmo da srie.
Previso Modelo II
13.0
0
13.5
14.0
14.5
50 Ms
100
150
Aparentemente as previses esto coerentes com os valores observados na srie original, para termos uma viso mais clara plotamos o mesmo grfico observando apenas as ltimas 30 observaes.
25
Previso Modelo II
14.15
0
14.20
14.25
14.30
14.35
14.40
14.45
10
15 Ms
20
25
30
Figura 21 Grfico do Modelo II com suas previses e intervalos de confiana (Apenas as ltimas 30 observaes).
Vemos que as primeiras 2 previses so muito prximas dos verdadeiros valores da srie e a medida que tentamos realizar previses para tempos distantes as previses ficam menos precisas. Porm essas previses so para o logaritmo da srie, devemos ento tomar a exponencial das provises obtidas para ento ter a previso do Modelo II para a srie original. Abaixo temos em um mesmo grfico as previses do Modelo I (Azul), as previses do Modelo II (Vermelho), e os valores reais (Preto).
26
600000 800000
0
1200000
1600000
50 Ms
100
150
Figura 22 Grfico da srie histrica de demisses no Brasil e as previses do Modelo I e do Modelo II.
Para uma melhor visualizao tambm foi plotado o mesmo grfico acima, porm, mostrando apenas as ltimas 30 observaes.
27
Previso Modelo I e II
1900000 Nmero de demisses no Brasil 1500000 0 1600000 1700000 1800000
10
15 Ms
20
25
30
Figura 23 Grfico da srie histrica de demisses no Brasil e as previses do Modelo I e do Modelo II (Apenas as ltimas 30 observaes).
Vemos que o comportamento das previses dos dois modelos testados so similares. O Modelo II melhor para previses curtas j o Modelo I erra aparentemente menos para perodos mais distantes.
Para deciso de qual modelo foi mais preciso utilizamos as seguintes medidas de acurcia: ME (Mean Error), RMSE (Root Mean Square Error), MAE (Mean Absolut Error), MPE (Mean Percentage Error), MAPE (Mean Absolute Percentage Error). Em todas as medidas o esperado (caso a previso seja boa) termos valores prximos de zero.
28
Medidas de acurcia Modelo I ME RMSE MAE MPE MAPE -29059.71429 60888.75949 50506.14286 -1.832832 3.057312 Modelo II ME RMSE MAE MPE MAPE -83679.95289 105873.9401 84344.9522 -5.036654 5.078713
Vemos que em todos os critrios observados o Modelo I se sobressai no sentido de ter previses mais precisas para a srie, mesmo considerando o fato de o Modelo II ter tido uma maior preciso nas primeiras duas observaes. Portanto com base nos resultados obtidos o modelo que melhor se ajustou aos dados foi o modelo SARIMA(3,1,3)(3,1,3) para a srie original de dados, pois esse modelo nos d previses mais precisas dos futuros valores da srie.
29