Monday 3 July 2017

Automático Movendo Médio Spss


Modelos ARMA e ARIMA (Box-Jenkins) Modelos ARMA e ARIMA (Box-Jenkins) Nas seções anteriores vimos como o valor de uma série temporal univariada no tempo t. X t. Pode ser modelado usando uma variedade de expressões de média móvel. Mostramos também que componentes como tendências e periodicidade nas séries temporais podem ser explicitamente modelados e / ou separados, com os dados sendo decompostos em componentes tendência, sazonais e residuais. Mostramos também, nas discussões anteriores sobre autocorrelação. Que os coeficientes de autocorrelação total e parcial são extremamente úteis na identificação e padrões de modelagem em séries temporais. Esses dois aspectos da análise e modelagem de séries temporais podem ser combinados em um quadro de modelagem geral mais geral e muitas vezes muito efetivo. Em sua forma básica, esta abordagem é conhecida como modelagem ARMA (média móvel autorregressiva), ou quando a diferenciação é incluída no procedimento, ARIMA ou Box-Jenkins modelagem, após os dois autores que foram centrais para o seu desenvolvimento (ver Box amp Jenkins, 1968 BOX1 e Box, Jenkins amp Reinsel, 1994 BOX2). Não há uma regra fixa quanto ao número de períodos de tempo necessários para um exercício de modelagem bem-sucedido, mas para modelos mais complexos e para maior confiança nos procedimentos de ajuste e validação, são freqüentemente recomendadas séries com 50 etapas de tempo. Os modelos ARMA combinam os métodos de autocorrelação (AR) e as médias móveis (MA) em um modelo composto da série temporal. Antes de considerar como esses modelos podem ser combinados, examinamos cada um deles separadamente. Já vimos que os modelos de média móvel (MA) podem ser usados ​​para fornecer um bom ajuste para alguns conjuntos de dados, e as variações nesses modelos que envolvem o suavização exponencial dupla ou tripla podem lidar com componentes tendenciais e periódicos nos dados. Além disso, esses modelos podem ser usados ​​para criar previsões que imitam o comportamento de períodos anteriores. Uma forma simples de tais modelos, baseada em dados anteriores, pode ser escrita como: Onde os termos beta i são os pesos aplicados aos valores anteriores na série temporal, e é usual definir beta i 1, sem perda de generalidade. Assim, para um processo de primeira ordem, q 1 e temos o modelo: isto é, o valor da média móvel é estimado como uma média ponderada dos valores passados ​​atuais e imediatos. Este processo de média é, em certo sentido, um mecanismo pragmático de suavização sem uma ligação directa a um modelo estatístico. No entanto, podemos especificar um modelo estatístico (ou estocástico) que abrace os procedimentos de médias móveis em conjunto com processos aleatórios. Se formos um conjunto de variáveis ​​aleatórias independentes e identicamente distribuídas (um processo aleatório) com média zero e variância fixa conhecida, então podemos escrever o processo como uma média móvel de ordem q em termos de: Claramente o valor esperado de xt sob Este modelo é 0, portanto o modelo só é válido se o xt já tiver sido ajustado para ter uma média zero ou se uma constante fixa (a média do xt) é adicionada à soma. É também evidente que a variância de xt é simplesmente: A análise acima pode ser estendida para avaliar a covariância, cov (x t. Xtk), que encontramos rendimentos: Note-se que nem o valor médio, nem a covariância (ou autocovariância) A lag k é uma função do tempo, t. Então o processo é de segunda ordem estacionário. A expressão acima permite obter uma expressão para a função de autocorrelação (acf): Se k 0 rho k 1, e para k gt q rho k 0. Além disso, o acf é simétrico e rho k rho - k. O acf pode ser calculado para um processo MA de primeira ordem: O componente autorregressivo ou AR de um modelo ARMA pode ser escrito na forma: onde os termos em são coeficientes de autocorrelação em lags 1,2. P e zt é um termo de erro residual. Observe que este termo de erro se refere especificamente ao período de tempo atual, t. Assim, para um processo de primeira ordem, p 1 e temos o modelo: Estas expressões afirmam que o valor estimado de x no tempo t é determinado pelo valor imediatamente anterior de x (isto é, no tempo t -1) multiplicado por uma medida, alfa . Da extensão em que os valores de todos os pares de valores em períodos de tempo com intervalo de 1 são correlacionados (isto é, a sua autocorrelação), mais um termo de erro residual, z. No tempo t. Mas esta é precisamente a definição de um Processo de Markov. Assim, um Processo de Markov é um processo autorregressivo de primeira ordem. Se alfa 1 o modelo afirma que o valor seguinte de x é simplesmente o valor anterior mais um termo de erro aleatório, e, portanto, é uma simples caminhada aleatória 1D. Se forem incluídos mais termos, o modelo estima o valor de x no tempo t por uma soma ponderada destes termos mais uma componente de erro aleatório. Se substituirmos a segunda expressão acima na primeira, temos: e a aplicação repetida dessa substituição rende: Agora se alfa lt1 ek é grande, esta expressão pode ser escrita na ordem inversa, com termos decrescentes e com contribuição do termo Em x no lado direito da expressão tornando-se cada vez mais pequeno, então temos: Uma vez que o lado direito desta expressão modela xt como a soma de um conjunto ponderado de valores anteriores, neste caso termos de erro aleatório, fica claro que Este modelo AR é, de fato, uma forma de modelo MA. E se assumimos que os termos de erro têm média zero e variância constante, então como no modelo MA temos o valor esperado do modelo como também 0, assumindo que o xt foi ajustado para fornecer uma média zero, com variância: Assim como com o modelo MA acima, esta análise pode ser estendida para avaliar a covariância, cov (x t. X tk) de um primeiro Para o alfa lt1 esta soma é finita e é simplesmente alfa k (1-alfa 2), então temos: Isto demonstra que para um modelo autorregressivo de primeira ordem a função de autocorrelação (acf) é simplesmente definida Por potências sucessivas da autocorrelação de primeira ordem, com a condição alfa lt1. Para alfa gt0 isto é simplesmente uma potência que diminui rapidamente ou curva de tipo exponencial, tendendo a zero, ou para lt0 é uma curva oscilatória de amortecimento, tendendo novamente para zero. Se uma suposição for feita de que a série de tempo é estacionária, a análise acima pode ser estendida para autocorrelações de segundo e maior ordem. Para ajustar um modelo AR a um conjunto de dados observado, buscamos minimizar a soma de erros quadrados (um ajuste de mínimos quadrados) usando o menor número de termos que proporcionam um ajuste satisfatório aos dados. Modelos deste tipo são descritos como autorregressivos. E pode ser aplicada a séries de tempo e conjuntos de dados espaciais (ver modelos de autorregressão espacial adicionais). Embora, teoricamente, um modelo autorregressivo possa fornecer um bom ajuste a um conjunto de dados observado, geralmente exigiria a remoção prévia de componentes tendenciais e periódicos e, mesmo assim, pode precisar de um grande número de termos para fornecer um bom ajuste aos dados. No entanto, combinando os modelos AR com modelos MA, podemos produzir uma família de modelos mistos que podem ser aplicados em uma ampla gama de situações. Estes modelos são conhecidos como modelos ARMA e ARIMA, e são descritos nas subsecções seguintes. Nas duas subseções anteriores, introduzimos o modo MA de ordem q: eo modelo AR de ordem p: Podemos combinar esses dois modelos simplesmente adicionando-os juntos como um modelo de ordem (p, q), onde temos p AR termos E q Termos MA: Em geral, esta forma de modelo ARMA combinado pode ser usada para modelar uma série temporal com menos termos em geral do que um MA ou um modelo AR por si mesmos. Exprime o valor estimado no tempo t como a soma de q termos que representam a variação média da variação aleatória sobre q períodos anteriores (a componente MA), mais a soma dos termos p AR que calculam o valor actual de x como a soma ponderada Dos p valores mais recentes. No entanto, esta forma de modelo assume que a série temporal é estacionária, o que raramente é o caso. Na prática, tendências e periodicidade existem em muitos conjuntos de dados, por isso há uma necessidade de remover esses efeitos antes de aplicar tais modelos. A remoção é tipicamente levada a cabo incluindo no modelo uma fase de diferenciação inicial, tipicamente uma, duas ou três vezes, até que a série seja pelo menos aproximadamente estacionária - não exibindo tendências ou periodicidades óbvias. Como nos processos MA e AR, o processo de diferenciação é descrito pela ordem de diferenciação, por exemplo, 1, 2, 3. Coletivamente, esses três elementos constituem um triplo: (p, q, q) que define o tipo de modelo aplicado. Nesta forma, o modelo é descrito como um modelo ARIMA. A letra I em ARIMA refere-se ao fato de que o conjunto de dados foi inicialmente diferenciado (ver diferenciação) e quando a modelagem é completa, os resultados devem ser somados ou integrados para produzir as estimativas e previsões finais. A modelagem ARIMA é discutida abaixo. Conforme observado na subseção anterior, combinar a diferenciação de uma série temporária não-estacionária com o modelo ARMA fornece uma poderosa família de modelos que podem ser aplicados em uma ampla gama de situações. O desenvolvimento desta forma estendida de modelo é em grande parte devido a G E P Box e G M Jenkins, e como resultado modelos ARIMA também são conhecidos como Box-Jenkins modelos. O primeiro passo no procedimento Box-Jenkins é diferenciar a série temporal até que ela fique estacionária, garantindo assim que a tendência e os componentes sazonais sejam removidos. Em muitos casos, uma ou duas fases de diferenciação são suficientes. A série diferenciada será mais curta do que a série de origem por c intervalos de tempo, onde c é o intervalo da diferenciação. Um modelo ARMA é então ajustado para a série de tempo resultante. Porque os modelos de ARIMA têm três parâmetros há muitas variações aos modelos possíveis que poderiam ser cabidos. No entanto, a decisão sobre o que esses parâmetros devem ser pode ser guiada por uma série de princípios básicos: (i) o modelo deve ser tão simples quanto possível, ou seja, conter o menor número de termos possível, o que significa que os valores de p e q Deve ser pequeno (ii) o ajuste aos dados históricos deve ser o melhor possível, ou seja, o tamanho das diferenças quadradas entre o valor estimado em qualquer período de tempo passado eo valor real, deve ser minimizado (princípio mínimos quadrados) - os resíduos Do modelo selecionado pode então ser examinado para ver se quaisquer resíduos restantes são significativamente diferentes de 0 (ver adiante, abaixo) (iii) a autocorrelação parcial medida nos intervalos 1, 2, 3. Deve fornecer uma indicação da ordem da componente AR, ou seja, o valor escolhido para q (iv) a forma da função de autocorrelação (acf) parcela pode sugerir o tipo de modelo ARIMA exigido - a tabela abaixo (a partir do NIST) fornece orientações sobre Interpretando a forma do acf em termos de seleção de modelo. ARIMA Seleção do tipo de modelo usando a forma de ACF A série não é estacionária. Padrão ARIMA modelos são frequentemente descritos pelo triplo: (p. d.q) como observado acima. Estes definem a estrutura do modelo em termos da ordem de AR, diferenciação e MA modelos a serem utilizados. Também é possível incluir parâmetros semelhantes para sazonalidade nos dados, embora esses modelos sejam mais complexos de se ajustar e interpretar - o tripé (P. D. Q) é geralmente usado para identificar esses componentes do modelo. Na captura de tela do SPSS mostrada abaixo, é exibida a caixa de diálogo para selecionar manualmente elementos estruturais não sazonais e sazonais (instalações similares estão disponíveis em outros pacotes integrados, como SASETS). Como pode ser visto, o diálogo também permite que os dados sejam transformados (normalmente para auxiliar na estabilização de variância) e permitir aos usuários incluir uma constante no modelo (o padrão). Esta ferramenta de software particular permite que sejam detectados outliers se necessário, de acordo com uma gama de procedimentos de detecção, mas em muitos casos os outliers terão sido investigados e ajustados ou removidos e substituir os valores estimados, antes de qualquer análise. Modelador de séries temporais SPSS: modelo ARIMA, modo especialista É possível montar vários modelos ARIMA nos dados, manualmente ou através de um processo automatizado (por exemplo, um processo passo a passo) e uma ou mais medidas utilizadas para avaliar qual é o melhor em termos de Ajuste e parcimônia. A comparação de modelos tipicamente faz uso de uma ou mais das medidas de informação descritas anteriormente neste manual - AIC, BIC e MDL (a função R, arima (), fornece a medida AIC, enquanto SPSS fornece uma gama de medidas de ajuste, incluindo um Versão da estatística BIC outras ferramentas variam nas medidas fornecidas - Minitab., Que fornece uma gama de métodos TSA, não inclui estatísticas de tipo AICBIC). Na prática, pode ser utilizada uma ampla gama de medidas (ou seja, além das medidas baseadas nos mínimos quadrados), por exemplo, o erro absoluto médio e o erro absoluto máximo podem ser medidas úteis, uma vez que mesmo um bom menor O ajuste de quadrados pode ainda ser pobre em alguns lugares. Uma série de pacotes de software também pode fornecer uma medida geral da autocorrelação que pode permanecer nos resíduos após a instalação do modelo. Uma estatística freqüentemente aplicada é devido a Ljung e Box (1978 LJU1), e É da forma: onde n é o número de amostras (valores de dados), ri é a autocorrelação da amostra no intervalo i ek é o número total de defasagens sobre as quais o cálculo é realizado. Q k é aproximadamente distribuído como um chi - distribuição quadrada com k - m graus de liberdade, onde m é o número de parâmetros utilizados na montagem do modelo, excluindo qualquer termo constante ou variáveis ​​de previsão (isto é, incluindo os pd q triplos) Se a medida é estatisticamente significativa Indica que os resíduos ainda contêm autocorrelação significativa após a instalação do modelo, sugerindo que um modelo melhorado deve ser buscado. Exemplo: Modelando o crescimento do número de passageiros das companhias aéreas A seguir, um exemplo de montagem automatizada, usando SPSS para os dados de teste Box-Jenkins-Reinsel do número de passageiros REI1 fornecido anteriormente neste Manual. Inicialmente não foi especificada qualquer especificação das datas sendo meses dentro de anos. O modelo selecionado pelo processo automatizado foi um modelo ARIMA (0,1,12), ou seja, o processo identificou corretamente que a série exigia um nível de diferenciação e aplicava um modelo de média móvel com uma periodicidade de 12 e nenhum componente de autocorrelação para se ajustar ao dados. O ajuste do modelo produziu um valor R 2 de 0,966, que é muito alto, e um erro absoluto máximo (MAE) de 75. O ajuste visual do modelo aos dados parece excelente, mas o gráfico da autocorrelação residual após o ajuste e Ljung O teste de caixa mostra que a autocorrelação significativa permanece, indicando que um modelo melhorado é possível. Para analisar isso mais detalhadamente, foi instalado um modelo revisado, baseado na discussão deste conjunto de dados por Box e Jenkins (1968) e na edição atualizada do livro de Chatfields (1975 CHA1) em Que ele usa o Minitab para ilustrar sua análise (6 ª edição, 2003). A série temporal foi definida como tendo uma periodicidade de 12 meses e um modelo ARIMA com componentes (0,1,1), (0,1,1). Graficamente, os resultados parecem muito semelhantes ao gráfico acima, mas com este modelo o R-quadrado é 0,991, o MAE41 ea estatística Ljung-Box não são mais significativos (12,6, com 16 graus de liberdade). O modelo é, portanto, uma melhoria na versão original (gerada automaticamente), sendo composta por uma MA não-sazonal e uma componente MA sazonal, sem componente autorregressivo e um nível de diferenciação para as estruturas sazonais e não sazonais. Se o ajuste for manual ou automatizado, um modelo ARIMA pode fornecer uma boa estrutura para modelar uma série de tempo, ou pode ser que modelos ou abordagens alternativos proporcionem um resultado mais satisfatório. Muitas vezes é difícil saber com antecedência o quão bom qualquer modelo de previsão é provável que seja, uma vez que é apenas à luz da sua capacidade de prever os valores futuros das séries de dados que pode ser verdadeiramente julgado. Muitas vezes, esse processo é aproximado ajustando o modelo a dados passados ​​excluindo períodos de tempo recentes (também conhecidos como amostras de hold-out) e, em seguida, usando o modelo para prever esses eventos futuros conhecidos, mas mesmo isso oferece confiança limitada em sua validade futura. Previsões a mais longo prazo podem ser extremamente pouco confiáveis ​​usando tais métodos. É óbvio que o modelo internacional de estatísticas de tráfego aéreo descrito acima não é capaz de prever corretamente o número de passageiros até a década de 1990 e mais além, nem a queda de 5 anos no número de passageiros internacionais dos EUA após 9112001. Da mesma forma, um modelo ARIMA pode ser ajustado a valores históricos De preços de ações ou valores de índice (por exemplo, os índices NYSE ou FTSE) e normalmente fornecerá um ajuste excelente para os dados (rendendo um valor R-quadrado de melhor que 0,99), mas muitas vezes são de pouca utilidade para prever valores futuros desses preços Ou índices. Tipicamente os modelos ARIMA são usados ​​para previsão, particularmente no campo da modelagem macro e microeconômica. No entanto, eles podem ser aplicados em uma ampla gama de disciplinas, quer na forma descrita aqui, ou aumentado com variáveis ​​preditor adicionais que se acredita para melhorar a confiabilidade das previsões feitas. Estes últimos são importantes porque toda a estrutura dos modelos ARMA discutidos acima depende de valores anteriores e eventos aleatórios independentes ao longo do tempo, não em qualquer fatores explicativos ou causais. Assim, os modelos ARIMA apenas refletirão e estenderão os padrões passados, que poderão ter de ser modificados nas previsões por factores como o ambiente macroeconómico, as mudanças tecnológicas ou as alterações dos recursos e / ou do ambiente a mais longo prazo. BOX1 Caixa G E P, Jenkins G M (1968). Alguns avanços recentes na previsão e controle. Estatística Aplicada, 17 (2), 91-109 BOX2 Caixa, G E P, Jenkins, G M, Reinsel G C (1994) Análise, Previsão e Controlo de Séries Temporais. 3a ed. Prentice Hall, falésias de Englewood, NJ CHA1 Chatfield C (1975) A análise da série dos tempos: Teoria e prática. Chapman e Hall, Londres (ver também, 6o ed. 2003) LJU1 Ljung G M, Caixa G E P (1978) Sobre uma medida de uma falta de ajuste em modelos de séries temporais. Biometrika, 65, 297303 NISTSEMATECH e-Handbook of Statistical Methods, itl. nist. govdiv898handbook Seção 6.4: Introdução às séries temporais. 2010 SPSSPASW 17 (2008) AnalyseForecasting (Modelos de séries temporais) REI1 Reinsel GC Datasets para modelos Box-Jenkins: stat. wisc. eduSPSS Treinamento On-Line O procedimento Time Series fornece as ferramentas para criar modelos, aplicando um modelo existente para análise de séries temporais , Decomposição sazonal e análise espectral de dados de séries temporais, bem como ferramentas para calcular autocorrelações e correlações cruzadas. Os seguintes dois clipes de filme demonstram como criar um modelo de série temporal de suavização exponencial e como aplicar um modelo de série temporal existente para analisar dados de séries temporais. MOVIE: Modelo de Suavização Exponencial MOVIE: Modelo ARIMA Ferramenta Expert Modeler Expert Nesta oficina on-line, você encontrará muitos clipes de filme. Cada clipe de filme demonstrará alguma utilização específica do SPSS. Criar modelos TS. Existem diferentes métodos disponíveis no SPSS para criar modelos de séries temporais. Existem procedimentos para modelos de suavização exponencial, univariada e multivariada Autoregressive Integrated Moving-Average (ARIMA). Estes procedimentos produzem previsões. Métodos de alisamento na previsão - Médias móveis, médias móveis ponderadas e métodos exponenciais de suavização são freqüentemente usados ​​na previsão. O principal objectivo de cada um destes métodos é suavizar as flutuações aleatórias na série temporal. Estes são eficazes quando a série temporal não exibe tendência significativa, efeitos cíclicos ou sazonais. Isto é, a série de tempo é estável. Os métodos de suavização são geralmente bons para as previsões de curto alcance. Médias móveis: Médias móveis usa a média dos valores de dados k mais recentes na série de tempo. Por definição, MA S (valores k mais recentes) k. A MA média muda à medida que novas observações se tornam disponíveis. Média Móvel Ponderada: No método MA, cada ponto de dados recebe o mesmo peso. Na média móvel ponderada, usamos pesos diferentes para cada ponto de dados. Ao selecionar os pesos, calculamos a média ponderada dos valores de dados k mais recentes. Em muitos casos, o ponto de dados mais recente recebe o maior peso eo peso diminui para pontos de dados mais antigos. A soma dos pesos é igual a 1. Uma maneira de selecionar pesos é usar pesos que minimizem o critério de erro quadrático médio (MSE). Método de Suavização Exponencial. Este é um método de média ponderada especial. Este método seleciona o peso para a observação mais recente e os pesos para observações mais antigas são computados automaticamente. Estes outros pesos diminuem à medida que as observações ficam mais velhas. O modelo básico de suavização exponencial é onde F t 1 previsão para o período t 1, t observação no período t. F t previsão para o período t. E um parâmetro de suavização (ou constante) (0 lt a lt1). Para uma série de tempo, definimos F 1 1 para o período 1 e as previsões subseqüentes para os períodos 2, 3, podem ser calculadas pela fórmula para F t 1. Usando esta abordagem, pode-se mostrar que o método de suavização exponencial é uma média ponderada de todos os pontos de dados anteriores na série de tempo. Uma vez conhecida, precisamos conhecer t e F t para calcular a previsão para o período t 1. Em geral, escolhemos a que minimiza o MSE. Simples: apropriado para séries em que não há tendência ou sazonalidade. Componente de média móvel (q): ordens de média móvel especificam como os desvios da média de série para valores anteriores são usados ​​para prever os valores atuais. Expert Time Series Modeler determina automaticamente o melhor ajuste para os dados da série temporal. Por padrão, o Expert Modeler considera os modelos de suavização exponencial e ARIMA. O usuário pode selecionar somente modelos ARIMA ou Smoothing e especificar a detecção automática de outliers. O clipe de filme a seguir demonstra como criar um modelo ARIMA usando o método ARIMA e o Modelador Especializado fornecido pelo SPSS. O conjunto de dados utilizado para esta demonstração é o conjunto de dados AirlinePassenger. Consulte a página Conjunto de dados para obter detalhes. Os dados dos passageiros das companhias aéreas são dados como série G no livro Time Series Analysis: Forecasting and Control por Box e Jenkins (1976). O número variável é o total mensal de passageiros em milhares. Na transformação logarítmica, os dados foram analisados ​​na literatura. Aplicar modelos de séries temporais. Esse procedimento carrega um modelo de série temporal existente a partir de um arquivo externo eo modelo é aplicado ao conjunto de dados SPSS ativo. Isso pode ser usado para obter previsões para séries para as quais dados novos ou revisados ​​estão disponíveis sem começar a construir um novo modelo. A caixa de diálogo principal é semelhante à caixa de diálogo principal Criar modelos. Análise Espectral. Este procedimento pode ser usado para mostrar comportamento periódico em séries temporais. Gráficos de seqüência. Este procedimento é utilizado para traçar casos em sequência. Para executar este procedimento, você precisa de dados de séries temporais ou de um conjunto de dados que esteja classificado em determinada ordem significativa. Autocorrelações. Este procedimento traça função de autocorrelação e função de autocorrelação parcial de uma ou mais séries temporais. Cross-Correlations. Este procedimento traça a função de correlação cruzada de duas ou mais séries de tempo para defasagens positivas, negativas e zero. Consulte o Menu de Ajuda do SPSS para obter informações adicionais sobre o modelo de séries temporais aplicadas, análise espectral, gráficos de seqüência, autocorrelações e procedimentos de correlação cruzada. O seu Workshop de Treinamento SPSS on-line é desenvolvido pelo Dr. Carl Lee, Dr. Felix Famoye. Assistentes estudantis Barbara Shelden e Albert Brown. Departamento de Matemática, Universidade Central de Michigan. Todos os direitos reservados. Modelos ARMA e ARIMA (Box-Jenkins) Modelos ARMA e ARIMA (Box-Jenkins) Nas seções anteriores vimos como o valor de uma série temporal univariada no tempo t. X t. Pode ser modelado usando uma variedade de expressões de média móvel. Mostramos também que componentes como tendências e periodicidade nas séries temporais podem ser explicitamente modelados e / ou separados, com os dados sendo decompostos em componentes tendência, sazonais e residuais. Mostramos também, nas discussões anteriores sobre autocorrelação. Que os coeficientes de autocorrelação total e parcial são extremamente úteis na identificação e padrões de modelagem em séries temporais. Esses dois aspectos da análise e modelagem de séries temporais podem ser combinados em um quadro de modelagem geral mais geral e muitas vezes muito efetivo. Em sua forma básica, esta abordagem é conhecida como modelagem ARMA (média móvel autorregressiva), ou quando a diferenciação é incluída no procedimento, ARIMA ou Box-Jenkins modelagem, após os dois autores que foram centrais para o seu desenvolvimento (ver Box amp Jenkins, 1968 BOX1 e Box, Jenkins amp Reinsel, 1994 BOX2). Não há uma regra fixa quanto ao número de períodos de tempo necessários para um exercício de modelagem bem-sucedido, mas para modelos mais complexos e para maior confiança nos procedimentos de ajuste e validação, são freqüentemente recomendadas séries com 50 etapas de tempo. Os modelos ARMA combinam os métodos de autocorrelação (AR) e as médias móveis (MA) em um modelo composto da série temporal. Antes de considerar como esses modelos podem ser combinados, examinamos cada um deles separadamente. Já vimos que os modelos de média móvel (MA) podem ser usados ​​para fornecer um bom ajuste para alguns conjuntos de dados, e as variações nesses modelos que envolvem o suavização exponencial dupla ou tripla podem lidar com componentes tendenciais e periódicos nos dados. Além disso, esses modelos podem ser usados ​​para criar previsões que imitam o comportamento de períodos anteriores. Uma forma simples de tais modelos, baseada em dados anteriores, pode ser escrita como: Onde os termos beta i são os pesos aplicados aos valores anteriores na série temporal, e é usual definir beta i 1, sem perda de generalidade. Assim, para um processo de primeira ordem, q 1 e temos o modelo: isto é, o valor da média móvel é estimado como uma média ponderada dos valores passados ​​atuais e imediatos. Este processo de média é, em certo sentido, um mecanismo pragmático de suavização sem uma ligação directa a um modelo estatístico. No entanto, podemos especificar um modelo estatístico (ou estocástico) que abrace os procedimentos de médias móveis em conjunto com processos aleatórios. Se formos um conjunto de variáveis ​​aleatórias independentes e identicamente distribuídas (um processo aleatório) com média zero e variância fixa conhecida, então podemos escrever o processo como uma média móvel de ordem q em termos de: Claramente o valor esperado de xt sob Este modelo é 0, então o modelo só é válido se o xt já tiver sido ajustado para ter uma média zero ou se uma constante fixa (a média do xt) é adicionada à soma. É também evidente que a variância de xt é simplesmente: A análise acima pode ser estendida para avaliar a covariância, cov (x t. Xtk), que encontramos rendimentos: Note-se que nem o valor médio, nem a covariância (ou autocovariância) A lag k é uma função do tempo, t. Então o processo é de segunda ordem estacionário. A expressão acima permite obter uma expressão para a função de autocorrelação (acf): Se k 0 rho k 1, e para k gt q rho k 0. Além disso, o acf é simétrico e rho k rho - k. O acf pode ser calculado para um processo MA de primeira ordem: O componente autorregressivo ou AR de um modelo ARMA pode ser escrito na forma: onde os termos em são coeficientes de autocorrelação em lags 1,2. P e zt é um termo de erro residual. Observe que este termo de erro se refere especificamente ao período de tempo atual, t. Assim, para um processo de primeira ordem, p 1 e temos o modelo: Estas expressões afirmam que o valor estimado de x no tempo t é determinado pelo valor imediatamente anterior de x (isto é, no tempo t -1) multiplicado por uma medida, alfa . Da extensão em que os valores de todos os pares de valores em períodos de tempo com intervalo de 1 são correlacionados (isto é, a sua autocorrelação), mais um termo de erro residual, z. No tempo t. Mas esta é precisamente a definição de um Processo de Markov. Assim, um Processo de Markov é um processo autorregressivo de primeira ordem. Se alfa 1 o modelo afirma que o valor seguinte de x é simplesmente o valor anterior mais um termo de erro aleatório, e, portanto, é uma simples caminhada aleatória 1D. Se forem incluídos mais termos, o modelo estima o valor de x no tempo t por uma soma ponderada destes termos mais uma componente de erro aleatório. Se substituirmos a segunda expressão acima na primeira, temos: e a aplicação repetida dessa substituição rende: Agora se alfa lt1 ek é grande, esta expressão pode ser escrita na ordem inversa, com termos decrescentes e com contribuição do termo Em x no lado direito da expressão tornando-se cada vez mais pequeno, então temos: Como o lado direito desta expressão modela xt como a soma de um conjunto ponderado de valores anteriores, neste caso termos de erro aleatório, fica claro que Este modelo AR é, de fato, uma forma de modelo MA. E se assumimos que os termos de erro têm média zero e variância constante, então como no modelo MA temos o valor esperado do modelo como também 0, assumindo que o xt foi ajustado para fornecer uma média zero, com variância: Assim como com o modelo MA acima, esta análise pode ser estendida para avaliar a covariância, cov (x t. X tk) de um primeiro Para o alfa lt1 esta soma é finita e é simplesmente alfa k (1-alfa 2), então temos: Isto demonstra que para um modelo autorregressivo de primeira ordem a função de autocorrelação (acf) é simplesmente definida Por potências sucessivas da autocorrelação de primeira ordem, com a condição alfa lt1. Para alfa gt0 isto é simplesmente um poder de diminuição rápida ou curva de tipo exponencial, tendendo a zero, ou para lt0 é uma curva oscilatória de amortecimento, tendendo novamente para zero. Se uma suposição for feita de que a série de tempo é estacionária, a análise acima pode ser estendida para autocorrelações de segundo e maior ordem. Para ajustar um modelo AR a um conjunto de dados observado, buscamos minimizar a soma de erros quadrados (um ajuste de mínimos quadrados) usando o menor número de termos que proporcionam um ajuste satisfatório aos dados. Modelos deste tipo são descritos como autorregressivos. E pode ser aplicada a séries de tempo e conjuntos de dados espaciais (ver modelos de autorregressão espacial adicionais). Embora, teoricamente, um modelo autorregressivo possa fornecer um bom ajuste a um conjunto de dados observado, geralmente exigiria a remoção prévia de componentes tendenciais e periódicos e, mesmo assim, pode precisar de um grande número de termos para fornecer um bom ajuste aos dados. No entanto, combinando os modelos AR com modelos MA, podemos produzir uma família de modelos mistos que podem ser aplicados em uma ampla gama de situações. Estes modelos são conhecidos como modelos ARMA e ARIMA, e são descritos nas subsecções seguintes. Nas duas subseções anteriores, introduzimos o modo MA de ordem q: eo modelo AR de ordem p: Podemos combinar esses dois modelos simplesmente adicionando-os juntos como um modelo de ordem (p, q), onde temos p AR termos E q Termos MA: Em geral, esta forma de modelo ARMA combinado pode ser usada para modelar uma série temporal com menos termos em geral do que um MA ou um modelo AR por si mesmos. Exprime o valor estimado no tempo t como a soma de q termos que representam a variação média da variação aleatória sobre q períodos anteriores (a componente MA), mais a soma dos termos p AR que calculam o valor actual de x como a soma ponderada Dos p valores mais recentes. No entanto, esta forma de modelo assume que a série temporal é estacionária, o que raramente é o caso. Na prática, tendências e periodicidade existem em muitos conjuntos de dados, por isso há uma necessidade de remover esses efeitos antes de aplicar tais modelos. A remoção é tipicamente levada a cabo incluindo no modelo uma fase de diferenciação inicial, tipicamente uma, duas ou três vezes, até que a série seja pelo menos aproximadamente estacionária - não exibindo tendências ou periodicidades óbvias. Como nos processos MA e AR, o processo de diferenciação é descrito pela ordem de diferenciação, por exemplo, 1, 2, 3. Coletivamente, esses três elementos constituem um triplo: (p, q) que define o tipo de modelo aplicado. Nesta forma, o modelo é descrito como um modelo ARIMA. A letra I em ARIMA refere-se ao fato de que o conjunto de dados foi inicialmente diferenciado (ver diferenciação) e quando a modelagem é completa, os resultados devem ser somados ou integrados para produzir as estimativas e previsões finais. A modelagem ARIMA é discutida abaixo. Conforme observado na subseção anterior, combinar a diferenciação de uma série temporária não-estacionária com o modelo ARMA fornece uma poderosa família de modelos que podem ser aplicados em uma ampla gama de situações. O desenvolvimento desta forma estendida de modelo é em grande parte devido a G E P Box e G M Jenkins, e como resultado modelos ARIMA também são conhecidos como Box-Jenkins modelos. O primeiro passo no procedimento Box-Jenkins é diferenciar a série temporal até que ela fique estacionária, garantindo assim que a tendência e os componentes sazonais sejam removidos. Em muitos casos, uma ou duas etapas de diferenciação são suficientes. A série diferenciada será mais curta do que a série de origem por c intervalos de tempo, onde c é o intervalo da diferenciação. Um modelo ARMA é então ajustado para a série de tempo resultante. Porque os modelos de ARIMA têm três parâmetros há muitas variações aos modelos possíveis que poderiam ser cabidos. No entanto, a decisão sobre o que esses parâmetros devem ser pode ser guiada por uma série de princípios básicos: (i) o modelo deve ser tão simples quanto possível, ou seja, conter o menor número de termos possível, o que significa que os valores de p e q Deve ser pequeno (ii) o ajuste aos dados históricos deve ser o melhor possível, ou seja, o tamanho das diferenças quadradas entre o valor estimado em qualquer período de tempo passado eo valor real, deve ser minimizado (princípio mínimos quadrados) - os resíduos Do modelo selecionado pode então ser examinado para ver se quaisquer resíduos restantes são significativamente diferentes de 0 (ver adiante, abaixo) (iii) a autocorrelação parcial medida nos intervalos 1, 2, 3. Deve fornecer uma indicação da ordem da componente AR, ou seja, o valor escolhido para q (iv) a forma da função de autocorrelação (acf) parcela pode sugerir o tipo de modelo ARIMA exigido - a tabela abaixo (a partir do NIST) fornece orientações sobre Interpretando a forma do acf em termos de seleção de modelo. ARIMA Seleção do tipo de modelo usando a forma de ACF A série não é estacionária. Padrão ARIMA modelos são frequentemente descritos pelo triplo: (p. d.q) como observado acima. Estes definem a estrutura do modelo em termos da ordem de AR, diferenciação e MA modelos a serem utilizados. Também é possível incluir parâmetros semelhantes para sazonalidade nos dados, embora esses modelos sejam mais complexos de se ajustar e interpretar - o tripé (P. D. Q) é geralmente usado para identificar esses componentes do modelo. Na captura de tela do SPSS mostrada abaixo, é exibida a caixa de diálogo para selecionar manualmente elementos estruturais não sazonais e sazonais (instalações similares estão disponíveis em outros pacotes integrados, como SASETS). Como pode ser visto, o diálogo também permite que os dados sejam transformados (normalmente para auxiliar na estabilização de variância) e permitir aos usuários incluir uma constante no modelo (o padrão). Esta ferramenta de software particular permite que sejam detectados outliers se necessário, de acordo com uma gama de procedimentos de detecção, mas em muitos casos os outliers terão sido investigados e ajustados ou removidos e substituir os valores estimados, antes de qualquer análise. Modelador de séries temporais SPSS: modelo ARIMA, modo especialista É possível montar vários modelos ARIMA nos dados, manualmente ou através de um processo automatizado (por exemplo, um processo passo a passo) e uma ou mais medidas utilizadas para avaliar qual é o melhor em termos de Ajuste e parcimônia. A comparação de modelos tipicamente faz uso de uma ou mais das medidas de informação descritas anteriormente neste manual - AIC, BIC e MDL (a função R, arima (), fornece a medida AIC, enquanto SPSS fornece uma gama de medidas de ajuste, incluindo um Versão da estatística BIC outras ferramentas variam nas medidas fornecidas - Minitab., Que fornece uma gama de métodos TSA, não inclui estatísticas de tipo AICBIC). In practice a wide range of measures (i. e. other thanin addition to the least squares based measures, can be used to evaluate the model quality. For example, the mean absolute error and the maximum absolute error may be useful measures, since even a good least squares fit may still be poor in places. A number of software packages may also provide an overall measure of the autocorrelation that may remain in the residuals after fitting the model. A statistic frequently applied is due to Ljung and Box (1978 LJU1 ), and is of the form: where n is the number of samples (data values), r i is the sample autocorrelation at lag i. and k is the total number of lags over which the computation is carried out. Q k is approximately distributed as a chi-square distribution with k - m degrees of freedom, where m is the number of parameters used in fitting the model, excluding any constant term or predictor variables (i. e. just including the p. d. q triples). If the measure is statistically significant it indicates that the residuals still contain significant autocorrelation after the model has been fitted, suggesting that an improved model should be sought. Example: Modeling the growth of airline passenger numbers The following is an example of automated fitting, using SPSS to the Box-Jenkins-Reinsel test data of airline passenger numbers REI1 provided earlier in this Handbook. Initially no specification of the dates being months within years was specified. The model selected by the automated process was an ARIMA model (0,1,12), i. e. the process correctly identified that the series required one level of differencing and applied a moving average model with a periodicity of 12 and no autocorrelation component to fit the data. The model fit produced an R 2 value of 0.966, which is very high, and a maximum absolute error (MAE) of 75. The visual fit of the model to the data looks excellent, but the plot of the residual autocorrelation after fitting and Ljung-Box test shows that significant autocorrelation remains, indicating that an improved model is possible. Automated ARIMA fit to International Airline Passengers: Monthly Totals, 1949-1960 To investigate this further a revised model was fitted, based on the discussion of this dataset by Box and Jenkins (1968) and the updated edition of Chatfields (1975 CHA1 ) book in which he uses Minitab to illustrate his analysis (6th edition, 2003). The time series was defined as having a periodicity of 12 months and an ARIMA model with components (0,1,1),(0,1,1). Graphically the results look very similar to the chart above, but with this model the R-squared is 0.991, the MAE41 and the Ljung-Box statistic is no longer significant (12.6, with 16 degrees of freedom). The model is thus an improvement on the original (automatically generated) version, being comprised of a non-seasonal MA and a seasonal MA component, no autoregressive component, and one level of differencing for the seasonal and non-seasonal structures. Whether fitting is manual or automated, an ARIMA model may provide a good framework for modeling a time series, or it may be that alternative models or approaches provide a more satisfactory result. Often it is difficult to know in advance how good any given forecasting model is likely to be, since it is only in the light of its ability to predict future values of the data series that it can be truly judged. Often this process is approximated by fitting the model to past data excluding recent time periods (also known as hold-out samples ), and then using the model to predict these known future events, but even this offers only limited confidence in its future validity. Longer-term forecasting can be extremely unreliable using such methods. Clearly the international air traffic statistics model described above is not able to correctly predict passengers numbers through into the 1990s and beyond, nor the 5-year drop in US international airline passenger numbers post 9112001. Likewise, an ARIMA model can be fitted to historic values of stock exchange prices or index values (e. g. the NYSE or FTSE indices) and will typically provide an excellent fit to the data (yielding an R-squared value of better than 0.99) but are often of little use for forecasting future values of these prices or indices. Typically ARIMA models are used for forecasting, particularly in the field of macro - and micro-economic modeling. However, they can be applied in a wide range of disciplines, either in the form described here, or augmented with additional predictor variables that are believed to improve the reliability of the forecasts made. The latter are important because the entire structure of the ARMA models discussed above depends on prior values and independent random events over time, not on any explanatory or causative factors. Hence ARIMA models will only reflect and extend past patterns, which might need to be modified in forecasts by factors such as the macro-economic environment, technology shifts, or longer term resource andor environmental changes. BOX1 Box G E P, Jenkins G M (1968). Some recent advances in forecasting and control. Applied Statistics, 17(2), 91-109 BOX2 Box, G E P, Jenkins, G M, Reinsel G C (1994) Time Series Analysis, Forecasting and Control. 3a ed. Prentice Hall, Englewood Cliffs, NJ CHA1 Chatfield C (1975) The Analysis of Times Series: Theory and Practice. Chapman and Hall, London (see also, 6th ed. 2003) LJU1 Ljung G M, Box G E P (1978) On a Measure of a Lack of Fit in Time Series Models. Biometrika, 65, 297303 NISTSEMATECH e-Handbook of Statistical Methods, itl. nist. govdiv898handbook Section 6.4: Introduction to time series. 2010 SPSSPASW 17 (2008) AnalyzeForecasting (Time Series Models) REI1 Reinsel G C Datasets for Box-Jenkins models: stat. wisc. eduARIMA - SPSS Trends Introduction Edit This procedure estimates nonseasonal and seasonal univariate ARIMA ( A uto r egressive I ntegrated M oving A verage) models (also known as Box-Jenkins models) with or without fixed regressor variables. The procedure produces maximum-likelihood estimates and can process time series with missing observations. An example Edit You are in charge of quality control at a manufacturing plant and need to know if and when random fluctuations in product quality exceed their usual acceptable levels. Youve tried modeling product quality scores with an exponential smoothing model but foundpresumably because of the highly erratic nature of the datathat the model does little more than predict the overall mean and hence is of little use. ARIMA models are well suited for describing complex time series. After building an appropriate ARIMA model, you can plot the product quality scores along with the upper and lower confidence intervals produced by the model. Scores that fall outside of the confidence intervals may indicate a true decline in product quality. Illustration Edit For each iteration: seasonal and nonseasonal lags (autoregressive and moving average), regression coefficients, adjusted sum of squares, and Marquardt constant. For the final maximum-likelihood parameter estimates: residual sum of squares, adjusted residual sum of squares, residual variance, model standard error, log-likelihood, Akaikes information criterion, Schwartzs Bayesian criterion, regression statistics, correlation matrix, and covariance matrix. The dependent variable and any independent variables should be numeric. Assumption Edit The series should have a constant mean over time. Interferência de bloqueador de anúncios detectada O Wikia é um site gratuito que gera dinheiro com publicidade. Nós temos uma experiência modificada para os espectadores usando ad bloqueadores Wikia não está acessível se youve fez outras modificações. Remove the custom ad blocker rule(s) and the page will load as expected.

No comments:

Post a Comment