Los modelos ARIMA son muy útiles para pronosticar series temporales para datos univariable. Sin embargo, existe un tipo de modelo ARIMA que también puede considerar otras variables. Este tipo de modelo se llama ARIMAX, que significa en inglés “Auto-Regressive Integrated Moving Average with eXogenous variables” .
ARIMAX es una extensión del modelo ARIMA tradicional que permite la inclusión de variables adicionales, conocidas como variables exógenas, que pueden tener un efecto en la serie temporales a pronosticar.
Estas variables exógenas pueden ser cualquier tipo de datos:
- medidas variables en el tiempo: indicadores económicos como la tasa de inflación o índices de precios, datos meteorológicos…
- variables categóricas: día de la semana, mes…
- booleanos: días festivos, año bisiesto…
Al incorporar estos factores externos, los modelos ARIMAX pueden proporcionar predicciones más precisas y completas. Además, los modelos ARIMAX también se pueden utilizar para el análisis causal, donde se puede examinar la relación entre las variables exógenas y los datos de series temporales. En general, los modelos ARIMAX ofrecen una poderosa herramienta para pronosticar y analizar datos de series temporales en un contexto multivariable.
Descripción del modelo
Podemos ver cómo el modelo ARIMAX se compara con el ARIMA estándar .
Para simplificar, primero consideremos un ARIMA(1,1,1):
$$ y_t’ = c + \phi_1 y_{t-1}’ + \theta_1 \varepsilon_{t-1} + \varepsilon_t $$
- c : representa una constante o deriva
- y : se refiere a la variable de interés (que aparece diferenciada porque d = 1)
- ϕ : son los coeficientes AR
- θ : son los coeficientes MA
- εₜ : es el término de error, que es ruido blanco
El ARIMAX(1,1,1) agregará otro término a la ecuación:
$$ y_t’ = c + \beta X + \phi_1 y_{t-1}’ + \theta_1 \varepsilon_{t-1} + \varepsilon_t $$
El nuevo término consta del coeficiente β de ARIMAX ajustado en función del modelo y los datos, y la variable exógena X. Es importante remarcar que esta variable exógena debe estar disponible para cada período de tiempo.
Predicción vs Pronóstico
Antes de seguir adelante, vale la pena discutir la diferencia entre estas dos palabras. Predicción y pronóstico son similares en el sentido de que ambos implican hacer una estimación sobre un período de tiempo futuro. Sin embargo, hay una diferencia sutil entre los dos términos:
- Predicciones: se refiere a estimaciones dentro de la muestra.
- Pronósticos: se refiere a estimaciones fuera de muestra.
Cuando tenemos el conjunto de prueba o validación, podemos hacer predicciones con nuestro modelo, como ya tenemos esos valores para el futuro, están “en la muestra”. Los valores de las variables ya son conocidos ya que forman parte de los datos históricos. Sin embargo, cuando queremos estimar un valor en el futuro que aún no ha llegado, estamos estimando un valor que está “fuera de muestra”, ese valor aún no lo conocemos.
La razón por la cual esta distinción es importante es que las variables exógenas deben conocerse para estimar la variable de interés $y_t$. Esto está bien siempre que nuestras variables exógenas sean festivos, días de la semana, etc. ya que las conocemos de antemano. Pero no podremos usar el precio de un índice o la temperatura en un lugar en particular para pronosticar el valor de la variable dependiente en el futuro. Esto se debe a que también requerimos conocer el valor de esta variable. Considerando este último caso, los modelos ARIMAX son excelentes solo para análisis, pero no para pronósticos.
Pronósticos de múltiples variables
Si lo que necesitamos es un pronóstico de múltiples variables, debemos hacer un procesamiento previo de los datos o usar un tipo diferente de modelo. Vamos a presentar cada una de las opciones:
- La primera posibilidad es transformar los datos utilizados como variables exógenas. Una posibilidad es cambiar los datos a un período específico ya conocido en el pasado. Por ejemplo, cambiarlo para que se refiera al valor de ayer, la semana pasada o el mes pasado. Además, podríamos calcular el valor promedio de esa variable exógena la semana o el mes pasado. Hay muchas posibilidades.
- La segunda y más interesante opción son los modelos de Auto-Regresión Vectorial (VAR) . Permiten estimar varias variables dependientes al mismo tiempo. Por lo tanto, las variables que denominábamos exógenas también serán pronosticadas, en lugar de requerir un conocimiento previo de las mismas.
0 Comments