Validación y validación cruzada

Description
1. VALIDACIÓNCRUZADA Validación, validación cruzada y estadísticos de error en los procesos de interpolación espacial de información climática: selección del…

Please download to get full document.

View again

of 3
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Information
Category:

Science

Publish on:

Views: 3 | Pages: 3

Extension: PDF | Download: 0

Share
Transcript
  • 1. VALIDACIÓNCRUZADA Validación, validación cruzada y estadísticos de error en los procesos de interpolación espacial de información climática: selección del método de interpolación-modelizaciónespacial másadecuado parala variable a cartografiar a partir del análisis del error. Validación cruzada y validación Cuando se predicen valores de lugares no muestrales, disponemos de dos herramientas para comprobar la validez del modelo que estamos utilizando. Son la validación cruzada y la validación. Ambas nos permiten tomar una decisión sobre el modelo que proporciona las mejores predicciones y nos ayudan a seleccionar la mejor cartografía que se ajusta a la realidad. A) La validación cruzada (cross validation) utiliza todos los datos muestrales para estimar el modelo de autocorrelación. ¿CÓMO? Cada vez quita un dato muestral y lo predice MEDIANTE EL MODELO ESPECIFICADO con el resto de la muestra, después compara el valor predicho de ese punto con el valor observado. Este procedimiento se repite con cada uno de los puntos muestrales y al final la validación cruzada compara los valores observados con los calculados (predichos). B) La validación, por el contrario, divide la muestra en dos partes aleatoriamente. Una parte la utiliza como clase para testar (test dataset), y la otra (training dataset) la utiliza para calcular la tendencia y la autocorrelación que se van a utilizar en la predicción. Para poder llevar a cabo esta labor, con el Analista Geoestadístico (Geostatistical Analyst) de ArcGIS y utilizando las herramientas de crear subclases (create subset), se divide la muestra en dos grupos de partida (training y test datasets). Para comparar las predicciones con los valores reales el Analista Geoestadístico proporciona diferentes gráficos y un sumario de estadísticos que son los mismos para ambos métodos. C) Validación de cartografía Los pasos a seguir para validar la cartografía son los siguientes: 1.- Se dividen los datos en dos subconjuntos: training y test. El % suele oscilar entre un 75-80 % para los datos training y entre un 20-25 % para los test
  • 2. Los datos del subconjunto training se emplean en los distintos métodos de interpolación (Inverso de la distancia, Funciones radiales básicas, Método mixto, Regresión por pasos, Kriging, Cokriging, etc..). Cada uno de ellos genera una cartografía diferente con unos valores predichos. 2.- Realizada la operación de interpolación se transfiere el resultado a una capa raster, mediante un SIG, para cada método empleado. 3.- Concretamente, en ArcGIS, con la herramienta Extract Multi Values to Points se transfieren los resultados de los distintos métodos de interpolación a las coordenadas de los puntos que se han denominado test y que no se han utilizado en ninguno de los métodos. 4.- La tabla de atributos resultante del paso anterior es exportada a una hoja de cálculo para hallar el error cuadrático medio (Root Mean Square Error (RMSE)) de cada uno de los métodos de interpolación. El RMSE valora la bondad de ajuste de los valores predichos frente a los valores observados. 𝑅𝑀𝑆𝐸 = √ ∑ (𝑃𝑖 − 𝑂𝑖)2𝑛 𝑖=1 𝑛 5.- Para el cálculo de RMSE restamos a los valores predichos por los modelos en el mismo punto geográfico los valores de los datos observados. (PREDICHOS-OBSERVADOS) Esta diferencia se eleva al cuadrado para cada punto y se realiza el promedio de todos los valores obtenidos. Posteriormente se realiza la raíz cuadrada del promedio de cada método y se obtendrá un valor de RMSE para cada método. 6.- Una vez obtenido el RMSE individual de cada método se seleccionará la cartografía correspondiente al método que menor valor haya resultado. Cuanto más pequeño sea el valor de RMSE mejores serán las predicciones del método. Además del RMSE hay otros estadísticos de error que ayudan a la decisión en la elección de la cartografía de los distintos métodos de interpolación: i) Media de los errores (Mean prediction errors) y media estandarizada (Mean standarized prediction errors) 𝑀𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 = ∑ (𝑃𝑖−𝑂𝑖 ) 𝑛 𝑛 𝑖=1  Es el promedio de la diferencia entre los valores predichos y los observados. Si el valor es cercano a 0 habrá una mejor predicción
  • 3. 𝑀𝑒𝑑𝑖𝑎 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑖𝑧𝑎𝑑𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 = ∑ (𝑃𝑖−𝑂 𝑖)/𝛿 𝑖 𝑛 𝑛 𝑖=1  Si el valor es cercano a 0 habrá una mejor predicción. Se utiliza como mejoría del anterior estadístico para evitar la influencia de la escala de los datos ii) Se puede valorar la variabilidad de las predicciones. Para ello, si el error típico medio de la predicción (Average estándar error) está próximo al error cuadrático medio, la variabilidad de la predicción se calcula correctamente. 𝐸𝑟𝑟𝑜𝑟 𝑡í𝑝𝑖𝑐𝑜 𝑚𝑒𝑑𝑖𝑜 = √ ∑ 𝜕𝑖 2𝑛 𝑖=1 𝑛 Es decir: si error típico medio > RMSE entonces se sobrestima la variabilidad Si el error típico medio < RMSE entonces se infraestima la variabilidad También se puede verificar la variabilidad a través del error cuadrático medio estandarizado (root mean square standardized error)(RMSSE) 𝑅𝑀𝑆𝑆𝐸 = √ ∑ [ ( 𝑃𝑖 − 𝑂𝑖 ) 𝛿𝑖 ]𝑛 𝑖=1 2 𝑛 Si RMSSE aprox. 1 los errores de la predicción son válidos Si RMSSE > 1 entonces se está infraestimando la variabilidad de las predicciones Si RMSSE < 1 entonces se está sobreestimando la variabilidad de las predicciones
  • Related Search
    We Need Your Support
    Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

    Thanks to everyone for your continued support.

    No, Thanks