https://doi.org/10.35381/i.p.v6i11.4158
Suavizado de curvas para ajustar datos con estructura no lineal desde la perspectiva p-splines
Curve smoothing for fitting data with nonlinear structure from a p-splines perspective
Maryorys Verónica Polanco
Universidad Nacional Experimental Francisco de Miranda, Santa Ana de Coro, Falcón
Venezuela
https://orcid.org/0000-0002-2641-1671
Recepción: 10 de marzo 2024
Revisado: 15 de mayo 2024
Aprobación: 15 de junio 2024
Publicado: 01 de julio 2024
RESUMEN
El
objetivo de este trabajo fue realizar una aproximación teórica de carácter
documental, descriptivo y aplicado al enfoque de la teoría de aproximación
P-splines. La metodología utilizada incluye, primeramente, una revisión
documental que permitió identificar las principales características del método
y los enfoques existentes; segundo, la etapa experimental que consistió en
ajustar seis series de datos provenientes del estudio sobre la dinámica
poblacional de Ralstonia Solanacearum en plantas de tomate mediante el software
R-Project y, por último, los resultados obtenidos. Se evidenció que el
parámetro es el responsable de
controlar el suavizado y en la búsqueda de un valor para este parámetro que
optimice el ajuste, se puede confiar en el estimado por la función GAM, ya que
proporcionó ajustes casi idénticos a los modelos con un valor de
asignado que de
acuerdo a los criterios e índices considerados, fueron seleccionados como
modelo final.
Descriptores: Análisis estadístico; suavizado; datos; series (Tesauro UNESCO).
ABSTRACT
The objective of this work was to conduct a theoretical, descriptive, and applied documentary approach to the P-splines approximation theory. The methodology employed included, firstly, a literature review to identify the main characteristics of the method and existing approaches; secondly, an experimental stage consisting of fitting six data series from a study on the population dynamics of Ralstonia Solanacearum in tomato plants using the R-Project software; and finally, the obtained results. It was evident that the parameter λ is responsible for controlling the smoothing, and in the search for a value for this parameter that optimizes the fit, one can rely on the estimate provided by the GAM function, as it provided almost identical fits to the models with an assigned value of λ, which, according to the considered criteria and indices, were selected as the final model.
Descriptors: Statistical analysis; smoothing; data; series. (UNESCO Thesaurus).
INTRODUCCIÓN
El suavizado de curvas es una técnica estadística fundamental para modelar relaciones no lineales entre variables. En este contexto, los P-splines han emergido como una herramienta poderosa y flexible. Este análisis argumentativo explorará en profundidad las ventajas y aplicaciones de los P-splines en el suavizado de datos con estructura no lineal, así como sus limitaciones y consideraciones.
Un spline es la solución a un problema de optimización. Para Ramírez y Polack (2020) puede ser considerada “como una técnica de estimación de funciones no paramétricas” (p. 194). En un sentido real, los splines representan una evolución de la inferencia estadística clásica y cierra la brecha entre los métodos paramétricos y no paramétricos. Los P-splines son una extensión de los splines tradicionales, combinando la flexibilidad de las bases de splines con la regularización de las diferencias de orden superior de los coeficientes de la spline. Esta combinación permite obtener ajustes suaves y flexibles a los datos, al tiempo que evita el sobreajuste (Barrientos et al., 2007).
Una técnica no paramétrica basada en
splines, que permite ajustar datos sin que sea necesario conocer la relación
que guardan las variables, se conoce como P-splines y fue introducida por
primera vez con este nombre por Eilers y Marx (1996) para cubrir la combinación
de B-splines y una penalidad de diferencia discreta cuyas propiedades son muy
atractivas. Vale destacar, que existe una base para el conjunto de splines
naturales llamada base B-spline la cual está formada por trozos de polinomios
conectados entre sí. En general, un B-Spline de grado consiste
en p+1 trozos de polinomios de grado
que
se unen en
nodos
internos (Salas et al., 2010).
Por su parte, Durbán (2009) expresa que “los factores que han hecho que esta técnica haya alcanzado tanta popularidad en los últimos años han sido la creciente complejidad de los datos con los que se trabaja” (p. 197), y los avances informáticos que han facilitado el ajuste de este tipo de modelos, reduciendo significativamente el costo computacional. Es por ello, que, desde su aparición, un poco más de veinte años, se han vuelto populares en aplicaciones y en trabajos teóricos, ya que la combinación de una base B-spline y una penalidad se prestan para una variedad de generalizaciones, porque se basa en la regresión.
Por lo anterior, es evidente que los P-splines representan una buena solución para la estimación de la función regresora por dos razones: la primera, es su flexibilidad para responder a la variación local sin permitir comportamientos patológicos, y segundo, el actual grado de suavidad es controlable. Aun cuando el grado de suavidad correcto es desconocido, estas características junto con el método de validación cruzada permiten un ajuste no paramétrico, de allí, que se haya convertido rápidamente en una técnica popular de suavizado, debido a su simplicidad y flexibilidad en el manejo de una amplia gama de situaciones de modelado no paramétrico y semiparamétrico (Toriz y Sánchez, 2017).
La idea principal de la estimación P-spline se basa en emplear una base dimensional grande pero finita; esta versión penalizada proporciona un ajuste suave a diferencia del ajuste paramétrico simple, que conduciría a estimaciones variables y ondulantes.
En cuanto a las aplicaciones, el hecho de que los P-splines se puedan escribir como un modelo mixto, proporciona ventajas en dos ámbitos distintos: por un lado, hace que se pueda flexibilizar la hipótesis de linealidad en infinidad de modelos, y por otro, es posible incluir estructuras complejas en los modelos usuales de suavizado. Otra área en el que los P-splines están tomando un papel relevante es en el análisis de datos longitudinales, tan frecuentes en aplicaciones médicas y biológicas, aquí, los P-splines permiten ajustar modelos más flexibles en los que las diferencias específicas individuales son una función suave del tiempo (Álvarez et al., 2015). De acuerdo con lo descrito en las ideas anteriores, este trabajo de investigación tuvo como objetivo principal aplicar el método de aproximación P-splines para suavizado de curvas en presencia de datos con estructura no lineal.
MÉTODO
Para aplicar e ilustrar la técnica de suavizado enfocado en Psplines, se utilizaron datos reales proporcionados por Lugo (2018), correspondientes a su tesis doctoral titulada “Efecto de Bacterias Antagonistas y Extractos Vegetales sobre la Dinámica Poblacional de Ralstonia Solanacearum (Smith) Yabuuchi et al. y la Expresión de Síntomas en Tomate (Solanum Lycopersicum l.)”
Para la obtención de R. solanacearum se planificó un experimento en un diseño completamente aleatorizado, con cinco tratamientos y tres réplicas. La unidad experimental consistió de una maceta de 1500 g de capacidad (una planta por maceta). Los tratamientos se describen en la tabla 1.
Tabla 1.
Tratamientos del experimento para la obtención de R. solanacearum.
TRATAMIENTO |
CARACTERÍSTICA |
1 |
Plantas control. Sin inoculación de la bacteria. |
2 |
Plantas control. Plantas inoculadas solo con R. solanacearum. |
3 |
Plantas inoculadas con R. solanacearum y tratadas con extracto acuoso de R. communis (Tártago). |
4 |
Plantas inoculadas con R. solanacearum y tratadas con la bacteria antagonista P fluorescens. |
5 |
Plantas inoculadas con R. solanacearum y tratadas con el producto comercial Timorex. |
Fuente: Lugo (2018).
La medición del tamaño de la población de R. solanacearum en el suelo, medido en UFC/g de suelo se hizo cada semana, es decir, 20 mediciones de la variable, las cuales se muestran en la tabla 2.
Tabla 2.
Población promedio de Ralstonia solanacearum en el suelo, medido en UFC*106 por g de suelo.
DIA |
T1 |
T2 |
T3 |
T4 |
T5 |
TOTAL |
0 |
0,172 |
0,756 |
1,233 |
0,039 |
7,556 |
1,951 |
7 |
0,094 |
0,217 |
2,672 |
0,328 |
14,106 |
3,483 |
14 |
0,372 |
2,072 |
7,322 |
0,772 |
9,728 |
4,053 |
21 |
0,589 |
1,644 |
8,322 |
0,683 |
10,528 |
4,353 |
28 |
0,839 |
2,661 |
8,567 |
1,622 |
16,200 |
5,978 |
35 |
1,389 |
2,417 |
11,789 |
1,867 |
17,233 |
6,939 |
42 |
1,039 |
2,650 |
12,944 |
1,844 |
12,967 |
6,289 |
49 |
1,656 |
1,639 |
13,472 |
2,511 |
15,794 |
7,014 |
56 |
1,100 |
2,617 |
10,950 |
2,106 |
15,244 |
6,403 |
63 |
0,672 |
1,211 |
11,033 |
2,639 |
12,094 |
5,530 |
70 |
0,906 |
0,656 |
10,172 |
2,989 |
10,311 |
5,007 |
77 |
1,194 |
1,239 |
12,494 |
2,061 |
12,550 |
5,908 |
84 |
0,750 |
0,456 |
12,217 |
2,478 |
9,439 |
5,068 |
91 |
0,833 |
0,661 |
13,378 |
1,933 |
9,139 |
5,189 |
98 |
1,428 |
1,022 |
10,906 |
2,533 |
8,039 |
4,786 |
105 |
1,733 |
1,011 |
9,394 |
1,606 |
7,278 |
4,204 |
112 |
1,267 |
0,911 |
10,117 |
1,706 |
8,039 |
4,408 |
119 |
1,361 |
0,994 |
7,283 |
1,461 |
5,278 |
3,275 |
126 |
1,761 |
0,950 |
11,222 |
1,944 |
5,706 |
4,317 |
133 |
1,389 |
0,617 |
6,356 |
1,206 |
5,128 |
2,939 |
Fuente: Lugo (2018).
Para obtener los modelos matemáticos que describen la dinámica poblacional en el suelo de R. solanacearum bajo las condiciones descritas, el autor utilizó las mediciones de UFC/g de suelo obtenidos de cada tratamiento en la fase experimental, graficó y trató de ajustar a uno o más de los modelos matemáticos tomando en cuenta los basamentos teóricos de los modelos, el ajuste gráfico a la tendencia de los datos y la obtención de estimadores iniciales de los parámetros. Trabajó con 32 series de datos confeccionadas en las condiciones de las plantas definidas como total, sanas y enfermas y a su vez, sobre estas condiciones se definieron series de diferentes longitudes: serie completa y en dos fases, creciente y decreciente.
En total se seleccionaron 82 modelos usando el software R-Project y se eligieron los cinco mejores modelos matemáticos considerando tendencias gráficas, pruebas de t y F realizadas por el software R-Project, coeficientes basados en desviación entre estimados y observados y criterios de información. Las series seleccionadas para este trabajo pueden verse mejor en la tabla 3 junto con los nombres de los modelos para cada serie y los valores de los criterios de información de estos tomados de Bandera y Pérez (2018).
Tabla 3.
Series para modelar el comportamiento de R. solanacearum en el suelo bajo las diferentes condiciones del estudio.
SERIE |
LONGITUD |
MODELO |
AIC |
BIC |
logLik |
R2adj |
||
TOTAL |
Completa |
Función Racional Cuadrática |
32,278 |
36,261 |
-12,139 |
0,867 |
||
TRATAMIENTO 1 |
Total |
Completa |
Bilogístico |
10,150 |
15,129 |
-0,075 |
0,710 |
|
TRATAMIENTO 2 |
Total |
Completa |
Función Racional Cuadrática |
29,948 |
33,931 |
-10,974 |
0,672 |
|
TRATAMIENTO 3 |
Total |
Completa |
Ricker |
74,842 |
77,829 |
-34,421 |
0,833 |
|
TRATAMIENTO 4 |
Total |
Completa |
Función Cuadrática |
12,648 |
16,631 |
-2,324 |
0,850 |
|
TRATAMIENTO 5 |
Total |
Completa |
Función Racional Cuadrática |
84,512 |
88,495 |
-38,613 |
0,765 |
|
Fuente: Lugo (2018).
Para el análisis de los datos se hace uso del software R, específicamente la función gam() para lo cual es necesario cargar el paquete mgcv de Wood (2006). Esta función puede usar p-splines univariantes según lo propuesto por Eilers y Marx (1996). En realidad, este paquete contiene dos funciones que permiten utilizar P-splines: gam y gamm, la diferencia entre las dos es que la segunda permite elegir el parámetro de suavizado mediante REML, mientras que la primera es similar a la función escrita por Hastie y Tibshirani (1990), pero permite utilizar splines de rango bajo, además de haber corregido los errores que existían en el cálculo de la varianza de los parámetros y elige el parámetro de suavizado mediante la validación cruzada generalizada (GCV por sus siglas en inglés). En ambos casos se puede imponer un valor arbitrario para el parámetro de suavizado sin que sea elegido por la propia función, elegir la base a utilizar, según las ofrecidas por el paquete y se puede elegir el número de nodos y el orden de la penalización. Los argumentos de la función GAM se muestran en la tabla 4.
Tabla 4.
Argumentos de la función GAM.
ARGUMENTO |
DEFINICIÓN |
s(x, bs = “ps”) |
Término de suavidad. |
k |
Tamaño de la base, nunca debe ser menor que el orden de la penalización. |
bs |
Tipo de base que se utiliza. |
m |
orden de la base y de
la penalización. Si |
by |
Permite multiplicar curvas por factores. |
Nodos |
Una lista que contiene los nodos suministrados para la configuración básica, en el mismo orden y con los mismos nombres que los datos. Este también puede ser nulo. |
Fuente: Lugo (2018).
El procedimiento para analizar los datos en R
se hace de forma similar para las 6 series. Inicialmente se especifica un
modelo P spline a través de la función GAM con un término de suavizado de la
forma el
cual especifica una base P-spline con
por
defecto, que significa una base y una penalización de segundo orden. “Las
diferencias entre los modelos dependerán de los argumentos variables como el
tamaño de base
y el
parámetro de suavizado
esto
con el fin de seleccionar el mejor ajuste p splines para los datos” (Burbano et
al., 2022, p. 270).
Es por ello que primero, se especifica un
modelo para la serie en cuestión variando el tamaño de base y se
hace una selección de los tres mejores modelos, dependiendo de los criterios de
información, métodos de selección del parámetro de suavizado e índices, los
cuales deben ser mínimos o máximos según sea el caso. Después de obtener el
mejor ajuste P spline, mediante un gráfico de dispersión, se verifica el efecto
del suavizado comparando este ajuste versus el modelo proporcionado por Lugo
(2018) como mejor para la descripción de la dinámica poblacional de R.
solanacearum en la serie especificada y se muestra la fórmula del modelo
aproximado para el mejor o los mejores ajuste P spline. Luego se cotejan las
curvas ajustadas para los distintos valores de
Segundo, al obtener el mejor ajuste en la parte
anterior, se procede a probar el mismo bajo diferentes valores de , con
el fin de obtener un valor de este parámetro que optimice el ajuste. Para
realizar la variación de λ, se toma como mínimo y máximo, aquel valor donde el
AIC tienda a aumentar. Para esto, se consideran los mismos ítems
que en la parte anterior. Seguidamente, sobre este
ajuste se contrasta gráficamente el efecto de distintos valores del parámetro
de suavizado. Los ítems que resumen la información arrojada por los tres
mejores modelos seleccionados para escoger el modelo final se describen en la
tabla 5.
Tabla 5.
Ítems a considerar para la selección del modelo final.
Ítem |
Descripción |
Modelo |
Contiene
el nombre del modelo construido a partir de la siguiente nomenclatura, |
Fórmula |
Función GAM del modelo. |
Sp |
Valor del parámetro de suavizado estimado por la función GAM. |
s(t) |
Significación aproximada del término de suavizado. |
GCV |
Valor del método de selección del parámetro de suavizado, en este caso, Validación Cruzada Generalizada. |
AIC |
Valor del criterio de información de Akaike. |
BIC |
Valor del criterio de información bayesiano. |
LogLik |
Valor del logaritmo de la función de verosimilitud. |
Fuente: Lugo (2018).
Los resultados se muestran para cada serie. Para efectos de
la comparación del método de suavizado P splines se usan los modelos de la
dinámica poblacional de R. solanacearum en el suelo obtenidos por Lugo
(2018) y que son etiquetados: modelototal para serie TOTAL, modeloT1 para serie
T1, modeloT2 para serie T2 y modeloT3. Cabe destacar, que la variable t, cuyos
datos corresponden a la columna DIA de la tabla 1, denota el intervalo de
tiempo en que se tomaron las mediciones de la variable respuesta y es
utilizada como variable predictora para modelar el ajuste en todas las series.
Se presenta el modelo planteado por Lugo (2018) para describir la dinámica poblacional de Ralstonia solanacearum en el suelo para la serie TOTAL:
En
la tabla 6, se resumen los resultados obtenidos donde se puede observar que en
los tres ajustes P splines, el término de suavizado (),
resulta significativo. El modelo fitT.7 arrojó el menor GCV y BIC, sin embargo,
el ajuste denotado por el modelo fitT.9, presenta como favorables, tres de los
cinco criterios considerados para la selección del mejor, a saber, el menor AIC
y el mayor logLik y R2adj, por lo cual se considera como el modelo
con mejor ajuste y el modelo aproximado es el siguiente:
fitT.9<-gam (y ~ s(t, bs="ps",k=9))
Tabla 6.
Selección del mejor ajuste P spline en serie TOTAL.
Modelo |
Fórmula |
Sp |
s(t) |
GCV |
AIC |
BIC |
logLik |
R2adj |
fitT.7 |
(y ~ s (t, bs="ps”, k=7)) |
0,0726 |
5,86e-10 *** |
0,3285 |
35,0464 |
40,9273 |
-11,617 |
0,864 |
fitT.9 |
(y ~ s (t, bs="ps”, k=9)) |
0,3635 |
1,35e-09 *** |
0,3329 |
34,8921 |
41,3718 |
-10,939 |
0,868 |
fitT.11 |
(y ~ s (t, bs="ps”, k=11)) |
1,7761 |
2,2e-09 *** |
0,3355 |
35,0862 |
41,5134 |
-11,088 |
0,867 |
modelototal |
función racional cuadrática |
|
|
|
32,278 |
36,261 |
-12,139 |
0,867 |
Fuente: Lugo (2018).
Se representa las variantes del ajuste P spline. Note que los ajustes no son tan distintos. En azul, el mejor ajuste. No obstante, al comparar con modelo total, se evidencia que este presenta un menor AIC y un menor BIC en comparación con el mejor ajuste P spline (Figura 1).
Figura 1. Representación gráfica del efecto del suavizado con IC del 95% y 3 valores de k para la serie TOTAL.
Elaboración: El autor.
En la figura 2, se contrasta el mejor ajuste P spline seleccionado versus modelo total y puede verse que los modelos no difieren mucho, sin embargo, se nota como el ajuste P spline genera una ondulación en la segunda mitad de los datos.
Figura 2. Mejor ajuste P spline vs. modelo total.
Elaboración: El autor.
Ahora
bien, en el modelo seleccionado como mejor, fitT.9, se prueban cinco valores
distintos para λ entre 0,01 y 10, para un valor fuera de este rango el valor
del AIC tiende al aumento. En la tabla 7 se resume la
información arrojada. Tome en cuenta que el modelo fitT.9c
contiene un valor de estimado
por la función GAM, este tiende a ser pequeño, lo que indica que se
está frente a un ajuste P splines.
Tabla 7.
Selección de sp óptimo sobre el mejor ajuste P spline en serie TOTAL.
Modelo |
Fórmula |
s(t) |
GCV |
AIC |
BIC |
logLik |
R2adj |
fitT.9a |
(y ~ s (t, bs="ps”, k=9, sp=0,01)) |
1,61e-08 *** |
0,3685 |
34,4565 |
43,3457 |
-8,3010 |
0,878 |
fitT.9b |
(y ~ s (t, bs="ps”, k=9, sp=0,1)) |
1,64e-09 *** |
0,3381 |
34,4225 |
41,8142 |
-9,7879 |
0,875 |
fitT.9c |
(y ~ s (t, bs="ps”, k=9, sp=0,36)) |
1,36e-09 *** |
0,3329 |
34,8867 |
41,3734 |
-10,9289 |
0,868 |
fitT.9d |
(y ~ s (t, bs="ps”, k=9, sp=10)) |
2,88e-06 *** |
0,5439 |
45,9348 |
50,2944 |
-18,5891 |
0,753 |
Elaboración: El autor.
Al
hacer las comparaciones, se encuentra que los modelos fitT.9a y fitT.9cpresentan
igual número de criterios favorables para optimizar el ajuste. Los modelos
aproximados son:
fitT.9a<-gam (y ~ s(t, bs="ps",k=9,sp=0,01)) y fitT.9c<-gam(y ~ (t,bs="ps",k=9,sp=0,36))
Cuando
la penalidad es más débil se obtiene una curva más ondulada, caso contrario
ocurre para un mayor que
produce curvas más suaves. Esto puede verse mejor en la figura 3. A la
izquierda y en azul, el menor valor de
genera
una curva con más picos, en el centro, el modelo con
estimado
por la función GAM y a la derecha un
mayor.
En
la figura 4 se evidencia de mejor forma como el valor de controla
la suavidad de la curva. Note la ondulación de la curva cuando
y la
tendencia lineal que toma cuando
.
Figura 3. Mejor ajuste P spline para 3 valores distintos de sp en serie TOTAL.
Elaboración: El autor.
Figura 4. Efecto de sp sobre el mejor ajuste P spline en serie TOTAL.
Elaboración: El autor.
El modelo planteado por Lugo (2018) para la serie T1, es el siguiente:
La tabla 8, contiene los resultados para esta serie, donde se evidencia que los tres modelos presentan un suavizado, s(t), significativo, no obstante, el modelo fitT1.19, arrojó los menores valores para CGV, AIC, BIC y los mayores valores para logLik y R2adj en comparación con los modelos restantes y modeloT1, por lo que es considerado como el mejor modelo para el ajuste de esta serie y el modelo aproximado es el siguiente:
FitT1.19<-gam (y ~ s(t,bs="ps",k=19))
Tabla 8.
Selección del mejor ajuste P spline para serie T1.
Modelo |
Fórmula |
Sp |
s(t) |
GCV |
AIC |
BIC |
logLik |
R2adj |
fitT1.9 |
(y ~ s (t, bs="ps”, k=9)) |
0,2314 |
0,000208 *** |
0,0962 |
9,8139 |
16,618 |
1,9265 |
0,717 |
fitT1.19 |
(y ~ s (t, bs="ps”, k=19)) |
0,0201 |
0,000739 *** |
0,0560 |
-33,590 |
-16,386 |
34,0734 |
0,957 |
fitT1.20 |
(y ~ s (t, bs="ps”, k=20)) |
26,831 |
0,000358 *** |
0,0984 |
9,9291 |
17,103 |
2,2394 |
0,718 |
modeloT1 |
Bilogístico |
|
|
|
10,150 |
15,129 |
-0,075 |
0,710 |
Elaboración: El autor.
Visualice en la figura 5 como cambia la curva para distintos valores de k. Es fácil notar en el centro y en azul como el ajuste presenta una ondulación mayor en la curva en comparación con los demás que producen curvas más suaves.
Figura 5. Representación gráfica del efecto del suavizado con IC del 95% y 3 valores de k para la serie T1.
Elaboración: El autor.
En la figura 6, se puede apreciar la diferencia entre las curvas que producen el mejor ajuste P splines y modeloT1.
Figura 6. Mejor ajuste P spline vs. modeloT1.
Elaboración: El autor.
En
la tabla 9 se encuentran los resultados para el control del suavizado del
ajuste, con un rango de variación de entre
0,00001 y 10. El modelo fitT1.19a presenta los menores valores de los criterios
de selección, sin embargo, este suavizado no es significativo. El modelo
fitT1.19c arrojó el menor GCV, pero el modelo fitT1.19b generó el menor AIC y
BIC y los mayores valores de logLik y R2adj, para el mejor ajuste de
la serie T1, aunque la incertidumbre aumenta en los extremos. El modelo
aproximado anterior es:
fitT.19b<-gam (y ~ s(t,bs="ps",k=19,sp=0,00001))
Tabla 9.
Selección de sp óptimo para el mejor ajuste P spline en serie T1.
Modelo |
Fórmula |
s(t) |
GCV |
AIC |
BIC |
logLik |
R2adj |
fitT1.19a |
(y ~ s (t, bs="ps”, k=9, sp=1e-5)) |
0,128 |
0,1363 |
-62,845 |
-42,933 |
51,420 |
0,972 |
fitT1.19b |
(y ~ s (t, bs="ps”, k=9, sp=1e-4)) |
0,0841. |
0,0978 |
-62,518 |
-42,806 |
51,055 |
0,975 |
fitT1.19c |
(y ~ s (t, bs="ps”, k=9, sp=0,02)) |
0,00074 *** |
0,0560 |
-33,594 |
-16,389 |
34,075 |
0,957 |
fitT1.19d |
(y ~ s (t, bs="ps”, k=9, sp=10)) |
0,000574 *** |
0,1016 |
9,6835 |
17,739 |
3,2491 |
0,728 |
Elaboración: El autor.
En
la figura 7, puede observarse el efecto de tres valores distintos de sobre
el mejor ajuste P spline.
Figura 7. Mejor ajuste P spline para 3 valores distintos de sp en serie T1.
Elaboración: El autor.
La figura 8, permite
comparar las curvas generadas por los ajustes P splines con los valores de fijados
arbitrariamente y el estimado por la función GAM.
Figura 8. Efecto de sp sobre el mejor ajuste P spline en serie T1.
Elaboración: El autor.
El modelo sugerido por Lugo (2017) para la serie T2, es el siguiente:
El modelo anterior, no describe de forma correcta el patrón de datos correspondiente, lo cual puede deberse a un error de transcripción. Por lo anterior, el modelo aproximado se muestra a continuación:
La tabla 10, recoge los resultados arrojados por los modelos P splines planteados para esta serie. Se puede ver que el modeloT1 presenta el menor BIC mientras que el modelo fitT2.8 generó el menor GCV y AIC y el mayor logLik y R2adj, así se considera a este modelo como la mejor aproximación para la serie T2 y su modelo aproximado es el siguiente: fitT2.8<-gam (y ~ s(t, bs="ps",k=8))
Tabla 10.
Selección del mejor ajuste P spline para serie T2.
Modelo |
Modelo |
sp |
s(t) |
GCV |
AIC |
BIC |
logLik |
R2adj |
fitT2.7 |
(y ~ s (t, bs="ps”, k=7)) |
0,0449 |
0,000426 *** |
0,2674 |
30,7729 |
36,891 |
-9,2419 |
0,672 |
fitT2.8 |
(y ~ s (t, bs="ps”, k=8)) |
0,1787 |
0,000368 *** |
0,2671 |
30,6798 |
36,896 |
-9,0976 |
0,674 |
fitT2.9 |
(y ~ s (t, bs="ps”, k=9)) |
0,5286 |
0,000597 *** |
0,2716 |
31,0169 |
37,227 |
-9,2713 |
0,668 |
modeloT2 |
función racional cuadrática |
|
|
|
29,948 |
33,931 |
-10,974 |
0,672 |
Elaboración: El autor.
La figura 9, permite contrastar los ajustes P splines para distintos valores de k. En el centro y en azul la mejor aproximación. Note la ondulación que presenta la curva en el extremo derecho y que los dos ajustes restantes no generan.
Figura 9. Representación gráfica del efecto del suavizado con IC del 95% y 3 valores de k para la serie T2.
Elaboración: El autor.
Para verificar la significancia del suavizado P splines en los datos, observe la figura 10, donde se contrastan las curvas generadas por el mejor ajuste P spline y modeloT2.
Figura 10. Mejor ajuste P spline vs. modeloT2.
Elaboración: El autor.
Para
obtener el valor de que
optimice el ajuste P spline, se varia en un rango entre 0.001 y 10. Sin
embargo, esta variación no causo un efecto significativo, ya que los criterios
de selección favorables son proporcionados por el modelo con el valor de
estimado
por la función GAM. El modelo fitT2.8a arrojó el mayor loglik, mientras que el
modelo fitT2.8c, con
estimado,
presenta el menor GCV, AIC, BIC y el mayor R2adj. Estos resultados
se resumen en la tabla 11. El modelo aproximado para este ajuste es:
fitT2.8c<-gam (y ~ s (t, bs="ps",k=8,sp=0,178))
Tabla 11.
Selección de sp óptimo para el mejor ajuste P spline en serie T2.
Modelo |
Fórmula |
s(t) |
GCV |
AIC |
BIC |
logLik |
R2adj |
|
fitT2.8ª |
(y ~ s (t, bs="ps”, k=8, sp=1e-3)) |
0,0025 ** |
0,3469 |
33,392 |
42,173 |
-7,878 |
0,65 |
|
fitT2.8b |
(y ~ s (t, bs="ps”, k=8, sp=0,01)) |
0,00124 ** |
0,3071 |
31,973 |
39,885 |
-8,039 |
0,669 |
|
fitT2.8c |
(y ~ s (t, bs="ps”, k=8, sp=0,178)) |
0,000368 *** |
0,2671 |
30,679 |
36,896 |
-9,098 |
0,674 |
|
fitT2.8d |
(y ~ s (t, bs="ps”, k=8, sp=10)) |
0,0384 * |
0,4735 |
43,303 |
47,292 |
-17,64 |
0,335 |
Elaboración: El autor.
La
figura 11, permite comparar los ajustes generados por las variaciones en Las
curvas ajustadas no difieren una de la otra en mayor proporción, excepto la
curva con un
que
tiende a la linealidad. Aprecie esto de mejor forma en la figura 12.
Figura 11. Mejor ajuste P spline para 3 valores distintos de sp en serie T2.
Elaboración: El autor.
Figura 12. Efecto de sp sobre el mejor ajuste P spline en serie T2.
Elaboración: El autor.
El modelo a partir de los datos sugerido por Lugo (2017) para la serie T3 es:
En la tabla 11, se plasman los resultados obtenidos para los ajustes P splines. El modeloT3 obtuvo el menor BIC mientras que el modelo fitT3.9 con arrojó el menor GCV y AIC y el mayor logLik y R2adj. Así, el mejor modelo para ajustar esta serie queda denotado por fitT3.9. el cual tiene la siguiente forma: fitT3.9<-gam (y ~ s(t,bs="ps",k=9))
Tabla 11.
Selección del mejor ajuste P spline para serie T3.
Modelo |
Base |
Sp |
s(t) |
GCV |
AIC |
BIC |
LogLik |
R2adj |
fitT3.9 |
(y ~ s(t, bs="ps",k=9)) |
0,0074 |
4,57e-07 *** |
2,6909 |
73,982 |
83,047 |
-27,887 |
0,856 |
fitT3.19 |
(y ~ s(t,bs="ps",k=19)) |
45,233 |
1,24e-06 *** |
2,8766 |
78,131 |
84,463 |
-32,752 |
0,81 |
fitT3.20 |
(y ~ s(t,bs="ps",k=20)) |
57,273 |
1,2e-06 *** |
2,8755 |
78,108 |
84,461 |
-32,673 |
0,811 |
modeloT3 |
Ricker |
|
|
|
74,842 |
77,829 |
-34,421 |
0,833 |
Elaboración: El autor.
La figura 13, muestra el efecto del suavizado en los datos para los distintos valores de k utilizados para la serie T3. A la izquierda y en azul, el modelo seleccionado como mejor ajuste P spline. Presenta una mayor ondulación. Se aprecia, el efecto del suavizado en las curvas.
Figura 13. Representación gráfica del efecto del suavizado con IC del 95% y 3 valores de k para la serie T3.
Elaboración: El autor.
En la figura 14, se pueden cotejar las curvas generadas por el mejor ajuste P splines en la serie T3 y modeloT3. El modelo P spline genera una curva menos lineal.
Figura 14. Mejor ajuste P spline vs. modeloT3.
Elaboración: El autor.
La tabla 12, resume los resultados arrojados para la selección del valor óptimo de λ sobre el mejor ajuste P spline para la serie T3. El modelo fitT3.9a generó el mayor logLik y R2adj, este último valor compartido con el modelo fitT3.9b que a su vez obtuvo el menor AIC. Así mismo, el modelo fitT3.9c arrojó el menor GCV y BIC. Cada uno de los modelos tienen dos criterios de selección a su favor, sin embargo, se considera más relevante el valor del AIC, así se toma como mejor ajuste al modelo denotado por fitT3.9b y su modelo aproximado es: fitT3.9b<-gam (y ~ s(t,bs="ps",k=9,sp=0,0029))
Tabla 12.
Selección de sp óptimo para el mejor ajuste P spline en serie T3.
Modelo |
Fórmula |
s(t) |
GCV |
AIC |
BIC |
LogLik |
R2adj |
fitT3.9ª |
(y ~ s (t, bs="ps”, k=9, sp=0,001)) |
6,4e-07 *** |
2,811 |
73,807 |
83,584 |
-27,084 |
0,859 |
fitT3.9b |
(y ~ s (t, bs="ps”, k=9, sp=0,0029)) |
5,68e-07 *** |
2,732 |
73,655 |
83,158 |
-27,283 |
0,859 |
fitT3.9c |
(y ~ s (t, bs="ps”, k=9, sp=0,0074)) |
5,7e-07 *** |
2,691 |
73,982 |
83,047 |
-27,887 |
0,856 |
fitT3.9d |
(y ~ s (t, bs="ps”, k=9, sp=10)) |
1,3e-05 *** |
3,369 |
82,407 |
86,767 |
-36,825 |
0,748 |
Elaboración: El autor.
En
la figura 15, pueden compararse estos ajuste y a su vez notarse como se
comportan las curvas ajustadas cuando tiende
a aumentar, el ajuste se alisa más.
Figura 15. Mejor ajuste P spline para 3 valores distintos de sp en serie T3.
Elaboración: El autor.
No se aprecia mucha diferencia entre las curvas ajustadas de los modelos fitT3.9b y fitT3.9c. Observe la figura 16 para identificar que el ajuste en las dos curvas es casi idéntico.
Figura 16. Efecto de sp sobre el mejor ajuste P spline en serie T3.
Elaboración: El autor.
CONCLUSIONES
El
método P splines representa una herramienta muy útil en el suavizado de curvas
en presencia de datos no lineales. En la mayoría de las series analizadas,
proporcionó un ajuste satisfactorio, sin embargo, en algunos casos como series
Total y T4 que, aunque fueron significativos los ajustes, se consideran mejores
modelos los obtenidos por Lino (2017). En la búsqueda de un valor para que
optimice el ajuste, se puede confiar en el estimado por la función GAM, ya que
proporcionó ajustes casi idénticos a los modelos con un valor de
asignado que, de acuerdo con los criterios e índices considerados, fueron
seleccionados como modelo final.
FINANCIAMIENTO
No monetario.
AGRADECIMIENTO
A todos los actores sociales involucrados en el desarrollo de la investigación.
REFERENCIAS CONSULTADAS
Álvarez, M, Grau, R, García, J, Quintana, R., y Cruz, A. (2015). Uso de técnicas estadísticas para evaluar la rugosidad superficial en probetas de acero inoxidable 316LVM sometidas a desgaste abrasivo comparativo. [Use of statistical techniques to evaluate surface roughness in 316LVM stainless steel specimens subjected to comparative abrasive wear]. Revista Técnica de la Facultad de Ingeniería Universidad del Zulia, 38(1), 20-29. https://n9.cl/cig66
Bandera, E., y Pérez, l. (2018). Los modelos lineales generalizados mixtos. Su aplicación en el mejoramiento de plantas. [Generalized linear mixed models. Its application in plant breeding] Cultivos Tropicales, 39(1), 127-133. https://n9.cl/v4vuu
Barrientos, A., Olaya, J., y González, V. (2007). Un modelo spline para el pronóstico de la demanda de energía eléctrica. [A spline model for forecasting electricity demand] Revista Colombiana de Estadística, 30(2), 187-202. https://n9.cl/ctu86h
Burbano, V., Valdivieso, M., y Burbano, Á. (2022). Modelos estadísticos no paramétricos en los libros de texto del nivel universitario. [Non-parametric statistical models in university-level textbooks] Revista de Investigación, Desarrollo e Innovación, 12(2), 265-278. https://doi.org/10.19053/20278306.v12.n2.2022.15270
Durban, R. (2009). Introducción al Suavizado con Penalizaciones: P-splines [An introduction to smoothing with penalties:P-splines]. BEIO, Boletín de Estadística e Investigación Operativa, 25(3), 195-205. https://n9.cl/2noir
Eilers, P., y Marx, B. (1996). Suavizado Flexible con B-Splines y Penalizaciones. [Flexible Smoothing with B-Splines and Penalties]. Statistical Science, 11(2), 89-102. https://n9.cl/ofjkyt
Hastie, T., y Tibshiranri, R. (1990). Modelos aditivos generalizados. [Generalized Additive Models]. https://n9.cl/0n7be
Lugo, L. (2018). Efecto de bacterias antagonistas y extractos vegetales sobre la dinámica poblacional de Ralstonia solanacearum (SMITH) YABUUCHI et al. Y la expresión de síntomas en tomate (Solanum lycopersicum L.) [Effect of antagonistic bacteria and plant extracts on the population dynamics of Ralstonia solanacearum (SMITH) YABUUCHI et al. and the expression of symptoms in tomato (Solanum lycopersicum L.] (Tesis doctoral). Doctorado en Ciencias Agrícolas, Universidad Central de Venezuela, Maracay, Venezuela.https://n9.cl/utlmt
Ramírez, A., y Polack, A. (2020). Estadística inferencial. Elección de una prueba estadística no paramétrica en investigación científica. [Inferential Statistics. Choice of a Non Parametric Statistical Test in Scientific Research] Horizonte de la Ciencia, 10(19), 191-208. https://n9.cl/m9ybb
Salas, E., Ojeda, N., y Soto, H. (2010). Métodos estadísticos paramétricos y no paramétricos para predecir variables de rodal basados en Landsat ETM+: una comparación en un bosque de Araucaria araucana en Chile. [Parametric and nonparametric statistical methods for predicting stand variables based on Landsat ETM+: a comparison in an Araucaria araucana forest in Chile]. Bosque, 31(3),179-194. https://n9.cl/mxtppl
Toriz, A., y Sánchez, A. (2017). Método de asociación de datos basado en curvas B-Spline para el problema de SLAM en ambientes complejos. [Data association method based on B-Spline curves for the SLAM problem in complex environments]. Computación y Sistemas, 21(2), 353-368. https://doi.org/10.13053/cys-21-2-2724
Wood, S. N. (2017). Modelos Aditivos Generalizados: Una Introducción. [Generalized Additive Models: An Introduction]. (2nd ed.) Boca Raton, Fl, E.U.A: Chapman Hall/CRC. https://n9.cl/l3yfy
©2024 por los autores. Este artículo es de acceso abierto y distribuido según los términos y condiciones de la licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0) (https://creativecommons.org/licenses/by-nc-sa/4.0/).