Situación
Unha pediatra toma nota dos pesos e as alturas dos bebés ao nacer para estudar se existe correlación entre ambas as variables.
Peso (kg) | 2,8 | 2,5 | 3,4 | 3,0 | 3,9 | 4,3 | 3,7 | 3,1 |
Altura (cm) | 46 | 48 | 49 | 47 | 52 | 54 | 52 | 48 |
- Copia a listaxe de datos e pégaa na Folla de cálculo de GeoGebra.
- Crea unha lista cos pesos e outra coas alturas, e tamén unha constante co tamaño da mostra. Sempre poden ser útiles nalgún momento do estudo.
- pesos = B1:I1
- alturas = B2:I2
- n = Lonxitude(B1:I1)
A ferramenta de análise
- Imos empregar directamente a ferramenta de análise de datos que ofrece GeoGebra, aínda que todos os parámetros que nos ofrecerá se poden calcular tamén mediante comandos. Selecciona co rato os datos das dúas variables e preme na icona Análise de regresión de dúas variables que atoparás na barra de ferramentas.
- Tras confirmar os datos tomados, automaticamente aparece unha representación gráfica de ambas as variables: un diagrama de dispersión ou nube de puntos. Premendo sobre o gráfico co botón dereito do rato podes, se queres, copialo na Vista Gráfica.
- Entre as opcións que ofrece a Análise de datos verás as mesmas que no caso unidimensional, e unha a maiores
que permite intercambiar o eixe no que se sitúa cada variable.
- Activando a opción correspondente
poderemos ver calculados varios parámetros estatísticos. A covarianza non aparece entre eles, pero podemos achala coa axuda das listas creadas anteriormente. De forma parecida, mediante comandos, poderiamos calcular calquera outro parámetro.
- covarianza = Covarianza(pesos, alturas)
- Os parámetros que aparecen son os seguintes:
MediaX | Media marxinal \(\quad\overline{x}\) |
MediaY | Media marxinal \(\quad\overline{y}\) |
Sx |
Desviación típica marxinal mostral \(s_X\). A poboacional é: \(\quad \sigma_X = \sqrt{\dfrac{n-1}{n}}s_X \) |
Sy |
Desviación típica marxinal mostral \(s_Y\). A poboacional é: \(\quad \sigma_Y = \sqrt{\dfrac{n-1}{n}}s_Y \) |
r | Coeficiente de correlación de Pearson |
ρ | Coeficiente de correlación de Spearman (menos sensible que o de Pearson para valores atípicos) |
Sxx |
Suma de cadrados de X. A varianza marxinal poboacional é: \(\quad Var(X) = \dfrac{Sxx}{n}\) |
Syy |
Suma de cadrados de Y. A varianza marxinal poboacional é: \(\quad Var(Y) = \dfrac{Syy}{n}\) |
Sxy |
Suma de produtos cruzados de X e Y. A covarianza é: \(\quad Cov(X,Y) = \dfrac{Sxy}{n}\) |
Regresión lineal
- Na listaxe de parámetros que ofrece directamente o GeoGebra está o coeficiente de correlación lineal. Ademais de interpretalo de forma conxunta co diagrama de dispersión, activando a opción dos datos
podemos desmarcar datos da nosa estatística. Neste exemplo concreto é moi interesante ver o efecto que ten sobre o coeficiente non considerar o dato \((2,5;\, 48)\), pois xa a simple vista se ve no gráfico que se desvía bastante da relación que seguen os demais.
- Tras interpretar o coeficiente de correlación, se é próximo a 1 en valor absoluto ten sentido preguntarse pola regresión lineal. Por defecto a Análise de datos non ten ningún marcado, pero basta con que selecciones Lineal no despregable do Modelo de regresión.
- Tras premer en Lineal verás no diagrama a recta de regresión lineal de Y sobre X. Podes obter a recta de X sobre Y sen máis que intercambiar o papel de ambas as variables premendo na opción
. Estas rectas permiten realizar estimacións baseadas na relación de dependencia entre as dúas variables. Practica estimando o peso esperado para un bebé que nace cunha altura de 50 cm, ou a altura esperada para un bebé que nace pesando 4 kg.
- Unha vez activado un modelo de regresión, verás que no recadro de parámetros apareceron outros dous: a suma dos erros cadrados e mais o coeficiente de determinación \(R^2\), que vén indicar o cambio porcentual producido nunha das variables ao realizarse un cambio dunha unidade na outra variable. Un valor \(R^2=0,84\) indica que un 84 % da variabilidade das alturas está explicada polos pesos; a porcentaxe restante tería outras explicacións ou deberíase simplemente ao azar.
- Igualmente, agora podes cambiar o tipo de gráfico e seleccionar, no canto do diagrama de dispersión, o Gráfico residual, que amosa de forma visual canto se desvía sobre o modelo cada un dos datos de partida. Podes mostrar ambos os gráficos á vez coa opción
.
- Eses residuos contribúen a facer un diagnóstico da calidade do modelo, para o cal se consideran propiedades como a linealidade, a normalidade dos residuos e a variabilidade constante dos residuos (coñecida como homocedasticidade).
- A linealidade pode analizarse mediante o diagrama de dispersión e o coeficiente de correlación lineal.
- A homocedasticidade pode analizarse a partir do gráfico residual, aínda que a simple vista e con poucos datos pode resultar difícil comprobar se os puntos están distribuídos de forma aleatoria e repartidos con equidade ao longo do eixe vertical.
- A normalidade dos residuos pode analizarse calculándoos e representándoos graficamente cun gráfico Q-Q cuantil normal. Isto podes facelo así (tes que fixarte ben en que cela tes os teus valores, quizais o que eu tiña en A6 ti o teñas noutro lugar):
- Na Folla de cálculo, calcula os valores teóricos para cada valor da variable independente facendo algo coma = 4.31315 * A6 + 35.10487.
- Na seguinte liña, calcula as diferenzas entre eses valores teóricos e os observados facendo algo coma = C6 - B6.
- Ambos os valores se deben calcular para todas as observacións. Ti escribe a fórmula só para a primeira, e aproveita que a folla de cálculo permite copiala no resto se ao premer nesa cela arrastras o pequeno cadrado que aparece na súa esquina inferior dereita.
- Fai unha lista con esas diferenzas, algo coma residuos = D6:D13.
- Representa o gráfico co comando GráficoCuantilNormal(residuos).
Regresión non lineal
- En moitas ocasións a relación existente entre dúas variables non é lineal, e GeoGebra permite o axuste a outro tipo de modelos.
Lineal | \( y_i = \beta_0 + \beta_1 x_i \) |
Log | \( y_i = \beta_0 + \beta_1 \ln (x_i) \) |
Polinomial | \( y_i = \beta_0 + \beta_1 x_i + \cdots + \beta_k x_i^k \) |
Potencia | \( y_i = \beta_0 x^{\beta_1}\) |
Exponencial | \( y_i = \beta_0 e^{x\beta_1} \) |
Crecemento | \( y_i = \beta_0 \beta_1^x \) |
Sen | \( y_i = \beta_0 + \beta_1 \sin(\beta_2 + \beta_3 x_i) \) |
Loxística | \( y_i = \dfrac{\beta_0}{1+ \beta_1 e^{\beta_2 x_i}} \) |
- Proba todos os modelos. Cales proporcionan para este exercicio un axuste mellor que o lineal? Se te fixas no gráfico residual, moito ollo coa escala vertical, que irá cambiando cando pases dun modelo a outro.
- Fíxate que o modelo polinomial de grao 7 axusta con perfección ao conxunto das 8 observacións. Graficamente vemos, non obstante, que non é un bo modelo, debido a que modelos máis complexos poden supoñer un sobreaxuste aos datos observados a costa de non axustar ben outros datos. Isto leva a que non resulte un bo estimador para todos os datos.
- Se o modelo logarítmico fose efectivo, os puntos \((y_i, \ln (x_i))\) deberían amosar unha relación lineal. Compróbao.
- modlog = Secuencia((Elemento(alturas, k), ln(Elemento(pesos, k))), k, 1, n)