Saltar navegación

Estatística bidimensional

Situación

Unha pediatra toma nota dos pesos e as alturas dos bebés ao nacer para estudar se existe correlación entre ambas as variables.

Peso (kg) 2,8 2,5 3,4 3,0 3,9 4,3 3,7 3,1
Altura (cm) 46 48 49 47 52 54 52 48
  • Copia a listaxe de datos e pégaa na Folla de cálculo de GeoGebra.
  • Crea unha lista cos pesos e outra coas alturas, e tamén unha constante co tamaño da mostra. Sempre poden ser útiles nalgún momento do estudo.
    • pesos = B1:I1
    • alturas = B2:I2
    • n = Lonxitude(B1:I1)

A ferramenta de análise

  • Imos empregar directamente a ferramenta de análise de datos que ofrece GeoGebra, aínda que todos os parámetros que nos ofrecerá se poden calcular tamén mediante comandos. Selecciona co rato os datos das dúas variables e preme na icona Análise de regresión de dúas variables que atoparás na barra de ferramentas.
  • Tras confirmar os datos tomados, automaticamente aparece unha representación gráfica de ambas as variables: un diagrama de dispersión ou nube de puntos. Premendo sobre o gráfico co botón dereito do rato podes, se queres, copialo na Vista Gráfica.

  • Entre as opcións que ofrece a Análise de datos verás as mesmas que no caso unidimensional, e unha a maiores  que permite intercambiar o eixe no que se sitúa cada variable.

  • Activando a opción correspondente  poderemos ver calculados varios parámetros estatísticos. A covarianza non aparece entre eles, pero podemos achala coa axuda das listas creadas anteriormente. De forma parecida, mediante comandos, poderiamos calcular calquera outro parámetro.
    • covarianza = Covarianza(pesos, alturas)
  • Os parámetros que aparecen son os seguintes:
MediaX Media marxinal \(\quad\overline{x}\)
MediaY Media marxinal \(\quad\overline{y}\)
Sx

Desviación típica marxinal mostral \(s_X\). A poboacional é:

\(\quad \sigma_X = \sqrt{\dfrac{n-1}{n}}s_X \)

Sy

Desviación típica marxinal mostral \(s_Y\). A poboacional é:

\(\quad \sigma_Y = \sqrt{\dfrac{n-1}{n}}s_Y \)

r Coeficiente de correlación de Pearson
ρ Coeficiente de correlación de Spearman (menos sensible que o de Pearson para valores atípicos)
Sxx

Suma de cadrados de X. A varianza marxinal poboacional é:

\(\quad Var(X) = \dfrac{Sxx}{n}\)

Syy

Suma de cadrados de Y. A varianza marxinal poboacional é:

\(\quad Var(Y) = \dfrac{Syy}{n}\)

Sxy

Suma de produtos cruzados de X e Y. A covarianza é:

\(\quad Cov(X,Y) = \dfrac{Sxy}{n}\)

Regresión lineal

  • Na listaxe de parámetros que ofrece directamente o GeoGebra está o coeficiente de correlación lineal. Ademais de interpretalo de forma conxunta co diagrama de dispersión, activando a opción dos datos  podemos desmarcar datos da nosa estatística. Neste exemplo concreto é moi interesante ver o efecto que ten sobre o coeficiente non considerar o dato \((2,5;\, 48)\), pois xa a simple vista se ve no gráfico que se desvía bastante da relación que seguen os demais.
  • Tras interpretar o coeficiente de correlación, se é próximo a 1 en valor absoluto ten sentido preguntarse pola regresión lineal. Por defecto a Análise de datos non ten ningún marcado, pero basta con que selecciones Lineal no despregable do Modelo de regresión.

  • Tras premer en Lineal verás no diagrama a recta de regresión lineal de Y sobre X. Podes obter a recta de X sobre Y sen máis que intercambiar o papel de ambas as variables premendo na opción . Estas rectas permiten realizar estimacións baseadas na relación de dependencia entre as dúas variables. Practica estimando o peso esperado para un bebé que nace cunha altura de 50 cm, ou a altura esperada para un bebé que nace pesando 4 kg.
  • Unha vez activado un modelo de regresión, verás que no recadro de parámetros apareceron outros dous: a suma dos erros cadrados e mais o coeficiente de determinación \(R^2\), que vén indicar o cambio porcentual producido nunha das variables ao realizarse un cambio dunha unidade na outra variable. Un valor \(R^2=0,84\) indica que un 84 % da variabilidade das alturas está explicada polos pesos; a porcentaxe restante tería outras explicacións ou deberíase simplemente ao azar.
  • Igualmente, agora podes cambiar o tipo de gráfico e seleccionar, no canto do diagrama de dispersión, o Gráfico residual, que amosa de forma visual canto se desvía sobre o modelo cada un dos datos de partida. Podes mostrar ambos os gráficos á vez coa opción .
  • Eses residuos contribúen a facer un diagnóstico da calidade do modelo, para o cal se consideran propiedades como a linealidade, a normalidade dos residuos e a variabilidade constante dos residuos (coñecida como homocedasticidade).
    • A linealidade pode analizarse mediante o diagrama de dispersión e o coeficiente de correlación lineal.
    • A homocedasticidade pode analizarse a partir do gráfico residual, aínda que a simple vista e con poucos datos pode resultar difícil comprobar se os puntos están distribuídos de forma aleatoria e repartidos con equidade ao longo do eixe vertical.
    • A normalidade dos residuos pode analizarse calculándoos e representándoos graficamente cun gráfico Q-Q cuantil normal. Isto podes facelo así (tes que fixarte ben en que cela tes os teus valores, quizais o que eu tiña en A6 ti o teñas noutro lugar):
      • Na Folla de cálculo, calcula os valores teóricos para cada valor da variable independente facendo algo coma = 4.31315 * A6 + 35.10487.
      • Na seguinte liña, calcula as diferenzas entre eses valores teóricos e os observados facendo algo coma = C6 - B6.
      • Ambos os valores se deben calcular para todas as observacións. Ti escribe a fórmula só para a primeira, e aproveita que a folla de cálculo permite copiala no resto se ao premer nesa cela arrastras o pequeno cadrado que aparece na súa esquina inferior dereita.
      • Fai unha lista con esas diferenzas, algo coma residuos = D6:D13.
      • Representa o gráfico co comando GráficoCuantilNormal(residuos).

Regresión non lineal

  • En moitas ocasións a relación existente entre dúas variables non é lineal, e GeoGebra permite o axuste a outro tipo de modelos.
Lineal  \( y_i = \beta_0 + \beta_1 x_i \)
Log  \( y_i = \beta_0 + \beta_1 \ln (x_i) \)
Polinomial  \( y_i = \beta_0 + \beta_1 x_i + \cdots + \beta_k x_i^k \)
Potencia  \( y_i = \beta_0 x^{\beta_1}\)
Exponencial  \( y_i = \beta_0 e^{x\beta_1} \)
Crecemento  \( y_i = \beta_0 \beta_1^x \)
Sen  \( y_i = \beta_0 + \beta_1 \sin(\beta_2 + \beta_3 x_i) \)
Loxística  \( y_i = \dfrac{\beta_0}{1+ \beta_1 e^{\beta_2 x_i}} \)
  • Proba todos os modelos. Cales proporcionan para este exercicio un axuste mellor que o lineal? Se te fixas no gráfico residual, moito ollo coa escala vertical, que irá cambiando cando pases dun modelo a outro.
  • Fíxate que o modelo polinomial de grao 7 axusta con perfección ao conxunto das 8 observacións. Graficamente vemos, non obstante, que non é un bo modelo, debido a que modelos máis complexos poden supoñer un sobreaxuste aos datos observados a costa de non axustar ben outros datos. Isto leva a que non resulte un bo estimador para todos os datos.
  • Se o modelo logarítmico fose efectivo, os puntos \((y_i, \ln (x_i))\) deberían amosar unha relación lineal. Compróbao.
    • modlog = Secuencia((Elemento(alturas, k), ln(Elemento(pesos, k))), k, 1, n)

Feito con eXeLearning (Nova ventá)