MODELANDO UNA VARIABLE

Imaginemos que tenemos un eje que representa el rango de valores que puede tomar una variable que nos interesa estudiar (por ejemplo, la altura de una persona).

¿Qué tipo de variable es? ¿Cuál es su rango de variación?

MODELANDO UNA VARIABLE

Claramente, la variable altura no puede tomar valores negativos y, como cota superior, podemos tomar 240 cm (conociendo que hay personas que han llegado a tales alturas, believe it or not!).

MODELANDO UNA VARIABLE

Ahora supongamos que tomamos una persona de una población y le medimos su altura, resultando en 170 cm. Representamos dicho valor en el eje con un punto.

MODELANDO UNA VARIABLE

Medimos la altura de otra persona de la misma población y obtenemos un valor de 190 cm. Representamos también dicho valor en el eje de variación de nuestra variable bajo estudio.

MODELANDO UNA VARIABLE

Como contamos con la información de la altura un grupo de 100 personas de la misma población, continuamos representando los valores observados sobre el eje. Estos valores conforman nuestra… ¿nuestra qué?

MODELANDO UNA VARIABLE

¿Qué herramientas conocemos para describir y resumir la información contenida en este conjunto de datos de una variable?

MODELANDO UNA VARIABLE

Ambos gráficos tienen dos ejes, pero… ¿cuántas variables tenemos representadas en ambos casos?

MODELO ESTADÍSTICO

En Introducción a la Inteligencia Artificial definimos a un modelo como:


“Una representación simplificada de la realidad que constituye una herramienta para responder interrogantes y resolver problemas.”


¿Qué modelo podemos generar con la información que disponemos si quisiéramos predecir la altura de una próxima persona a medir?

NUESTRO PRIMER MODELO

Nuestro modelo puede estar dado por el promedio o media aritmética de la altura de las personas que componen el dataset:


\(\bar y = \frac{1}{n}\sum_{i=1}^{n}y_i\)

Si tuviéramos otra variable que nos aporte información, ¿cómo la podríamos usar para mejorar nuestro modelo?

MODELANDO UNA VARIABLE

Supongamos que esa primera altura que medimos se la medimos a una persona llamada Juan, a la que, además, le registramos el peso (83.3 kg).

Persona Altura_cm Peso_kg
Juan 170 83.3

¿Cómo integramos esa información en el gráfico?

MODELANDO UNA VARIABLE

Agregamos el eje horizontal en este sistema de coordenadas cartesianas XY, en el que vamos a representar la variable peso. Suponemos, además, un rango de variación en el que se podría mover esa variable.

MODELANDO UNA VARIABLE

Ahora el punto verde representa tanto la altura como el peso de Juan.


Persona Altura_cm Peso_kg
Juan 170 83.3

MODELANDO UNA VARIABLE

Como registramos los pesos de todas las personas a las que les habíamos medido la altura, podemos representar todos los datos en este gráfico para explorar las características de la relación entre ambas variables.

MODELANDO UNA VARIABLE

Nuestro modelo original sigue siendo válido. Representamos la altura promedio de las personas de la muestra como un valor constante a través de todos los pesos registrados.

MODELANDO UNA VARIABLE

Sin embargo, viendo que existe asociación entre la altura y el peso de las personas, podríamos incorporar la información de la variable peso a nuestro modelo para apoyarnos en ella y predecir de una forma más ajustada la variable altura.

MODELANDO UNA VARIABLE

En términos matemáticos, el primer modelo que planteamos para predecir la altura de las personas de esta población tendría la siguiente forma:


\[Altura~predicha~(\hat y) = \bar y\]

MODELANDO UNA VARIABLE

Por otra parte, el segundo modelo propuesto, que incorpora la información de la variable peso, tendría la siguiente forma matemática:


\[Altura~predicha~(\hat y) = b*Peso~(x)\]


En esta Unidad, veremos cómo utilizar la información de una muestra para obtener un valor para el coeficiente b y así arribar a una ecuación matemática que modele la relación que existe entre la altura y el peso en las personas de la población.

ANÁLISIS DE REGRESIÓN

Bajo el nombre de análisis de regresión se engloba al conjunto de herramientas que permiten explicar (modelar matemáticamente) el comportamiento de una variable (variable respuesta (Y)) a partir de la información proporcionada por una o más variables (variable/s explicativa/s (X’s)).